cs.CV artículos | Gist.Science

MMSD3.0: A Multi-Image Benchmark for Real-World Multimodal Sarcasm Detection

Este trabajo presenta MMSD3.0, un nuevo benchmark compuesto exclusivamente por muestras de múltiples imágenes para la detección de sarcasmo multimodal en escenarios del mundo real, junto con el modelo CIRM que logra un rendimiento superior mediante el modelado de relaciones entre imágenes y una fusión multimodal guiada por relevancia.

Haochen Zhao, Yuyao Kong, Yongxiu Xu + 4 more2026-03-02💻 cs

Enhancing CLIP Robustness via Cross-Modality Alignment

El artículo presenta COLA, un marco de alineación cruzada basado en transporte óptimo que mejora la robustez de los modelos CLIP frente a perturbaciones adversarias al restaurar la alineación global y la consistencia estructural local en el espacio de características sin requerir entrenamiento adicional.

Xingyu Zhu, Beier Zhu, Shuo Wang + 2 more2026-03-02💻 cs

Attentive Feature Aggregation or: How Policies Learn to Stop Worrying about Robustness and Attend to Task-Relevant Visual Cues

Este trabajo presenta la Agregación de Características Atenta (AFA), un mecanismo de agrupamiento ligero que mejora la robustez de las políticas visuomotoras al aprender a ignorar distracciones visuales y centrarse únicamente en las señales relevantes para la tarea, sin necesidad de costosas aumentaciones de datos o ajuste fino de los modelos de visión preentrenados.

Nikolaos Tsagkas, Andreas Sochopoulos, Duolikun Danier + 4 more2026-03-02💻 cs

Score-Regularized Joint Sampling with Importance Weights for Flow Matching

Los autores proponen un marco de muestreo no independiente para modelos de flujo que combina una regularización basada en puntuación para garantizar la diversidad de las muestras y un mecanismo de ponderación por importancia para obtener estimaciones sin sesgo, mejorando así la fiabilidad en la caracterización de las salidas de estos modelos.

Xinshuang Liu, Runfa Blark Li, Shaoxiu Wei + 1 more2026-03-02🤖 cs.AI

General vs Domain-Specific CNNs: Understanding Pretraining Effects on Brain MRI Tumor Classification

Este estudio demuestra que, en la clasificación de tumores cerebrales mediante MRI con datos limitados, las arquitecturas CNN de propósito general preentrenadas (como ConvNeXt-Tiny) superan en rendimiento a las preentrenadas específicamente en datos médicos (como RadImageNet DenseNet121), desafiando la noción de que el preentrenamiento especializado garantiza mejores resultados en escenarios de escasez de datos.

Helia Abedini, Saba Rahimi, Reza Vaziri2026-03-02🤖 cs.AI

Q-Save: Towards Scoring and Attribution for Generated Video Evaluation

El artículo presenta Q-Save, un conjunto de datos de referencia holístico y un modelo unificado que evalúa simultáneamente la calidad visual, dinámica y la alineación texto-video en videos generados por IA, proporcionando tanto puntuaciones como explicaciones atributivas detalladas mediante una estrategia de entrenamiento avanzada.

Xiele Wu, Zicheng Zhang, Mingtao Chen + 7 more2026-03-02💻 cs

SocialNav: Training Human-Inspired Foundation Model for Socially-Aware Embodied Navigation

El artículo presenta SocialNav, un modelo fundacional jerárquico entrenado con un conjunto de datos a gran escala y un nuevo marco de aprendizaje por refuerzo (SAFE-GRPO) para lograr una navegación encarnada que no solo es eficiente, sino que también respeta rigurosamente las normas sociales.

Ziyi Chen, Yingnan Guo, Zedong Chu + 14 more2026-03-02🤖 cs.AI

Thinking with Drafts: Speculative Temporal Reasoning for Efficient Long Video Understanding

El artículo presenta SpecTemp, un marco de razonamiento temporal especulativo basado en aprendizaje por refuerzo que utiliza un diseño dual cooperativo para desacoplar la percepción temporal del razonamiento, logrando una comprensión eficiente de videos largos sin sacrificar la precisión.

Pengfei Hu, Meng Cao, Yingyao Wang + 6 more2026-03-02💻 cs

TARDis: Time Attenuated Representation Disentanglement for Incomplete Multi-Modal Tumor Segmentation and Classification

El artículo presenta TARDis, un marco de aprendizaje profundo consciente de la física que descompone las características latentes en componentes anatómicos estáticos y dinámicos de perfusión para inferir fases de contraste faltantes en tomografías computarizadas, logrando así una segmentación y clasificación precisa de tumores incluso con datos temporales incompletos.

Zishuo Wan, Qinqin Kang, Na Li + 6 more2026-03-02💻 cs

Self-Supervised AI-Generated Image Detection: A Camera Metadata Perspective

Este artículo presenta un enfoque de autoaprendizaje para la detección de imágenes generadas por IA que aprovecha los metadatos EXIF de las cámaras para extraer características fotográficas intrínsecas, logrando una generalización superior y una mayor robustez frente a perturbaciones en comparación con los métodos existentes.

Nan Zhong, Mian Zou, Yiran Xu + 4 more2026-03-02💻 cs

FRIEDA: Benchmarking Multi-Step Cartographic Reasoning in Vision-Language Models

El artículo presenta FRIEDA, un nuevo benchmark diseñado para evaluar el razonamiento cartográfico multi-paso en modelos de visión-lingüaje grandes, revelando mediante pruebas con once modelos avanzados una brecha significativa entre su rendimiento actual y la capacidad humana en la interpretación de relaciones espaciales complejas en mapas.

Jiyoon Pyo, Yuankun Jiao, Dongwon Jung + 11 more2026-03-02🤖 cs.AI

Sharp Monocular View Synthesis in Less Than a Second

El artículo presenta SHARP, un método que genera síntesis de vistas monoculares fotorrealistas en menos de un segundo mediante la regresión de una representación gaussiana 3D, logrando un nuevo estado del arte con una generalización cero-shot superior y una reducción significativa en el tiempo de síntesis.

Lars Mescheder, Wei Dong, Shiwei Li + 10 more2026-03-02🤖 cs.LG

Geometric-Photometric Event-based 3D Gaussian Ray Tracing

Este trabajo propone un marco novedoso para la reconstrucción 3D mediante *Gaussian Splatting* que aprovecha la alta resolución temporal de las cámaras de eventos mediante el desacoplamiento de la renderización en ramas geométrica y radiométrica, logrando un rendimiento de vanguardia sin necesidad de inicialización previa ni modelos preentrenados.

Kai Kohyama, Yoshimitsu Aoki, Guillermo Gallego + 1 more2026-03-02🤖 cs.AI

ColaVLA: Leveraging Cognitive Latent Reasoning for Hierarchical Parallel Trajectory Planning in Autonomous Driving

El artículo presenta ColaVLA, un marco unificado de visión-lenguaje-acción que supera las limitaciones de latencia y desajuste de los planificadores basados en modelos de lenguaje visual mediante un razonador latente cognitivo y un planificador paralelo jerárquico, logrando un rendimiento de vanguardia en la planificación de trayectorias para la conducción autónoma.

Qihang Peng, Xuesong Chen, Chenye Yang + 2 more2026-03-02💻 cs

Inference-time Physics Alignment of Video Generative Models with Latent World Models

Este trabajo presenta WMReward, un enfoque de alineación en tiempo de inferencia que utiliza un modelo de mundo latente como recompensa para guiar la generación de video y mejorar significativamente su plausibilidad física, logrando el primer lugar en el desafío PhysicsIQ de ICCV 2025.

Jianhao Yuan, Xiaofeng Zhang, Felix Friedrich + 7 more2026-03-02💻 cs

CPiRi: Channel Permutation-Invariant Relational Interaction for Multivariate Time Series Forecasting

CPiRi es un marco de predicción de series temporales multivariadas que combina una arquitectura de desacoplamiento espaciotemporal con una estrategia de entrenamiento regularizada por permutación para lograr invariancia al orden de los canales, superando así las limitaciones de los modelos dependientes e independientes de canales y logrando un rendimiento superior, generalización inductiva a canales no vistos y eficiencia práctica.

Jiyuan Xu, Wenyu Zhang, Xin Jing + 3 more2026-03-02💻 cs

Scale Equivariance Regularization and Feature Lifting in High Dynamic Range Modulo Imaging

Este trabajo propone un marco de restauración HDR basado en aprendizaje para imágenes de módulo que, mediante una regularización equivariante a la escala y un diseño de entrada con elevación de características, logra un rendimiento superior al estado del arte al distinguir eficazmente las estructuras reales de las discontinuidades de envoltura.

Brayan Monroy, Jorge Bacca2026-03-02⚡ eess

Imagine a City: CityGenAgent for Procedural 3D City Generation

El artículo presenta CityGenAgent, un marco impulsado por lenguaje natural que utiliza una estrategia de aprendizaje en dos etapas (ajuste fino supervisado y aprendizaje por refuerzo) para generar y editar ciudades 3D procedurales de alta calidad mediante programas jerárquicos interpretables, superando a los métodos existentes en alineación semántica, calidad visual y controlabilidad.

Zishan Liu, Zecong Tang, RuoCheng Wu + 6 more2026-03-02💻 cs

Erase at the Core: Representation Unlearning for Machine Unlearning

El artículo presenta "Erase at the Core" (EC), un marco modelo-agnóstico que aborda el olvido superficial en el aprendizaje automático al aplicar desaprendizaje contrastivo y aprendizaje supervisado profundo en todas las capas intermedias de la red, logrando así un borrado efectivo tanto a nivel de logits como de representaciones internas sin comprometer el rendimiento en el conjunto de retención.

Jaewon Lee, Yongwoo Kim, Donghyun Kim2026-03-02🤖 cs.LG

PixelRush: Ultra-Fast, Training-Free High-Resolution Image Generation via One-step Diffusion

PixelRush es un marco de generación de imágenes de alta resolución sin ajuste que, mediante una estrategia de mezcla sin costuras y un mecanismo de inyección de ruido, logra generar imágenes 4K en aproximadamente 20 segundos, ofreciendo una aceleración de 10 a 35 veces frente a los métodos actuales sin sacrificar la fidelidad visual.

Hong-Phuc Lai, Phong Nguyen, Anh Tran2026-03-02💻 cs

← Anterior Siguiente →