Counterfactual Explanations on Robust Perceptual Geodesics

Este artículo presenta Perceptual Counterfactual Geodesics (PCG), un método que genera explicaciones contrafactuales semánticamente válidas y suaves al trazar geodésicas en un espacio latente con una métrica riemanniana perceptual derivada de características de visión robusta, superando así las limitaciones de los enfoques existentes que sufren de artefactos fuera de la variedad o colapso adversarial.

Eslam Zaher, Maciej Trzaskowski, Quan Nguyen + 1 more2026-03-03🤖 cs.LG

Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

El artículo presenta Vision-DeepResearch, un nuevo paradigma para modelos de lenguaje grandes multimodales que internaliza capacidades de investigación profunda mediante búsqueda visual y textual multi-turno, multi-entidad y multi-escala, superando significativamente a los enfoques existentes y a flujos de trabajo basados en modelos propietarios de vanguardia en escenarios reales con alto nivel de ruido.

Wenxuan Huang, Yu Zeng, Qiuchen Wang + 13 more2026-03-03🤖 cs.AI

Gradient-Aligned Calibration for Post-Training Quantization of Diffusion Models

Este artículo propone un nuevo método de cuantización post-entrenamiento para modelos de difusión que asigna pesos óptimos a las muestras de calibración para alinear los gradientes entre pasos de tiempo, superando así las limitaciones de las técnicas uniformes existentes y mejorando el rendimiento en conjuntos de datos como CIFAR-10, LSUN-Bedrooms e ImageNet.

Dung Anh Hoang, Cuong Pham anh Trung Le, Jianfei Cai + 1 more2026-03-03🤖 cs.LG

Contribution-aware Token Compression for Efficient Video Understanding via Reinforcement Learning

El artículo presenta CaCoVID, un nuevo algoritmo de compresión de tokens para la comprensión de video que utiliza aprendizaje por refuerzo para optimizar activamente la selección de tokens basándose en su contribución real a las predicciones correctas, superando así las limitaciones de los métodos tradicionales que priorizan únicamente las puntuaciones de atención.

Yinchao Ma, Qiang Zhou, Zhibin Wang + 4 more2026-03-03🤖 cs.AI

Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models

Este trabajo presenta VDR-Bench, un nuevo benchmark de 2.000 instancias diseñado para evaluar de manera realista las capacidades de búsqueda visual y textual en modelos de lenguaje grandes multimodales, abordando las limitaciones de los conjuntos de datos existentes mediante una curación rigurosa y proponiendo un flujo de trabajo de búsqueda recortada multi-vuelta que mejora significativamente el rendimiento en escenarios prácticos.

Yu Zeng, Wenxuan Huang, Zhen Fang + 14 more2026-03-03💬 cs.CL

Single-Slice-to-3D Reconstruction in Medical Imaging and Natural Objects: A Comparative Benchmark with SAM 3D

Este estudio compara cinco modelos de vanguardia para la reconstrucción 3D a partir de una sola imagen en dominios médicos y naturales, revelando que, aunque todos enfrentan una baja superposición volumétrica debido a la ambigüedad de profundidad, SAM3D logra la mejor similitud topológica en datos médicos, lo que subraya la necesidad de adaptación específica del dominio para superar las limitaciones actuales.

Yan Luo, Advaith Ravishankar, Serena Liu + 2 more2026-03-03💻 cs

EchoTorrent: Towards Swift, Sustained, and Streaming Multi-Modal Video Generation

El artículo presenta EchoTorrent, un nuevo esquema de generación de video multimodal en streaming que supera las limitaciones de latencia y estabilidad temporal mediante cuatro innovaciones clave: entrenamiento con múltiples profesores, calibración adaptativa de CFG, forzamiento híbrido de cola larga y refinamiento del decodificador VAE, logrando así una generación autoregresiva rápida con alta consistencia temporal y sincronización audio-labial.

Rang Meng, Yingjie Yin, Yuming Li + 1 more2026-03-03💻 cs

Deformation-Free Cross-Domain Image Registration via Position-Encoded Temporal Attention

El artículo presenta GPEReg-Net, un marco de registro de imágenes entre dominios que elimina la necesidad de estimar campos de deformación explícitos mediante la descomposición de la imagen en representaciones invariantes al dominio y estadísticas de apariencia, aprovechando la coherencia temporal a través de un mecanismo de atención codificada por posición para lograr un rendimiento superior y una mayor velocidad en comparación con los métodos existentes.

Yiwen Wang, Jiahao Qin2026-03-03🤖 cs.AI

Prefer-DAS: Learning from Local Preferences and Sparse Prompts for Domain Adaptive Segmentation of Electron Microscopy

Prefer-DAS es un modelo multitarea adaptable a dominios para la segmentación de microscopía electrónica que supera a los métodos existentes al integrar aprendizaje con prompts dispersos y optimización de preferencias locales (LPO, SLPO y UPO), logrando un rendimiento cercano o superior al de modelos supervisados tanto en modos automáticos como interactivos.

Jiabao Chen, Shan Xiong, Jialin Peng2026-03-03💻 cs

Hepato-LLaVA: An Expert MLLM with Sparse Topo-Pack Attention for Hepatocellular Pathology Analysis on Whole Slide Images

El artículo presenta Hepato-LLaVA, un modelo de lenguaje multimodal especializado que utiliza un mecanismo de atención Sparse Topo-Pack para analizar imágenes de diapositivas completas de carcinoma hepatocelular, junto con un nuevo conjunto de datos validado por expertos, logrando un rendimiento superior en tareas de diagnóstico y descripción patológica.

Yuxuan Yang, Zhonghao Yan, Yi Zhang + 6 more2026-03-03💻 cs

Leveraging Causal Reasoning Method for Explaining Medical Image Segmentation Models

Este artículo presenta un modelo de explicación para la segmentación de imágenes médicas que utiliza el razonamiento causal y el efecto medio de tratamiento (ATE) para cuantificar la influencia de las regiones de entrada y los componentes de la red, demostrando una mayor fidelidad que las técnicas existentes y revelando heterogeneidades en las estrategias de percepción de diversos modelos fundamentales.

Limai Jiang, Ruitao Xie, Bokai Yang + 6 more2026-03-03💻 cs

Dataset Color Quantization: A Training-Oriented Framework for Dataset-Level Compression

El artículo propone el marco de Cuantización de Color de Conjuntos de Datos (DCQ), una solución unificada que comprime grandes conjuntos de datos visuales reduciendo la redundancia en el espacio de color mediante la preservación de colores semánticamente importantes y detalles estructurales, logrando así un almacenamiento eficiente sin sacrificar el rendimiento del entrenamiento del modelo.

Chenyue Yu, Lingao Xiao, Jinhong Deng + 2 more2026-03-03🤖 cs.AI

VII: Visual Instruction Injection for Jailbreaking Image-to-Video Generation Models

Este trabajo presenta VII, un marco de jailbreaking sin entrenamiento que explota la capacidad de seguir instrucciones visuales en modelos de generación de video a partir de imágenes para inyectar intenciones maliciosas a través de imágenes de referencia seguras, logrando altas tasas de éxito en ataques contra modelos comerciales de última generación.

Bowen Zheng, Yongli Xiang, Ziming Hong + 4 more2026-03-03💻 cs