DriverGaze360: OmniDirectional Driver Attention with Object-Level Guidance

Este artículo presenta DriverGaze360, un nuevo conjunto de datos a gran escala con campo de visión de 360° y un método de predicción de atención llamado DriverGaze360-Net que, al integrar la detección de objetos, supera las limitaciones de los enfoques anteriores para modelar el comportamiento de la mirada del conductor en entornos de conducción omnidireccionales.

Shreedhar Govil, Didier Stricker, Jason Rambach2026-03-06💻 cs

PhyGDPO: Physics-Aware Groupwise Direct Preference Optimization for Physically Consistent Text-to-Video Generation

Este artículo presenta PhyGDPO, un marco de optimización directa grupal consciente de la física que, junto con un pipeline de construcción de datos aumentados (PhyAugPipe) y un conjunto de datos a gran escala (PhyVidGen-135K), mejora significativamente la consistencia física en la generación de video texto-a-video superando a los métodos actuales.

Yuanhao Cai, Kunpeng Li, Menglin Jia + 11 more2026-03-06💻 cs

Where is the multimodal goal post? On the Ability of Foundation Models to Recognize Contextually Important Moments

Este trabajo evalúa la capacidad de los modelos fundacionales para identificar momentos clave en videos de fútbol, revelando mediante un nuevo dataset que su rendimiento es cercano al azar debido a su dependencia de una sola modalidad y la falta de sinergia entre fuentes de información, lo que subraya la necesidad de arquitecturas modulares y procedimientos de entrenamiento complementarios.

Aditya K Surikuchi, Raquel Fernández, Sandro Pezzelle2026-03-06💻 cs

Rolling Sink: Bridging Limited-Horizon Training and Open-Ended Testing in Autoregressive Video Diffusion

El artículo presenta "Rolling Sink", una solución sin entrenamiento que cierra la brecha entre el horizonte limitado de entrenamiento y la generación de video abierta mediante el análisis de la memoria caché en modelos de difusión autoregresivos, permitiendo la síntesis de videos ultra largos con alta fidelidad visual y consistencia temporal.

Haodong Li, Shaoteng Liu, Zhe Lin + 1 more2026-03-06💻 cs

Learning to Select Like Humans: Explainable Active Learning for Medical Imaging

Este artículo propone un marco de aprendizaje activo guiado por explicabilidad que, al combinar la incertidumbre predictiva con la desalineación de la atención espacial respecto a las regiones de interés definidas por expertos, logra una mayor eficiencia en el uso de datos y una mejor interpretabilidad clínica en el análisis de imágenes médicas.

Ifrat Ikhtear Uddin, Longwei Wang, Xiao Qin + 2 more2026-03-06💻 cs

Pailitao-VL: Unified Embedding and Reranker for Real-Time Multi-Modal Industrial Search

Este trabajo presenta Pailitao-VL, un sistema de búsqueda industrial multimodal en tiempo real que supera las limitaciones de precisión y eficiencia de las soluciones actuales mediante un nuevo paradigma de incrustación basado en reconocimiento de ID absoluto y un reordenador generativo de lista comparativa, logrando un rendimiento superior y un impacto comercial significativo en la plataforma de comercio electrónico de Alibaba.

Lei Chen, Chen Ju, Xu Chen + 13 more2026-03-06💻 cs

CARE: A Molecular-Guided Foundation Model with Adaptive Region Modeling for Whole Slide Image Analysis

El artículo presenta CARE, un modelo fundacional de patología que utiliza un enfoque de dos etapas con alineación cruzada de modalidades (ARN y proteínas) para dividir automáticamente las imágenes de diapositivas completas en regiones adaptativas morfológicamente relevantes, logrando un rendimiento superior en múltiples tareas con solo una décima parte de los datos de entrenamiento habituales.

Di Zhang, Zhangpeng Gong, Xiaobo Pang + 14 more2026-03-06💻 cs

RobustVisRAG: Causality-Aware Vision-Based Retrieval-Augmented Generation under Visual Degradations

El artículo presenta RobustVisRAG, un marco de generación aumentada por recuperación basada en visión guiado por causalidad que separa eficazmente los factores semánticos de las degradaciones visuales mediante un enfoque de doble vía, logrando así una mayor robustez en la recuperación y generación de respuestas bajo condiciones visuales adversas sin sacrificar la precisión en entradas limpias.

I-Hsiang Chen, Yu-Wei Liu, Tse-Yu Wu + 3 more2026-03-06💻 cs