Efficient Domain-Adaptive Multi-Task Dense Prediction with Vision Foundation Models

Este artículo presenta FAMDA, un marco de adaptación de dominio no supervisado que aprovecha modelos fundacionales de visión en un paradigma de auto-entrenamiento para generar pseudoetiquetas de alta calidad, permitiendo entrenar redes estudiantas ligeras y eficientes que alcanzan un rendimiento de vanguardia en tareas de predicción densa multiobjetivo para aplicaciones robóticas.

Beomseok Kang, Niluthpol Chowdhury Mithun, Mikhail Sizintsev, Han-Pang Chiu, Supun Samarasekera2026-03-10💻 cs

QuantSparse: Comprehensively Compressing Video Diffusion Transformer with Model Quantization and Attention Sparsification

El artículo presenta QuantSparse, un marco unificado que combina cuantización de modelos y esparcimiento de atención mediante destilación de atención saliente multiescala y reparametrización de atención dispersa de segundo orden para comprimir eficientemente los transformadores de difusión de video sin degradar significativamente su rendimiento.

Weilun Feng, Chuanguang Yang, Haotong Qin, Mingqiang Wu, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

Unified Multi-Modal Interactive & Reactive 3D Motion Generation via Rectified Flow

El artículo presenta DualFlow, un marco unificado y eficiente basado en flujo rectificado que genera movimientos 3D realistas y coordinados para dos personas condicionados a múltiples modalidades (texto, música y secuencias previas), mejorando la calidad, la sincronización y la fidelidad semántica mediante un módulo de generación aumentada por recuperación (RAG) y objetivos de alineación contrastiva.

Prerit Gupta, Shourya Verma, Ananth Grama, Aniket Bera2026-03-10💻 cs

PHASE-Net: Physics-Grounded Harmonic Attention System for Efficient Remote Photoplethysmography Measurement

Este trabajo presenta PHASE-Net, un modelo ligero y teóricamente fundamentado en la física para la medición de fotopletismografía remota (rPPG) que supera las limitaciones de los métodos existentes mediante un sistema de atención armónica que combina un intercambiador axial de costo cero, un filtro espacial adaptativo y una TCN con compuertas para lograr un monitoreo fisiológico no invasivo robusto y eficiente.

Bo Zhao, Dan Guo, Junzhe Cao, Yong Xu, Bochao Zou, Tao Tan, Yue Sun, Zitong Yu2026-03-10💻 cs

LMOD+: A Comprehensive Multimodal Dataset and Benchmark for Developing and Evaluating Multimodal Large Language Models in Ophthalmology

El artículo presenta LMOD+, un conjunto de datos y benchmark multimodal a gran escala en oftalmología que expande significativamente el trabajo previo para evaluar modelos de lenguaje grandes multimodales en tareas como diagnóstico, estadificación y predicción demográfica, con el objetivo de avanzar en aplicaciones de IA para reducir la carga global de enfermedades oculares.

Zhenyue Qin, Yang Liu, Yu Yin, Jinyu Ding, Haoran Zhang, Anran Li, Dylan Campbell, Xuansheng Wu, Ke Zou, Tiarnan D. L. Keenan, Emily Y. Chew, Zhiyong Lu, Yih Chung Tham, Ninghao Liu, Xiuzhen Zhang, Qingyu Chen2026-03-10💻 cs

Streaming Drag-Oriented Interactive Video Manipulation: Drag Anything, Anytime!

El artículo presenta REVEL, una nueva tarea de manipulación interactiva de videos en tiempo real que permite modificar cualquier elemento en cualquier momento, y propone DragStream, un método sin entrenamiento que corrige la deriva latente y mitiga interferencias contextuales para lograr resultados visualmente naturales en modelos de difusión autoregresivos.

Junbao Zhou, Yuan Zhou, Kesen Zhao, Qingshan Xu, Beier Zhu, Richang Hong, Hanwang Zhang2026-03-10💻 cs

Real-Time Motion-Controllable Autoregressive Video Diffusion

El artículo presenta AR-Drag, el primer modelo de difusión autoregresivo de pocos pasos potenciado por aprendizaje por refuerzo que permite la generación de video en tiempo real a partir de imágenes con control de movimiento preciso y alta fidelidad visual, superando las limitaciones de latencia y calidad de los enfoques existentes.

Kesen Zhao, Jiaxin Shi, Beier Zhu, Junbao Zhou, Xiaolong Shen, Yuan Zhou, Qianru Sun, Hanwang Zhang2026-03-10💻 cs

Unsupervised Deep Generative Models for Anomaly Detection in Neuroimaging: A Systematic Scoping Review

Esta revisión sistemática de alcance analiza estudios publicados entre 2018 y 2025 sobre el uso de modelos generativos profundos no supervisados para la detección de anomalías en neuroimagen, concluyendo que, aunque prometen localizar patologías sin datos anotados, su aplicación clínica enfrenta desafíos como la heterogeneidad metodológica y la falta de validación externa.

Youwan Mahé, Elise Bannier, Stéphanie Leplaideur, Elisa Fromont, Francesca Galassi2026-03-10💻 cs

Taming Modality Entanglement in Continual Audio-Visual Segmentation

Este trabajo aborda el desafío de la entrelazamiento modal en el aprendizaje continuo de segmentación audio-visual mediante la propuesta de una nueva tarea (CAVS) y un marco de ensayo multimodal basado en colisiones (CMR) que, mediante estrategias de selección y frecuencia de muestras, mitiga la deriva semántica y la confusión por co-ocurrencia, superando significativamente a los métodos unimodales.

Yuyang Hong, Qi Yang, Tao Zhang, Zili Wang, Zhaojin Fu, Kun Ding, Bin Fan, Shiming Xiang2026-03-10💻 cs

Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks

El artículo presenta Dream4Drive, un marco de generación de datos sintéticos que utiliza modelos de mundo de conducción y activos 3D para crear casos extremos multivista fotorealistas, demostrando así una mejora significativa en el rendimiento de los modelos de percepción para la conducción autónoma.

Kai Zeng, Zhanqian Wu, Kaixin Xiong, Xiaobao Wei, Xiangyu Guo, Zhenxin Zhu, Kalok Ho, Lijun Zhou, Bohan Zeng, Ming Lu, Haiyang Sun, Bing Wang, Guang Chen, Hangjun Ye, Wentao Zhang2026-03-10💻 cs

MoE-GS: Mixture of Experts for Dynamic Gaussian Splatting

El artículo presenta MoE-GS, un marco unificado pionero que integra una arquitectura de Mezcla de Expertos con un enrutador de píxeles consciente del volumen para mejorar la síntesis de nuevas vistas en escenas dinámicas mediante la combinación de priores de deformación heterogéneos, logrando un rendimiento superior al estado del arte junto con estrategias de eficiencia como la poda de Gaussianos y la destilación.

In-Hwan Jin, Hyeongju Mun, Joonsoo Kim, Kugjin Yun, Kyeongbo Kong2026-03-10💻 cs

Automated Pest Counting in Water Traps through Active Robotic Stirring for Occlusion Handling

Este artículo propone un método automatizado para el conteo de plagas en trampas de agua que utiliza un brazo robótico con un sistema de agitación activa y control de velocidad adaptativa para mitigar la oclusión, demostrando que el patrón de agitación de cuatro círculos reduce significativamente el error de conteo y el tiempo de ejecución en comparación con los métodos estáticos tradicionales.

Xumin Gao, Mark Stevens, Grzegorz Cielniak2026-03-10💻 cs

Jr. AI Scientist and Its Risk Report: Autonomous Scientific Exploration from a Baseline Paper

El artículo presenta a Jr. AI Scientist, un sistema autónomo que imita el flujo de trabajo de un investigador novato para generar contribuciones científicas válidas a partir de artículos base, demostrando su superioridad sobre sistemas automatizados anteriores mientras identifica sus limitaciones actuales y los riesgos asociados para la integridad de la investigación académica.

Atsuyuki Miyai, Mashiro Toyooka, Takashi Otonari, Zaiying Zhao, Kiyoharu Aizawa2026-03-10🤖 cs.LG

Counting Through Occlusion: Framework for Open World Amodal Counting

El artículo presenta CountOCC, un marco de trabajo para el conteo amodal en entornos abiertos que supera las limitaciones de los métodos actuales al reconstruir las características de objetos oclidos mediante guía multimodal jerárquica y un objetivo de equivalencia visual, logrando así un rendimiento superior en conjuntos de datos de evaluación ocultos.

Safaeid Hossain Arib, Rabeya Akter, Abdul Monaf Chowdhury, Md Jubair Ahmed Sourov, Md Mehedi Hasan2026-03-10💻 cs