SCOPE: Scene-Contextualized Incremental Few-Shot 3D Segmentation

El paper presenta SCOPE, un marco plug-and-play que mejora la segmentación 3D incremental de pocos ejemplos enriqueciendo los prototipos de nuevas clases con información contextual de fondo no etiquetada, logrando así un rendimiento superior y una menor catástrofe del olvido en conjuntos de datos como ScanNet y S3DIS.

Vishal Thengane, Zhaochong An, Tianjin Huang, Son Lam Phung, Abdesselam Bouzerdoum, Lu Yin, Na Zhao, Xiatian Zhu2026-03-09🤖 cs.LG

BEVLM: Distilling Semantic Knowledge from LLMs into Bird's-Eye View Representations

El artículo presenta BEVLM, un marco que conecta representaciones de vista aérea (BEV) con modelos de lenguaje grandes (LLM) para superar las limitaciones de consistencia espacial y riqueza semántica, mejorando significativamente tanto el razonamiento en escenarios de conducción complejos como el rendimiento en sistemas de conducción autónoma de extremo a extremo.

Thomas Monninger, Shaoyuan Xie, Qi Alfred Chen, Sihao Ding2026-03-09🤖 cs.AI

Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion

El artículo presenta Omni-Diffusion, el primer modelo de lenguaje multimodal de cualquier tipo a cualquier tipo que unifica la comprensión y la generación de texto, voz e imágenes mediante un modelo de difusión discreta basado en máscaras, superando o igualando el rendimiento de los sistemas multimodales existentes.

Lijiang Li, Zuwei Long, Yunhang Shen, Heting Gao, Haoyu Cao, Xing Sun, Caifeng Shan, Ran He, Chaoyou Fu2026-03-09💻 cs

Multimodal Large Language Models as Image Classifiers

Este artículo demuestra que el aparente rendimiento inferior de los Modelos de Lenguaje Grandes Multimodales (MLLM) en tareas de clasificación se debe principalmente a protocolos de evaluación defectuosos y etiquetas de referencia ruidosas, las cuales, al corregirse, revelan que estos modelos pueden igualar a los supervisados y ayudar eficazmente en la curación de grandes conjuntos de datos.

Nikita Kisel, Illia Volkov, Klara Janouskova, Jiri Matas2026-03-09💻 cs

Seeing Through Uncertainty: A Free-Energy Approach for Real-Time Perceptual Adaptation in Robust Visual Navigation

El artículo presenta FEP-Nav, un marco inspirado biológicamente que implementa la adaptación perceptiva en tiempo real para la navegación visual robusta minimizando la energía libre variacional mediante un mecanismo dual de decodificación descendente y normalización adaptativa, superando así a los métodos existentes en entornos con corrupciones sensoriales.

Maytus Piriyajitakonkij, Rishabh Dev Yadav, Mingfei Sun + 2 more2026-03-06💻 cs

EasyAnimate: High-Performance Video Generation Framework with Hybrid Windows Attention and Reward Backpropagation

El artículo presenta EasyAnimate, un marco de generación de video de alto rendimiento que utiliza atención híbrida en ventanas y retropropagación de recompensas para lograr una velocidad de inferencia superior y una calidad de video de vanguardia, superando a los modelos existentes en eficiencia y resultados evaluados por humanos.

Jiaqi Xu, Kunzhe Huang, Xinyi Zou + 5 more2026-03-06💻 cs

Flatness Guided Test-Time Adaptation for Vision-Language Models

Este trabajo propone el marco de adaptación guiada por la planitud (FGA) para modelos de visión y lenguaje, el cual unifica coherentemente el entrenamiento y la adaptación en tiempo de prueba mediante el aprovechamiento de la planitud geométrica adquirida durante el entrenamiento para guiar la selección de muestras, logrando así un rendimiento superior con menor costo computacional en comparación con los métodos existentes.

Aodi Li, Liansheng Zhuang, Xiao Long + 2 more2026-03-06💻 cs

MedFuncta: A Unified Framework for Learning Efficient Medical Neural Fields

MedFuncta es un marco unificado que permite el entrenamiento eficiente de campos neuronales a gran escala en datos médicos mediante la codificación de señales en vectores latentes que modulan una red compartida, optimizando parámetros de activación y estrategias de meta-aprendizaje para reducir el consumo de recursos mientras se habilitan tareas posteriores y se libera el primer conjunto de datos masivo de este tipo, MedNF.

Paul Friedrich, Florentin Bieder, Julian McGinnis + 3 more2026-03-06💻 cs

Noise2Ghost: Self-supervised deep convolutional reconstruction for ghost imaging

El artículo presenta Noise2Ghost, un método de reconstrucción de imagen fantasma basado en aprendizaje profundo auto-supervisado que elimina la necesidad de datos de referencia limpios y ofrece una reducción de ruido superior, facilitando así aplicaciones de imagen en condiciones de baja luz como la fluorescencia de rayos X en muestras biológicas y baterías.

Mathieu Manni, Dmitry Karpov, K. Joost Batenburg + 2 more2026-03-06🔬 physics

PhysLLM: Harnessing Large Language Models for Cross-Modal Remote Physiological Sensing

El artículo presenta PhysLLM, un marco de optimización colaborativa que integra modelos de lenguaje grandes con componentes específicos de fotopletismografía remota (rPPG) mediante estrategias de alineación semántica y reponderación de características para lograr mediciones fisiológicas no invasivas de alta precisión y robustez ante cambios de iluminación y movimiento.

Yiping Xie, Bo Zhao, Mingtong Dai + 6 more2026-03-06💻 cs

RESAR-BEV: An Explainable Progressive Residual Autoregressive Approach for Camera-Radar Fusion in BEV Segmentation

El artículo presenta RESAR-BEV, un marco de fusión cámara-radar explicable y progresivo para la segmentación en vista cenital que supera a los métodos existentes mediante un aprendizaje autoregresivo residual, una representación robusta de BEV y una supervisión desacoplada, logrando un rendimiento de vanguardia (54.0% mIoU) y tiempo real (14.6 FPS) en el conjunto de datos nuScenes.

Zhiwen Zeng, Yunfei Yin, Zheng Yuan + 2 more2026-03-06💻 cs