MC-INR: Efficient Encoding of Multivariate Scientific Simulation Data using Meta-Learning and Clustered Implicit Neural Representations

El artículo presenta MC-INR, un marco de aprendizaje profundo que combina meta-aprendizaje, agrupamiento dinámico basado en errores residuales y una arquitectura de capas ramificadas para codificar de manera eficiente datos de simulaciones científicas multivariadas en mallas no estructuradas, superando las limitaciones de flexibilidad y escalabilidad de los métodos existentes.

Hyunsoo Son, Jeonghyun Noh, Suemin Jeon + 2 more2026-03-04🤖 cs.LG

InstructVLA: Vision-Language-Action Instruction Tuning from Understanding to Manipulation

El artículo presenta InstructVLA, un modelo visión-idioma-acción que mediante una nueva estrategia de ajuste fino (VLA-IT) y adaptación de expertos mixtos logra preservar el razonamiento flexible de los grandes modelos de lenguaje mientras alcanza un rendimiento líder en manipulación robótica, superando significativamente a los enfoques existentes tanto en tareas simuladas como en entornos del mundo real.

Shuai Yang, Hao Li, Bin Wang + 7 more2026-03-04💻 cs

Zero-shot CT Super-Resolution using Diffusion-based 2D Projection Priors and Signed 3D Gaussians

Este trabajo propone un marco de superresolución cero-shot para tomografía computarizada 3D que integra priores de proyección 2D generados por difusión y un nuevo método de splatting gaussiano 3D con mezcla alfa negativa para reconstruir volúmenes de alta resolución a partir de entradas de baja resolución sin necesidad de datos de entrenamiento emparejados.

Jeonghyun Noh, Hyun-Jic Oh, Won-Ki Jeong2026-03-04⚡ eess

Are VLMs Ready for Lane Topology Awareness in Autonomous Driving?

Este trabajo evalúa sistemáticamente la capacidad de los Modelos Visuales-Lingüísticos (VLM) para comprender la topología vial en la conducción autónoma, revelando que, a pesar de algunos avances, los modelos actuales (incluidos los de vanguardia) siguen fallando en tareas de razonamiento espacial clave, lo que indica que esta habilidad sigue siendo un cuello de botella fundamental.

Xin Chen, Jia He, Maozheng Li + 5 more2026-03-04💻 cs

Proxy-GS: Unified Occlusion Priors for Training and Inference in Structured 3D Gaussian Splatting

El trabajo presenta Proxy-GS, un enfoque innovador que utiliza un sistema proxy rápido para introducir conciencia de oclusión en el entrenamiento y la inferencia de la Splatting de Gaussiano 3D, logrando así una aceleración significativa en la renderización y una mejora en la calidad visual al eliminar redundancias y guiar la densificación hacia superficies visibles.

Yuanyuan Gao, Yuning Gong, Yifei Liu + 6 more2026-03-04💻 cs

MIRAGE: Runtime Scheduling for Multi-Vector Image Retrieval with Hierarchical Decomposition

El documento presenta MIRAGE, un marco de programación eficiente para la recuperación de imágenes que utiliza una descomposición jerárquica para mejorar la alineación entre consultas y objetos visuales, reduciendo la redundancia computacional y optimizando automáticamente los parámetros para lograr una mayor precisión y eficiencia en comparación con los sistemas existentes.

Maoliang Li, Ke Li, Yaoyang Liu + 5 more2026-03-04💻 cs

Reasoning as Representation: Rethinking Visual Reinforcement Learning in Image Quality Assessment

Este artículo propone RALI, un algoritmo que utiliza aprendizaje contrastivo para alinear directamente las imágenes con representaciones textuales generalizables aprendidas mediante RL, logrando un rendimiento de evaluación de calidad de imagen comparable a los modelos de razonamiento pero con menos del 5% de parámetros y tiempo de inferencia.

Shijie Zhao, Xuanyu Zhang, Weiqi Li + 4 more2026-03-04💻 cs