Scale Can't Overcome Pragmatics: The Impact of Reporting Bias on Vision-Language Reasoning

El estudio demuestra que el sesgo de reporte en los datos de entrenamiento de los modelos de visión y lenguaje impide el desarrollo de capacidades de razonamiento (espacial, temporal, negación y conteo), ya que escalar el tamaño de los datos o modelos no resuelve este problema, sino que se requiere una curación intencional de datos que incluya información tácita.

Amita Kamath, Jack Hessel, Khyathi Chandu + 3 more2026-02-27💬 cs.CL

Measuring the Measurers: Quality Evaluation of Hallucination Benchmarks for Large Vision-Language Models

Este trabajo propone un marco de medición de calidad (HQM) para evaluar la fiabilidad y validez de los benchmarks existentes de alucinación en modelos de visión-linguaje grandes, y presenta HQH, un nuevo benchmark de alta calidad que revela graves problemas de alucinación en estos modelos y sirve como herramienta de evaluación más confiable.

Bei Yan, Jie Zhang, Zheng Yuan + 2 more2026-02-26🤖 cs.AI

Renaissance: Investigating the Pretraining of Vision-Language Encoders

Este artículo presenta Renaissance, un marco de evaluación para analizar las mejores prácticas en el preentrenamiento de codificadores visión-lenguaje, demostrando mediante metaanálisis que es posible ahorrar recursos computacionales significativos sin sacrificar el rendimiento al congelar partes del modelo y comparando arquitecturas basadas en modelos de visión frente a los de texto.

Clayton Fields, Casey Kennington2026-02-26💬 cs.CL

Object-Centric World Models from Few-Shot Annotations for Sample-Efficient Reinforcement Learning

Este trabajo presenta OC-STORM, un marco de aprendizaje por refuerzo basado en modelos que utiliza representaciones centradas en objetos extraídas de pocas anotaciones para mejorar la eficiencia de muestras y la predicción de dinámicas en entornos visuales complejos, superando a los métodos baselines en benchmarks como Atari 100k y Hollow Knight.

Weipu Zhang, Adam Jelley, Trevor McInroe + 2 more2026-02-26🤖 cs.LG

VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning

El artículo presenta VOILA, un nuevo benchmark a gran escala que evalúa la capacidad de razonamiento analógico y comprensión perceptual de los Modelos de Lenguaje Multimodales (MLLMs), revelando que, aunque las estrategias de prompting paso a paso mejoran ligeramente los resultados, estos modelos actuales tienen un rendimiento significativamente inferior al humano en tareas que requieren inferir relaciones abstractas entre imágenes.

Nilay Yilmaz, Maitreya Patel, Yiran Lawrence Luo + 4 more2026-02-26💬 cs.CL

PD-VLA: Accelerating Vision-Language-Action Model Integrated with Action Chunking via Parallel Decoding

El artículo presenta PD-VLA, un marco de decodificación paralelo que acelera la inferencia de modelos de visión-lenguaje-acción integrados con agrupación de acciones mediante iteraciones de punto fijo, logrando un aumento de 2,52 veces en la frecuencia de ejecución sin comprometer el rendimiento ni requerir cambios arquitectónicos.

Wenxuan Song, Jiayi Chen, Pengxiang Ding + 9 more2026-02-26💻 cs

Unified Reward Model for Multimodal Understanding and Generation

El artículo presenta UnifiedReward, el primer modelo de recompensa unificado que mejora tanto la comprensión como la generación multimodal al entrenarse en un conjunto de datos de preferencias humanas a gran escala y utilizar una estrategia de filtrado en dos etapas para alinear diversos modelos de visión con las preferencias humanas mediante optimización directa de preferencias (DPO).

Yibin Wang, Yuhang Zang, Hao Li + 2 more2026-02-26💻 cs