Does the Question Really Matter? Training-Free Data Selection for Vision-Language SFT

Este artículo presenta CVS, un método de selección de datos sin entrenamiento que identifica muestras de alta calidad para el ajuste fino de modelos visuales-lingüísticos midiendo la discrepancia en la validez de la respuesta con y sin la pregunta, logrando así un mejor rendimiento con menos datos y menor costo computacional.

Peng Sun, Huawen Shen, Yi Ban, Tianfan Fu, Yanbo Wang, Yuqiang Li2026-03-11🤖 cs.AI

EXPLORE-Bench: Egocentric Scene Prediction with Long-Horizon Reasoning

El artículo presenta EXPLORE-Bench, un nuevo benchmark basado en videos en primera persona diseñado para evaluar la capacidad de los modelos de lenguaje multimodal para predecir escenas egocéntricas tras secuencias de acciones de largo alcance, revelando una brecha significativa frente al rendimiento humano y explorando estrategias de razonamiento paso a paso para mejorar esta tarea.

Chengjun Yu, Xuhan Zhu, Chaoqun Du, Pengfei Yu, Wei Zhai, Yang Cao, Zheng-Jun Zha2026-03-11🤖 cs.AI

World2Mind: Cognition Toolkit for Allocentric Spatial Reasoning in Foundation Models

El artículo presenta World2Mind, un kit de herramientas de inteligencia espacial sin entrenamiento que mejora el razonamiento espacial en modelos fundacionales mediante la construcción de mapas cognitivos estructurados y un árbol espacial alocéntrico, permitiendo incluso a modelos puramente textuales realizar razonamiento 3D complejo con un rendimiento cercano al de los modelos multimodales avanzados.

Shouwei Ruan, Bin Wang, Zhenyu Wu, Qihui Zhu, Yuxiang Zhang, Hang Su, Yubin Wang2026-03-11🤖 cs.AI

Quantifying the Necessity of Chain of Thought through Opaque Serial Depth

Este artículo formaliza el concepto de "profundidad serial opaca" para cuantificar la capacidad de los modelos de lenguaje de realizar razonamiento interno sin pasos intermedios interpretables, estableciendo límites superiores para arquitecturas como Gemma 3 y demostrando que los modelos de mezcla de expertos probablemente poseen una profundidad menor que los modelos densos.

Jonah Brown-Cohen, David Lindner, Rohin Shah2026-03-11🤖 cs.AI

MITRA: An AI Assistant for Knowledge Retrieval in Physics Collaborations

El artículo presenta MITRA, un prototipo de asistente de IA basado en generación aumentada por recuperación (RAG) y alojado localmente para garantizar la privacidad, diseñado para facilitar la búsqueda de información en las vastas bases de datos de documentación interna de colaboraciones científicas como CMS mediante un pipeline automatizado de extracción de texto y una arquitectura de base de datos vectorial de dos niveles.

Abhishikth Mallampalli, Sridhara Dasu2026-03-11🤖 cs.AI

SCENEBench: An Audio Understanding Benchmark Grounded in Assistive and Industrial Use Cases

Este artículo presenta SCENEBench, un nuevo conjunto de pruebas diseñado para evaluar la comprensión auditiva de modelos de lenguaje de audio avanzados más allá del reconocimiento de voz, centrándose en casos de uso reales como la accesibilidad y la monitorización industrial mediante la medición del rendimiento y la latencia en tareas de sonido ambiental, localización de ruido, comprensión multilingüe y reconocimiento de características vocales.

Laya Iyer, Angelina Wang, Sanmi Koyejo2026-03-11🤖 cs.AI

Emerging Extrinsic Dexterity in Cluttered Scenes via Dynamics-aware Policy Learning

Este artículo presenta DAPL, un marco de aprendizaje de políticas consciente de la dinámica que facilita la destreza extrínseca en entornos desordenados mediante la modelización explícita de las interacciones de contacto, logrando un rendimiento superior al de métodos existentes tanto en simulación como en aplicaciones del mundo real.

Yixin Zheng, Jiangran Lyu, Yifan Zhang, Jiayi Chen, Mi Yan, Yuntian Deng, Xuesong Shi, Xiaoguang Zhao, Yizhou Wang, Zhizheng Zhang, He Wang2026-03-11🤖 cs.AI

MedMASLab: A Unified Orchestration Framework for Benchmarking Multimodal Medical Multi-Agent Systems

El artículo presenta MedMASLab, un marco unificado y plataforma de evaluación que aborda la fragmentación arquitectónica en los sistemas de agentes médicos multimodales mediante un protocolo de comunicación estandarizado, un evaluador de razonamiento clínico automatizado y el benchmark más extenso hasta la fecha, revelando brechas críticas de rendimiento al transitar entre subdominios médicos especializados.

Yunhang Qian, Xiaobin Hu, Jiaquan Yu, Siyang Xin, Xiaokun Chen, Jiangning Zhang, Peng-Tao Jiang, Jiawei Liu, Hongwei Bran Li2026-03-11🤖 cs.AI