MITRA: An AI Assistant for Knowledge Retrieval in Physics Collaborations

El artículo presenta MITRA, un prototipo de asistente de IA basado en generación aumentada por recuperación (RAG) y alojado localmente para garantizar la privacidad, diseñado para facilitar la búsqueda de información en las vastas bases de datos de documentación interna de colaboraciones científicas como CMS mediante un pipeline automatizado de extracción de texto y una arquitectura de base de datos vectorial de dos niveles.

Abhishikth Mallampalli, Sridhara Dasu2026-03-11🤖 cs.AI

One-Eval: An Agentic System for Automated and Traceable LLM Evaluation

El artículo presenta One-Eval, un sistema agéntico que automatiza y hace trazable la evaluación de modelos de lenguaje grande mediante la conversión de solicitudes en lenguaje natural en flujos de trabajo ejecutables, integrando planificación de benchmarks, resolución automática de datos y reportes orientados a decisiones con supervisión humana.

Chengyu Shen, Yanheng Hou, Minghui Pan, Runming He, Zhen Hao Wong, Meiyi Qiang, Zhou Liu, Hao Liang, Peichao Lai, Zeang Sheng, Wentao Zhang2026-03-11💬 cs.CL

Chow-Liu Ordering for Long-Context Reasoning in Chain-of-Agents

Este trabajo propone utilizar árboles de Chow-Liu para optimizar el orden de procesamiento de fragmentos en marcos de razonamiento multiagente de contexto largo, demostrando que un recorrido en amplitud de estos árboles reduce la pérdida de información y supera a los métodos de ordenamiento convencionales en precisión y relevancia.

Naman Gupta, Vaibhav Singh, Arun Iyer, Kirankumar Shiragur, Pratham Grover, Ramakrishna B. Bairi, Ritabrata Maiti, Sankarshan Damle, Shachee Mishra Gupta, Rishikesh Maurya, Vageesh D. C2026-03-11💬 cs.CL

N-gram-like Language Models Predict Reading Time Best

Este artículo propone que los modelos de lenguaje tipo n-gram predicen mejor los tiempos de lectura que los modelos transformadores modernos, ya que el tiempo de lectura es más sensible a estadísticas simples que a las complejas, y demuestra que los modelos cuyas predicciones se correlacionan más con las probabilidades n-gram son también los que mejor se alinean con las métricas de seguimiento ocular.

James A. Michaelov, Roger P. Levy2026-03-11💬 cs.CL

Do What I Say: A Spoken Prompt Dataset for Instruction-Following

El artículo presenta DoWhatISay (DOWIS), un dataset multilingüe de instrucciones habladas y escritas diseñado para evaluar de manera realista a los modelos de lenguaje grandes de voz, revelando que las instrucciones textuales superan a las habladas en la mayoría de los casos, excepto en tareas con salida de voz.

Maike Züfle, Sara Papi, Fabian Retkowski, Szymon Mazurek, Marek Kasztelnik, Alexander Waibel, Luisa Bentivogli, Jan Niehues2026-03-11💬 cs.CL

Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs

El estudio revela que habilitar el razonamiento en modelos de lenguaje mejora la recuperación de conocimientos paramétricos en preguntas factuales simples mediante dos mecanismos: un efecto de búfer computacional y una primación factual, aunque advierte que la generación de hechos intermedios alucinatorios puede aumentar las alucinaciones finales, lo que sugiere priorizar trayectorias de razonamiento libres de errores para mejorar la precisión.

Zorik Gekhman, Roee Aharoni, Eran Ofek, Mor Geva, Roi Reichart, Jonathan Herzig2026-03-11💬 cs.CL

Speaker effects in language comprehension: An integrative model of language and speaker processing

Este artículo propone un modelo integrador que explica cómo la identidad del hablante modula la comprensión del lenguaje mediante la interacción de procesos perceptivos basados en la memoria y expectativas superiores, distinguiendo entre efectos de familiaridad individual y de grupos demográficos, y sugiriendo su aplicación en el desarrollo del lenguaje, la cognición social y la interacción con agentes de inteligencia artificial.

Hanlin Wu, Zhenguang G. Cai2026-03-10💬 cs.CL

Efficient Continual Learning for Small Language Models with a Discrete Key-Value Bottleneck

Este artículo presenta un cuello de botella discreto clave-valor (DKVB) para modelos de lenguaje pequeños que facilita el aprendizaje continuo eficiente, mitigando el olvido catastrófico mediante actualizaciones localizadas y una inicialización independiente de la tarea, logrando un rendimiento competitivo con menores costos computacionales incluso en escenarios sin identificación de tarea.

Andor Diera, Lukas Galke, Fabian Karl, Ansgar Scherp2026-03-10💬 cs.CL

Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models

El artículo presenta HarmonicEval, una métrica de evaluación automática sin referencia que genera puntuaciones integrales y por criterio mediante un enfoque ascendente, y introduce el benchmark MMHE con 18.000 juicios humanos para demostrar su superior correlación con la evaluación humana en escenarios multimodales y multitarea.

Masanari Ohi, Masahiro Kaneko, Naoaki Okazaki, Nakamasa Inoue2026-03-10💬 cs.CL

Exploring Embedding Priors in Prompt-Tuning for Improved Interpretability and Control

Este trabajo investiga el papel del colapso de embeddings en el Prompt-Tuning, demostrando que los priors de embeddings influyen significativamente en la posición de los embeddings ajustados y que las capacidades de generalización de los modelos de lenguaje pueden funcionar en regiones activas diversas y no necesariamente localizadas en un único clúster.

Sergey Sedov, Sumanth Bharadwaj Hachalli Karanam, Venu Gopal Kadamba2026-03-10🤖 cs.LG