Do What I Say: A Spoken Prompt Dataset for Instruction-Following

El artículo presenta DoWhatISay (DOWIS), un dataset multilingüe de instrucciones habladas y escritas diseñado para evaluar de manera realista a los modelos de lenguaje grandes de voz, revelando que las instrucciones textuales superan a las habladas en la mayoría de los casos, excepto en tareas con salida de voz.

Maike Züfle, Sara Papi, Fabian Retkowski, Szymon Mazurek, Marek Kasztelnik, Alexander Waibel, Luisa Bentivogli, Jan NiehuesWed, 11 Ma💬 cs.CL

Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs

El estudio revela que habilitar el razonamiento en modelos de lenguaje mejora la recuperación de conocimientos paramétricos en preguntas factuales simples mediante dos mecanismos: un efecto de búfer computacional y una primación factual, aunque advierte que la generación de hechos intermedios alucinatorios puede aumentar las alucinaciones finales, lo que sugiere priorizar trayectorias de razonamiento libres de errores para mejorar la precisión.

Zorik Gekhman, Roee Aharoni, Eran Ofek, Mor Geva, Roi Reichart, Jonathan HerzigWed, 11 Ma💬 cs.CL

Speaker effects in language comprehension: An integrative model of language and speaker processing

Este artículo propone un modelo integrador que explica cómo la identidad del hablante modula la comprensión del lenguaje mediante la interacción de procesos perceptivos basados en la memoria y expectativas superiores, distinguiendo entre efectos de familiaridad individual y de grupos demográficos, y sugiriendo su aplicación en el desarrollo del lenguaje, la cognición social y la interacción con agentes de inteligencia artificial.

Hanlin Wu, Zhenguang G. CaiTue, 10 Ma💬 cs.CL

Efficient Continual Learning for Small Language Models with a Discrete Key-Value Bottleneck

Este artículo presenta un cuello de botella discreto clave-valor (DKVB) para modelos de lenguaje pequeños que facilita el aprendizaje continuo eficiente, mitigando el olvido catastrófico mediante actualizaciones localizadas y una inicialización independiente de la tarea, logrando un rendimiento competitivo con menores costos computacionales incluso en escenarios sin identificación de tarea.

Andor Diera, Lukas Galke, Fabian Karl, Ansgar ScherpTue, 10 Ma💬 cs.CL

Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models

El artículo presenta HarmonicEval, una métrica de evaluación automática sin referencia que genera puntuaciones integrales y por criterio mediante un enfoque ascendente, y introduce el benchmark MMHE con 18.000 juicios humanos para demostrar su superior correlación con la evaluación humana en escenarios multimodales y multitarea.

Masanari Ohi, Masahiro Kaneko, Naoaki Okazaki, Nakamasa InoueTue, 10 Ma💬 cs.CL

Exploring Embedding Priors in Prompt-Tuning for Improved Interpretability and Control

Este trabajo investiga el papel del colapso de embeddings en el Prompt-Tuning, demostrando que los priors de embeddings influyen significativamente en la posición de los embeddings ajustados y que las capacidades de generalización de los modelos de lenguaje pueden funcionar en regiones activas diversas y no necesariamente localizadas en un único clúster.

Sergey Sedov, Sumanth Bharadwaj Hachalli Karanam, Venu Gopal KadambaTue, 10 Ma🤖 cs.LG

HaLoRA: Hardware-aware Low-Rank Adaptation for Large Language Models Based on Hybrid Compute-in-Memory Architecture

El artículo presenta HaLoRA, un método de adaptación de bajo rango consciente del hardware que combina arquitecturas de memoria de computación híbrida (RRAM para pesos preentrenados y SRAM para ramas LoRA) con una pérdida de entrenamiento específica para mitigar el ruido de la RRAM, logrando una reducción del 97% en el consumo energético y mejoras significativas en el rendimiento en tareas de razonamiento.

Taiqiang Wu, Chenchen Ding, Wenyong Zhou, Yuxin Cheng, Xincheng Feng, Shuqi Wang, Wendong Xu, Chufan Shi, Zhengwu Liu, Ngai WongTue, 10 Ma💬 cs.CL

More Bang for the Buck: Process Reward Modeling with Entropy-Driven Uncertainty

El paper presenta EDU-PRM, un nuevo modelo de recompensa de proceso que utiliza la incertidumbre basada en entropía para segmentar automáticamente los pasos de razonamiento sin anotaciones manuales, logrando un rendimiento superior en el benchmark ProcessBench con solo el 1,5% de los datos de entrenamiento y reduciendo significativamente el uso de tokens.

Lang Cao, Renhong Chen, Yingtian Zou, Chao Peng, Huacong Xu, Yuxian Wang, Wu Ning, Qian Chen, Mofan Peng, Zijie Chen, Peishuo Su, Yitong LiTue, 10 Ma🤖 cs.LG