cs.CL artículos | Gist.Science

MITRA: An AI Assistant for Knowledge Retrieval in Physics Collaborations

El artículo presenta MITRA, un prototipo de asistente de IA basado en generación aumentada por recuperación (RAG) y alojado localmente para garantizar la privacidad, diseñado para facilitar la búsqueda de información en las vastas bases de datos de documentación interna de colaboraciones científicas como CMS mediante un pipeline automatizado de extracción de texto y una arquitectura de base de datos vectorial de dos niveles.

Abhishikth Mallampalli, Sridhara Dasu2026-03-11🤖 cs.AI

One-Eval: An Agentic System for Automated and Traceable LLM Evaluation

El artículo presenta One-Eval, un sistema agéntico que automatiza y hace trazable la evaluación de modelos de lenguaje grande mediante la conversión de solicitudes en lenguaje natural en flujos de trabajo ejecutables, integrando planificación de benchmarks, resolución automática de datos y reportes orientados a decisiones con supervisión humana.

Chengyu Shen, Yanheng Hou, Minghui Pan, Runming He, Zhen Hao Wong, Meiyi Qiang, Zhou Liu, Hao Liang, Peichao Lai, Zeang Sheng, Wentao Zhang2026-03-11💬 cs.CL

Chow-Liu Ordering for Long-Context Reasoning in Chain-of-Agents

Este trabajo propone utilizar árboles de Chow-Liu para optimizar el orden de procesamiento de fragmentos en marcos de razonamiento multiagente de contexto largo, demostrando que un recorrido en amplitud de estos árboles reduce la pérdida de información y supera a los métodos de ordenamiento convencionales en precisión y relevancia.

Naman Gupta, Vaibhav Singh, Arun Iyer, Kirankumar Shiragur, Pratham Grover, Ramakrishna B. Bairi, Ritabrata Maiti, Sankarshan Damle, Shachee Mishra Gupta, Rishikesh Maurya, Vageesh D. C2026-03-11💬 cs.CL

N-gram-like Language Models Predict Reading Time Best

Este artículo propone que los modelos de lenguaje tipo n-gram predicen mejor los tiempos de lectura que los modelos transformadores modernos, ya que el tiempo de lectura es más sensible a estadísticas simples que a las complejas, y demuestra que los modelos cuyas predicciones se correlacionan más con las probabilidades n-gram son también los que mejor se alinean con las métricas de seguimiento ocular.

James A. Michaelov, Roger P. Levy2026-03-11💬 cs.CL

Do What I Say: A Spoken Prompt Dataset for Instruction-Following

El artículo presenta DoWhatISay (DOWIS), un dataset multilingüe de instrucciones habladas y escritas diseñado para evaluar de manera realista a los modelos de lenguaje grandes de voz, revelando que las instrucciones textuales superan a las habladas en la mayoría de los casos, excepto en tareas con salida de voz.

Maike Züfle, Sara Papi, Fabian Retkowski, Szymon Mazurek, Marek Kasztelnik, Alexander Waibel, Luisa Bentivogli, Jan Niehues2026-03-11💬 cs.CL

Benchmarking Political Persuasion Risks Across Frontier Large Language Models

Este estudio demuestra que los modelos de lenguaje de vanguardia, especialmente Claude, superan en persuasión política a la publicidad electoral tradicional y que la eficacia de las estrategias de generación de contenido varía significativamente según el modelo, estableciendo un nuevo marco para evaluar los riesgos persuasivos de estas tecnologías.

Zhongren Chen, Joshua Kalla, Quan Le2026-03-11💬 cs.CL

MSSR: Memory-Aware Adaptive Replay for Continual LLM Fine-Tuning

El artículo presenta MSSR, un marco de repetición de experiencias que estima la fuerza de la memoria a nivel de muestra y programa ensayos en intervalos adaptativos para mitigar el olvido catastrófico y mantener una adaptación rápida durante el ajuste fino continuo de modelos de lenguaje grandes.

Yiyang Lu, Yu He, Jianlong Chen, Hongyuan Zha2026-03-11🤖 cs.AI

Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs

El estudio revela que habilitar el razonamiento en modelos de lenguaje mejora la recuperación de conocimientos paramétricos en preguntas factuales simples mediante dos mecanismos: un efecto de búfer computacional y una primación factual, aunque advierte que la generación de hechos intermedios alucinatorios puede aumentar las alucinaciones finales, lo que sugiere priorizar trayectorias de razonamiento libres de errores para mejorar la precisión.

Zorik Gekhman, Roee Aharoni, Eran Ofek, Mor Geva, Roi Reichart, Jonathan Herzig2026-03-11💬 cs.CL

Model Merging in the Era of Large Language Models: Methods, Applications, and Future Directions

Esta encuesta presenta una revisión exhaustiva del paradigma de fusión de modelos en la era de los grandes modelos de lenguaje, estructurada bajo la taxonomía FUSE (Fundamentos, Estrategias de Unificación, Escenarios y Ecosistema) para analizar sus métodos teóricos, algoritmos, aplicaciones prácticas y desafíos futuros.

Mingyang Song, Mao Zheng2026-03-11💬 cs.CL

Think Before You Lie: How Reasoning Improves Honesty

El estudio demuestra que, a diferencia de los humanos, el razonamiento en los modelos de lenguaje grandes aumenta consistentemente la honestidad al navegar por un espacio de representación donde las respuestas engañosas son inestables y las honestas son más robustas.

Ann Yuan, Asma Ghandeharioun, Carter Blum, Alicia Machado, Jessica Hoffmann, Daphne Ippolito, Martin Wattenberg, Lucas Dixon, Katja Filippova2026-03-11🤖 cs.AI

CREATE: Testing LLMs for Associative Creativity

El artículo presenta CREATE, un nuevo benchmark diseñado para evaluar la capacidad de razonamiento asociativo creativo de los modelos de lenguaje mediante la generación de conexiones diversas y específicas entre conceptos, demostrando que incluso los modelos más avanzados tienen dificultades para saturar esta tarea compleja.

Manya Wadhwa, Tiasa Singha Roy, Harvey Lederman, Junyi Jessy Li, Greg Durrett2026-03-11💬 cs.CL

A Survey of Large Language Models

Esta encuesta revisa los avances recientes en los Grandes Modelos de Lenguaje (LLM), centrándose en sus cuatro aspectos principales: preentrenamiento, ajuste de adaptación, utilización y evaluación de capacidades, además de resumir los recursos disponibles y discutir los problemas pendientes para futuras direcciones.

Wayne Xin Zhao, Kun Zhou, Junyi Li + 19 more2026-03-10💬 cs.CL

Agent-OM: Leveraging LLM Agents for Ontology Matching

El artículo presenta Agent-OM, un nuevo marco basado en agentes de modelos de lenguaje grande que utiliza dos agentes siameses y herramientas especializadas para lograr un emparejamiento de ontologías competitivo en tareas sencillas y superior en escenarios complejos y de pocos ejemplos.

Zhangcheng Qiang, Weiqing Wang, Kerry Taylor2026-03-10💬 cs.CL

Llama-Mob: Instruction-Tuning Llama-3-8B Excels in City-Scale Mobility Prediction

El artículo presenta Llama-Mob, un modelo de lenguaje grande (Llama-3-8B) ajustado mediante instrucciones que supera a los métodos actuales en la predicción de movilidad urbana a largo plazo y demuestra una fuerte capacidad de generalización cero-shot entre diferentes ciudades.

Peizhi Tang, Chuang Yang, Tong Xing, Xiaohang Xu, Jiayi Xu, Renhe Jiang, Kaoru Sezaki2026-03-10💬 cs.CL

Speaker effects in language comprehension: An integrative model of language and speaker processing

Este artículo propone un modelo integrador que explica cómo la identidad del hablante modula la comprensión del lenguaje mediante la interacción de procesos perceptivos basados en la memoria y expectativas superiores, distinguiendo entre efectos de familiaridad individual y de grupos demográficos, y sugiriendo su aplicación en el desarrollo del lenguaje, la cognición social y la interacción con agentes de inteligencia artificial.

Hanlin Wu, Zhenguang G. Cai2026-03-10💬 cs.CL

Efficient Continual Learning for Small Language Models with a Discrete Key-Value Bottleneck

Este artículo presenta un cuello de botella discreto clave-valor (DKVB) para modelos de lenguaje pequeños que facilita el aprendizaje continuo eficiente, mitigando el olvido catastrófico mediante actualizaciones localizadas y una inicialización independiente de la tarea, logrando un rendimiento competitivo con menores costos computacionales incluso en escenarios sin identificación de tarea.

Andor Diera, Lukas Galke, Fabian Karl, Ansgar Scherp2026-03-10💬 cs.CL

Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models

El artículo presenta HarmonicEval, una métrica de evaluación automática sin referencia que genera puntuaciones integrales y por criterio mediante un enfoque ascendente, y introduce el benchmark MMHE con 18.000 juicios humanos para demostrar su superior correlación con la evaluación humana en escenarios multimodales y multitarea.

Masanari Ohi, Masahiro Kaneko, Naoaki Okazaki, Nakamasa Inoue2026-03-10💬 cs.CL

Exploring Embedding Priors in Prompt-Tuning for Improved Interpretability and Control

Este trabajo investiga el papel del colapso de embeddings en el Prompt-Tuning, demostrando que los priors de embeddings influyen significativamente en la posición de los embeddings ajustados y que las capacidades de generalización de los modelos de lenguaje pueden funcionar en regiones activas diversas y no necesariamente localizadas en un único clúster.

Sergey Sedov, Sumanth Bharadwaj Hachalli Karanam, Venu Gopal Kadamba2026-03-10🤖 cs.LG

A Single Model Ensemble Framework for Neural Machine Translation using Pivot Translation

Este artículo presenta un marco de ensamblaje basado en un único modelo que mejora la traducción automática neuronal para pares de idiomas de recursos limitados mediante la generación de candidatos a través de traducción pivote y su posterior agregación para obtener una traducción final de mayor calidad.

Seokjin Oh, Keonwoong Noh, Woohwan Jung2026-03-10💬 cs.CL

GRADIEND: Feature Learning within Neural Networks Exemplified through Biases

Este estudio presenta GRADIEND, un enfoque novedoso que utiliza gradientes de modelos para identificar y reescribir neuronas específicas con el fin de eliminar sesgos sociales como género, raza y religión, manteniendo al mismo tiempo las capacidades generales del modelo.

Jonathan Drechsel, Steffen Herbold2026-03-10🤖 cs.LG

← Anterior Siguiente →