cs.CL artículos | Gist.Science

Rethinking Attention Output Projection: Structured Hadamard Transforms for Efficient Transformers

Este trabajo propone reemplazar la proyección de salida densa en la atención multi-cabeza con una transformada de Walsh-Hadamard fija y un reescalado afín ligero, logrando una reducción significativa de parámetros y memoria sin sacrificar el rendimiento en tareas de benchmark, mientras mejora la eficiencia computacional y el uso de recursos durante el entrenamiento.

Shubham Aggarwal, Lokendra Kumar2026-03-10🤖 cs.LG

Do Language Models Know Theo Has a Wife? Investigating the Proviso Problem

Este estudio introduce un marco de evaluación y un conjunto de datos para investigar cómo los modelos de lenguaje abordan el problema de la provisión en pragmática, revelando que, aunque sus juicios coinciden con los humanos, lo hacen mediante la coincidencia de patrones superficiales en lugar de un razonamiento semántico o pragmático genuino.

Tara Azin, Daniel Dumitrescu, Diana Inkpen, Raj Singh2026-03-10💬 cs.CL

Computational modeling of early language learning from acoustic speech and audiovisual input without linguistic priors

Este capítulo revisa cómo los modelos computacionales de aprendizaje auto-supervisado y visualmente fundamentado permiten explicar la adquisición temprana del lenguaje a partir de señales acústicas y audiovisuales sin recurrir a prios lingüísticos, demostrando que principios de aprendizaje compartidos pueden replicar tanto el comportamiento de los modelos como los hallazgos empíricos sobre el desarrollo infantil.

Okko Räsänen2026-03-10💬 cs.CL

Adaptive Loops and Memory in Transformers: Think Harder or Know More?

Este trabajo presenta un modelo de transformador que combina bucles adaptativos y bancos de memoria, demostrando que esta arquitectura supera a una línea base isoflópica con tres veces más capas en tareas matemáticas, mientras que los bucles mejoran el razonamiento y la memoria recupera el rendimiento en tareas de sentido común.

Markus Frey, Behzad Shomali, Ali Hamza Bashir, David Berghaus, Mehdi Ali2026-03-10💬 cs.CL

COACH meets QUORUM: A Framework and Pipeline for Aligning User, Expert and Developer Perspectives in LLM-generated Health Counselling

El artículo presenta COACH, un pipeline impulsado por modelos de lenguaje grande para generar consejos de estilo de vida personalizados para pacientes con cáncer, y QUORUM, un marco de evaluación unificado que demuestra la convergencia general entre usuarios, expertos y desarrolladores sobre la calidad y relevancia del sistema, a la vez que revela divergencias críticas en aspectos como el tono y la sensibilidad a errores.

Yee Man Ng, Bram van Dijk, Pieter Beynen, Otto Boekesteijn, Joris Jansen, Gerard van Oortmerssen, Max van Duijn, Marco Spruit2026-03-10💬 cs.CL

Revealing Behavioral Plasticity in Large Language Models: A Token-Conditional Perspective

Este trabajo presenta ToCoRL, un marco de aprendizaje por refuerzo que aprovecha la plasticidad conductual inherente de los modelos de lenguaje grandes mediante la generación condicional a tokens, permitiendo adaptar sus patrones de comportamiento (como cambiar del razonamiento paso a paso a respuestas directas) de manera estable y precisa sin degradar sus capacidades.

Liyuan Mao, Le Yu, Jing Zhou, Chujie Zheng, Bowen Yu, Chang Gao, Shixuan Liu, An Yang, Weinan Zhang, JunYang Lin2026-03-10🤖 cs.LG

Sandpiper: Orchestrated AI-Annotation for Educational Discourse at Scale

El artículo presenta Sandpiper, un sistema de iniciativa mixta que combina dashboards interactivos con motores de modelos de lenguaje grandes para escalar el análisis cualitativo de discursos educativos digitales, garantizando al mismo tiempo la privacidad de los datos, la precisión metodológica y la fiabilidad mediante la eliminación de alucinaciones y la validación continua frente a etiquetas humanas.

Daryl Hedley, Doug Pietrzak, Jorge Dias, Ian Burden, Bakhtawar Ahtisham, Zhuqian Zhou, Kirk Vanacore, Josh Marland, Rachel Slama, Justin Reich, Kenneth Koedinger, René Kizilcec2026-03-10💬 cs.CL

Aligning to Illusions: Choice Blindness in Human and AI Feedback

Este artículo demuestra que tanto los humanos como los modelos de lenguaje son vulnerables a la "ceguera de elección" en los sistemas de retroalimentación, lo que revela que las señales de preferencia utilizadas en el Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF) están distorsionadas por el contexto de elicitaación y no reflejan estados internos estables, comprometiendo así la eficacia del entrenamiento de modelos.

Wenbin Wu2026-03-10💬 cs.CL

One Model Is Enough: Native Retrieval Embeddings from LLM Agent Hidden States

Este trabajo propone equipar a los agentes de LLM con capacidades de recuperación nativas mediante un cabezal de proyección ligero que mapea sus estados ocultos directamente al espacio de incrustaciones, eliminando la necesidad de un modelo de incrustación separado y manteniendo el 97% de la calidad de recuperación original.

Bo Jiang2026-03-10💬 cs.CL

Can Vision-Language Models Solve the Shell Game?

Este trabajo introduce VET-Bench, una prueba diagnóstica que revela las limitaciones actuales de los modelos de visión y lenguaje para el seguimiento de entidades, y propone SGCoT, un método de razonamiento basado en cadenas de pensamiento que supera el 90% de precisión al generar trayectorias explícitas.

Tiedong Liu, Wee Sun Lee2026-03-10💬 cs.CL

A prospective clinical feasibility study of a conversational diagnostic AI in an ambulatory primary care clinic

Este estudio prospectivo de viabilidad demuestra que un sistema de inteligencia artificial conversacional basado en modelos de lenguaje (AMIE) es seguro, bien aceptado por pacientes y médicos, y capaz de generar diagnósticos diferenciales de calidad comparable a la de los médicos de atención primaria en un entorno clínico real, aunque los médicos superaron a la IA en la practicidad y rentabilidad de los planes de tratamiento.

Peter Brodeur, Jacob M. Koshy, Anil Palepu, Khaled Saab, Ava Homiar, Roma Ruparel, Charles Wu, Ryutaro Tanno, Joseph Xu, Amy Wang, David Stutz, Hannah M. Ferrera, David Barrett, Lindsey Crowley, Jihyeon Lee, Spencer E. Rittner, Ellery Wulczyn, Selena K. Zhang, Elahe Vedadi, Christine G. Kohn, Kavita Kulkarni, Vinay Kadiyala, Sara Mahdavi, Wendy Du, Jessica Williams, David Feinbloom, Renee Wong, Tao Tu, Petar Sirkovic, Alessio Orlandi, Christopher Semturs, Yun Liu, Juraj Gottweis, Dale R. Webster, Joëlle Barral, Katherine Chou, Pushmeet Kohli, Avinatan Hassidim, Yossi Matias, James Manyika, Rob Fields, Jonathan X. Li, Marc L. Cohen, Vivek Natarajan, Mike Schaekermann, Alan Karthikesalingam, Adam Rodman2026-03-10🤖 cs.LG

A Dataset for Probing Translationese Preferences in English-to-Swedish Translation

Este artículo presenta el primer conjunto de datos gratuito en inglés-sueco que contrasta el "translationese" con alternativas idiomáticas, revelando que los modelos de lenguaje tienden a preferir traducciones literales influenciadas por el texto fuente, lo que ofrece un recurso clave para desarrollar modelos que generen salidas más naturales en idiomas distintos al inglés.

Jenny Kunz, Anja Jarochenko, Marcel Bollmann2026-03-10💬 cs.CL

LycheeCluster: Efficient Long-Context Inference with Structure-Aware Chunking and Hierarchical KV Indexing

El artículo presenta LycheeCluster, un método innovador de gestión de caché KV que utiliza fragmentación consciente de límites y un índice jerárquico recursivo para acelerar la inferencia de modelos de lenguaje grandes en contextos largos hasta en un 3,6 veces sin comprometer significativamente su rendimiento.

Dongfang Li, Zixuan Liu, Gang Lin, Baotian Hu, Min Zhang2026-03-10🤖 cs.LG

Fanar-Sadiq: A Multi-Agent Architecture for Grounded Islamic QA

Este trabajo presenta Fanar-Sadiq, un asistente islámico bilingüe basado en una arquitectura multiagente que mejora la precisión y la fiabilidad en respuestas religiosas mediante el enrutamiento de consultas a módulos especializados para citas exactas, cálculos legales deterministas y respuestas fundamentadas en textos canónicos.

Ummar Abbas, Mourad Ouzzani, Mohamed Y. Eltabakh, Omar Sinan, Gagan Bhatia, Hamdy Mubarak, Majd Hawasly, Mohammed Qusay Hashim, Kareem Darwish, Firoj Alam2026-03-10💬 cs.CL

Drift-to-Action Controllers: Budgeted Interventions with Online Risk Certificates

El artículo presenta Drift2Act, un controlador que transforma la monitorización de la deriva de datos en un proceso de toma de decisiones con restricciones de seguridad, utilizando certificados de riesgo en línea para guiar intervenciones automáticas y garantizar una recuperación rápida con un coste moderado y violaciones de seguridad cercanas a cero.

Ismail Lamaakal, Chaymae Yahyati, Khalid El Makkaoui, Ibrahim Ouahbi, Yassine Maleh2026-03-10🤖 cs.LG

OfficeQA Pro: An Enterprise Benchmark for End-to-End Grounded Reasoning

El artículo presenta OfficeQA Pro, un nuevo benchmark que evalúa la capacidad de razonamiento fundamentado de agentes de IA sobre un corpus masivo y heterogéneo de documentos del Tesoro de EE. UU., revelando que incluso los modelos de vanguardia actuales tienen un rendimiento muy limitado en esta tarea y que la representación estructurada de documentos puede mejorar significativamente sus resultados.

Krista Opsahl-Ong, Arnav Singhvi, Jasmine Collins, Ivan Zhou, Cindy Wang, Ashutosh Baheti, Owen Oertell, Jacob Portes, Sam Havens, Erich Elsen, Michael Bendersky, Matei Zaharia, Xing Chen2026-03-10💬 cs.CL

CODA: Difficulty-Aware Compute Allocation for Adaptive Reasoning

El artículo presenta CODA, un método que optimiza la asignación dinámica de recursos de cómputo en modelos de razonamiento grandes mediante la estimación de la dificultad de cada tarea para reducir significativamente los costos en problemas sencillos sin sacrificar el rendimiento en los complejos.

Siye Wu, Jian Xie, Yikai Zhang, Yanghua Xiao2026-03-10💬 cs.CL

How Far Can Unsupervised RLVR Scale LLM Training?

Este trabajo analiza exhaustivamente el aprendizaje por refuerzo no supervisado con recompensas verificables (URLVR), demostrando que los métodos intrínsecos sufren un colapso inevitable cuando la confianza inicial del modelo no se alinea con la corrección, mientras que sugiere que las recompensas externas basadas en asimetrías computacionales podrían ofrecer una vía para superar estas limitaciones.

Bingxiang He, Yuxin Zuo, Zeyuan Liu, Shangziqi Zhao, Zixuan Fu, Junlin Yang, Cheng Qian, Kaiyan Zhang, Yuchen Fan, Ganqu Cui, Xiusi Chen, Youbang Sun, Xingtai Lv, Xuekai Zhu, Li Sheng, Ran Li, Huan-ang Gao, Yuchen Zhang, Bowen Zhou, Zhiyuan Liu, Ning Ding2026-03-10🤖 cs.LG

Agentic Critical Training

El artículo presenta la Entrenamiento Crítico Agente (ACT), un paradigma de aprendizaje por refuerzo que supera las limitaciones del aprendizaje por imitación al entrenar a los agentes para que desarrollen un razonamiento autónomo sobre la calidad de sus acciones mediante la comparación de alternativas, logrando así mejoras significativas en el rendimiento y la generalización en diversas tareas de agentes.

Weize Liu, Minghui Liu, Sy-Tuyen Ho, Souradip Chakraborty, Xiyao Wang, Furong Huang2026-03-10🤖 cs.LG

Analyzing the Performance of ChatGPT in Cardiology and Vascular Pathologies

El estudio demuestra que ChatGPT superó a dos estudiantes de medicina en un cuestionario de 190 preguntas sobre cardiología y patologías vasculares, obteniendo un 92,10% de respuestas correctas y destacando su potencial como herramienta eficaz en la educación médica.

Walid Hariri2026-03-09💬 cs.CL

← Anterior Siguiente →