The Third Ambition: Artificial Intelligence and the Science of Human Behavior

Este artículo propone una "tercera ambición" para la inteligencia artificial que utiliza los grandes modelos de lenguaje como instrumentos científicos para estudiar el comportamiento humano, la cultura y el razonamiento moral, analizando sus capacidades metodológicas, limitaciones epistémicas y el impacto de las intervenciones de alineación en la investigación de las ciencias sociales.

W. Russell Neuman, Chad Coleman2026-03-10💬 cs.CL

To Predict or Not to Predict? Towards reliable uncertainty estimation in the presence of noise

Este estudio demuestra que, aunque los métodos basados en salidas softmax son competitivos en entornos de alto recurso, los enfoques de Dropout de Monte Carlo ofrecen una estimación de incertidumbre más robusta y confiable para la clasificación de texto multilingüe bajo condiciones ruidosas y de cambio de dominio, permitiendo mejorar el rendimiento mediante la abstención de predicciones en casos de alta incertidumbre.

Nouran Khallaf, Serge Sharoff2026-03-10💬 cs.CL

How Much Noise Can BERT Handle? Insights from Multilingual Sentence Difficulty Detection

Este estudio evalúa la robustez de BERT frente al ruido en datos de entrenamiento para la detección de dificultad de oraciones en múltiples idiomas, demostrando que aunque los modelos preentrenados son inherentemente resistentes, técnicas de filtrado como los Modelos de Mezcla Gaussianas mejoran significativamente el rendimiento en conjuntos de datos pequeños, mientras que en conjuntos grandes los beneficios son marginales, lo que llevó al lanzamiento del corpus multilingüe más grande para esta tarea.

Nouran Khallaf, Serge Sharoff2026-03-10💬 cs.CL

Domain-Specific Quality Estimation for Machine Translation in Low-Resource Scenarios

Este artículo propone un marco de estimación de calidad para traducción automática en escenarios de bajos recursos y dominios específicos (como salud y legal) en idiomas indios, demostrando que la adaptación de capas intermedias de modelos de lenguaje grandes mediante técnicas como ALOPE y LoRMA supera a los enfoques basados únicamente en prompts, especialmente en modelos de pesos abiertos.

Namrata Patil Gurav, Akashdeep Ranu, Archchana Sindhujan, Diptesh Kanojia2026-03-10🤖 cs.LG

SoK: Agentic Retrieval-Augmented Generation (RAG): Taxonomy, Architectures, Evaluation, and Research Directions

Este artículo de sistematización de conocimientos (SoK) presenta el primer marco unificado para las arquitecturas de Recuperación Aumentada por Generación (RAG) agénticas, formalizándolas como procesos de decisión de Markov, proponiendo una taxonomía modular, identificando riesgos sistémicos críticos y delineando direcciones de investigación para garantizar sistemas autónomos fiables y escalables.

Saroj Mishra, Suman Niroula, Umesh Yadav, Dilip Thakur, Srijan Gyawali, Shiva Gaire2026-03-10💬 cs.CL

Can Large Language Models Keep Up? Benchmarking Online Adaptation to Continual Knowledge Streams

El artículo presenta OAKS, un nuevo benchmark diseñado para evaluar la capacidad de adaptación en línea de los modelos de lenguaje ante flujos de conocimiento continuo, revelando que tanto los modelos más avanzados como los sistemas de memoria agéntica muestran limitaciones significativas en el seguimiento preciso de cambios dinámicos y en la resistencia a la distracción.

Jiyeon Kim, Hyunji Lee, Dylan Zhou, Sue Hyun Park, Seunghyun Yoon, Trung Bui, Franck Dernoncourt, Sungmin Cha, Minjoon Seo2026-03-10💬 cs.CL

Generalization in Online Reinforcement Learning for Mobile Agents

Este trabajo presenta un nuevo marco de aprendizaje por refuerzo y el benchmark AndroidWorld-Generalization para evaluar y mejorar la capacidad de generalización de agentes móviles basados en modelos de lenguaje y visión, demostrando que el entrenamiento con RL supera a los métodos supervisados en tareas no vistas, aunque la generalización a nuevas aplicaciones sigue siendo un desafío.

Li Gu, Zihuan Jiang, Zhixiang Chi, Huan Liu, Ziqiang Wang, Yuanhao Yu, Glen Berseth, Yang Wang2026-03-10🤖 cs.LG

Dial: A Knowledge-Grounded Dialect-Specific NL2SQL System

El artículo presenta Dial, un sistema de NL2SQL basado en conocimiento que aborda la heterogeneidad de los dialectos SQL mediante planificación lógica consciente del dialecto, una base de conocimiento jerárquica y un bucle de depuración, logrando mejoras significativas en precisión y cobertura de características en comparación con los métodos existentes.

Xiang Zhang, Hongming Xu, Le Zhou, Wei Zhou, Xuanhe Zhou, Guoliang Li, Yuyu Luo, Changdong Liu, Guorun Chen, Jiang Liao, Fan Wu2026-03-10🤖 cs.LG

The Dual-Stream Transformer: Channelized Architecture for Interpretable Language Modeling

Este trabajo presenta el Transformador de Doble Flujo, una arquitectura que descompone el flujo residual en dos componentes funcionales distintos para lograr un equilibrio ajustable entre la interpretabilidad y el rendimiento en modelos de lenguaje, demostrando que estrategias de mezcla como la de Kronecker permiten una comunicación eficiente entre cabezas de atención con una pérdida de rendimiento mínima.

J. Clayton Kerce, Alexis Fox2026-03-10🤖 cs.LG

Skip to the Good Part: Representation Structure & Inference-Time Layer Skipping in Diffusion vs. Autoregressive LLMs

El estudio demuestra que los modelos de difusión nativos desarrollan representaciones jerárquicas con redundancia temprana que permiten un ahorro significativo de FLOPs mediante el salto de capas en la inferencia, a diferencia de los modelos autoregresivos que muestran una degradación de rendimiento bajo la misma estrategia.

Raghavv Goel, Risheek Garrepalli, Sudhanshu Agrawal, Chris Lott, Mingu Lee, Fatih Porikli2026-03-10💬 cs.CL

Bolbosh: Script-Aware Flow Matching for Kashmiri Text-to-Speech

Este trabajo presenta Bolbosh, el primer sistema de texto a voz neuronal de código abierto para el idioma cachemiri, que supera significativamente a los modelos multilingües existentes mediante una adaptación supervisada basada en el emparejamiento de flujos condicionales y un pipeline de mejora acústica, logrando así una inteligibilidad y calidad de voz sin precedentes para esta lengua con recursos limitados.

Tajamul Ashraf, Burhaan Rasheed Zargar, Saeed Abdul Muizz, Ifrah Mushtaq, Nazima Mehdi, Iqra Altaf Gillani, Aadil Amin Kak, Janibul Bashir2026-03-10💬 cs.CL

TableMind++: An Uncertainty-Aware Programmatic Agent for Tool-Augmented Table Reasoning

El artículo presenta TableMind++, una extensión de TableMind que introduce un marco de inferencia consciente de la incertidumbre mediante poda de planes guiada por memoria, refinamiento de acciones basado en confianza y agregación de trayectorias ponderada, logrando así un razonamiento sobre tablas más robusto y preciso al mitigar las alucinaciones de los modelos de lenguaje.

Mingyue Cheng, Shuo Yu, Chuang Jiang, Xiaoyu Tao, Qingyang Mao, Jie Ouyang, Qi Liu, Enhong Chen2026-03-10💬 cs.CL

Accent Vector: Controllable Accent Manipulation for Multilingual TTS Without Accented Data

El artículo presenta "Accent Vector", un método que permite la manipulación controlada y de alta precisión de acentos en sistemas de texto a voz multilingües sin necesidad de datos de entrenamiento con acentos, logrando esto mediante el ajuste fino en otro idioma y la interpolación de vectores de tarea.

Thanathai Lertpetchpun, Thanapat Trachu, Jihwan Lee, Tiantian Feng, Dani Byrd, Shrikanth Narayanan2026-03-10💬 cs.CL