cs.CL artículos | Gist.Science

The Third Ambition: Artificial Intelligence and the Science of Human Behavior

Este artículo propone una "tercera ambición" para la inteligencia artificial que utiliza los grandes modelos de lenguaje como instrumentos científicos para estudiar el comportamiento humano, la cultura y el razonamiento moral, analizando sus capacidades metodológicas, limitaciones epistémicas y el impacto de las intervenciones de alineación en la investigación de las ciencias sociales.

W. Russell Neuman, Chad Coleman2026-03-10💬 cs.CL

To Predict or Not to Predict? Towards reliable uncertainty estimation in the presence of noise

Este estudio demuestra que, aunque los métodos basados en salidas softmax son competitivos en entornos de alto recurso, los enfoques de Dropout de Monte Carlo ofrecen una estimación de incertidumbre más robusta y confiable para la clasificación de texto multilingüe bajo condiciones ruidosas y de cambio de dominio, permitiendo mejorar el rendimiento mediante la abstención de predicciones en casos de alta incertidumbre.

Nouran Khallaf, Serge Sharoff2026-03-10💬 cs.CL

How Much Noise Can BERT Handle? Insights from Multilingual Sentence Difficulty Detection

Este estudio evalúa la robustez de BERT frente al ruido en datos de entrenamiento para la detección de dificultad de oraciones en múltiples idiomas, demostrando que aunque los modelos preentrenados son inherentemente resistentes, técnicas de filtrado como los Modelos de Mezcla Gaussianas mejoran significativamente el rendimiento en conjuntos de datos pequeños, mientras que en conjuntos grandes los beneficios son marginales, lo que llevó al lanzamiento del corpus multilingüe más grande para esta tarea.

Nouran Khallaf, Serge Sharoff2026-03-10💬 cs.CL

RILEC: Detection and Generation of L1 Russian Interference Errors in English Learner Texts

Este trabajo presenta RILEC, un conjunto de datos a gran escala y un marco de generación de errores para detectar y producir interferencias del ruso en textos de aprendices de inglés, demostrando que el aumento de datos sintéticos mejora significativamente el rendimiento de los modelos en la identificación de estos errores.

Darya Kharlamova, Irina Proskurina2026-03-10💬 cs.CL

Position: LLMs Must Use Functor-Based and RAG-Driven Bias Mitigation for Fairness

Este artículo de posición propone un marco dual que integra transformaciones basadas en funtores de la teoría de categorías y la generación aumentada por recuperación (RAG) para mitigar sistemáticamente los sesgos demográficos y de género en los modelos de lenguaje grandes, garantizando así resultados equitativos y justos.

Ravi Ranjan, Utkarsh Grover, Agorista Polyzou2026-03-10💬 cs.CL

Domain-Specific Quality Estimation for Machine Translation in Low-Resource Scenarios

Este artículo propone un marco de estimación de calidad para traducción automática en escenarios de bajos recursos y dominios específicos (como salud y legal) en idiomas indios, demostrando que la adaptación de capas intermedias de modelos de lenguaje grandes mediante técnicas como ALOPE y LoRMA supera a los enfoques basados únicamente en prompts, especialmente en modelos de pesos abiertos.

Namrata Patil Gurav, Akashdeep Ranu, Archchana Sindhujan, Diptesh Kanojia2026-03-10🤖 cs.LG

SoK: Agentic Retrieval-Augmented Generation (RAG): Taxonomy, Architectures, Evaluation, and Research Directions

Este artículo de sistematización de conocimientos (SoK) presenta el primer marco unificado para las arquitecturas de Recuperación Aumentada por Generación (RAG) agénticas, formalizándolas como procesos de decisión de Markov, proponiendo una taxonomía modular, identificando riesgos sistémicos críticos y delineando direcciones de investigación para garantizar sistemas autónomos fiables y escalables.

Saroj Mishra, Suman Niroula, Umesh Yadav, Dilip Thakur, Srijan Gyawali, Shiva Gaire2026-03-10💬 cs.CL

Can Large Language Models Keep Up? Benchmarking Online Adaptation to Continual Knowledge Streams

El artículo presenta OAKS, un nuevo benchmark diseñado para evaluar la capacidad de adaptación en línea de los modelos de lenguaje ante flujos de conocimiento continuo, revelando que tanto los modelos más avanzados como los sistemas de memoria agéntica muestran limitaciones significativas en el seguimiento preciso de cambios dinámicos y en la resistencia a la distracción.

Jiyeon Kim, Hyunji Lee, Dylan Zhou, Sue Hyun Park, Seunghyun Yoon, Trung Bui, Franck Dernoncourt, Sungmin Cha, Minjoon Seo2026-03-10💬 cs.CL

AQuA: Toward Strategic Response Generation for Ambiguous Visual Questions

El artículo presenta AQuA, un conjunto de datos y enfoque que permite a los Modelos Visuales-Lingüísticos clasificar la ambigüedad en preguntas visuales y generar respuestas estratégicas adaptativas, superando así a los modelos existentes que suelen ofrecer respuestas demasiado confiantes en situaciones ambiguas.

Jihyoung Jang, Hyounghun Kim2026-03-10💬 cs.CL

Generalization in Online Reinforcement Learning for Mobile Agents

Este trabajo presenta un nuevo marco de aprendizaje por refuerzo y el benchmark AndroidWorld-Generalization para evaluar y mejorar la capacidad de generalización de agentes móviles basados en modelos de lenguaje y visión, demostrando que el entrenamiento con RL supera a los métodos supervisados en tareas no vistas, aunque la generalización a nuevas aplicaciones sigue siendo un desafío.

Li Gu, Zihuan Jiang, Zhixiang Chi, Huan Liu, Ziqiang Wang, Yuanhao Yu, Glen Berseth, Yang Wang2026-03-10🤖 cs.LG

Few Tokens, Big Leverage: Preserving Safety Alignment by Constraining Safety Tokens during Fine-tuning

El artículo presenta PACT, un marco de ajuste fino que preserva la alineación de seguridad en modelos de lenguaje al restringir específicamente la confianza en tokens de seguridad durante el entrenamiento, evitando así la deriva de seguridad sin comprometer el rendimiento en tareas generales.

Guoli Wang, Haonan Shi, Tu Ouyang, An Wang2026-03-10🤖 cs.LG

Dial: A Knowledge-Grounded Dialect-Specific NL2SQL System

El artículo presenta Dial, un sistema de NL2SQL basado en conocimiento que aborda la heterogeneidad de los dialectos SQL mediante planificación lógica consciente del dialecto, una base de conocimiento jerárquica y un bucle de depuración, logrando mejoras significativas en precisión y cobertura de características en comparación con los métodos existentes.

Xiang Zhang, Hongming Xu, Le Zhou, Wei Zhou, Xuanhe Zhou, Guoliang Li, Yuyu Luo, Changdong Liu, Guorun Chen, Jiang Liao, Fan Wu2026-03-10🤖 cs.LG

Image Generation Models: A Technical History

Este artículo ofrece una encuesta técnica exhaustiva sobre la evolución de los modelos de generación de imágenes, abarcando desde VAEs y GANs hasta métodos de difusión, analizando sus fundamentos, limitaciones y su expansión hacia la generación de video y la responsabilidad en su despliegue.

Rouzbeh Shirvani2026-03-10💬 cs.CL

The Dual-Stream Transformer: Channelized Architecture for Interpretable Language Modeling

Este trabajo presenta el Transformador de Doble Flujo, una arquitectura que descompone el flujo residual en dos componentes funcionales distintos para lograr un equilibrio ajustable entre la interpretabilidad y el rendimiento en modelos de lenguaje, demostrando que estrategias de mezcla como la de Kronecker permiten una comunicación eficiente entre cabezas de atención con una pérdida de rendimiento mínima.

J. Clayton Kerce, Alexis Fox2026-03-10🤖 cs.LG

Cross-Modal Taxonomic Generalization in (Vision-) Language Models

El estudio demuestra que los modelos de lenguaje pueden recuperar y generalizar conocimiento taxonómico (hiperónimos) a partir de imágenes incluso sin evidencia explícita durante el entrenamiento, gracias a la combinación de coherencia visual y las pistas lingüísticas aprendidas.

Tianyang Xu, Marcelo Sandoval-Castaneda, Karen Livescu, Greg Shakhnarovich, Kanishka Misra2026-03-10💬 cs.CL

Skip to the Good Part: Representation Structure & Inference-Time Layer Skipping in Diffusion vs. Autoregressive LLMs

El estudio demuestra que los modelos de difusión nativos desarrollan representaciones jerárquicas con redundancia temprana que permiten un ahorro significativo de FLOPs mediante el salto de capas en la inferencia, a diferencia de los modelos autoregresivos que muestran una degradación de rendimiento bajo la misma estrategia.

Raghavv Goel, Risheek Garrepalli, Sudhanshu Agrawal, Chris Lott, Mingu Lee, Fatih Porikli2026-03-10💬 cs.CL

A Joint Neural Baseline for Concept, Assertion, and Relation Extraction from Clinical Text

Este trabajo propone un sistema neuronal end-to-end novedoso que optimiza conjuntamente la extracción de conceptos, clasificación de afirmaciones y extracción de relaciones en texto clínico, superando significativamente a los enfoques de tubería tradicionales y estableciendo una nueva línea base para futuras investigaciones.

Fei Cheng, Ribeka Tanaka, Sadao Kurohashi2026-03-10💬 cs.CL

Bolbosh: Script-Aware Flow Matching for Kashmiri Text-to-Speech

Este trabajo presenta Bolbosh, el primer sistema de texto a voz neuronal de código abierto para el idioma cachemiri, que supera significativamente a los modelos multilingües existentes mediante una adaptación supervisada basada en el emparejamiento de flujos condicionales y un pipeline de mejora acústica, logrando así una inteligibilidad y calidad de voz sin precedentes para esta lengua con recursos limitados.

Tajamul Ashraf, Burhaan Rasheed Zargar, Saeed Abdul Muizz, Ifrah Mushtaq, Nazima Mehdi, Iqra Altaf Gillani, Aadil Amin Kak, Janibul Bashir2026-03-10💬 cs.CL

TableMind++: An Uncertainty-Aware Programmatic Agent for Tool-Augmented Table Reasoning

El artículo presenta TableMind++, una extensión de TableMind que introduce un marco de inferencia consciente de la incertidumbre mediante poda de planes guiada por memoria, refinamiento de acciones basado en confianza y agregación de trayectorias ponderada, logrando así un razonamiento sobre tablas más robusto y preciso al mitigar las alucinaciones de los modelos de lenguaje.

Mingyue Cheng, Shuo Yu, Chuang Jiang, Xiaoyu Tao, Qingyang Mao, Jie Ouyang, Qi Liu, Enhong Chen2026-03-10💬 cs.CL

Accent Vector: Controllable Accent Manipulation for Multilingual TTS Without Accented Data

El artículo presenta "Accent Vector", un método que permite la manipulación controlada y de alta precisión de acentos en sistemas de texto a voz multilingües sin necesidad de datos de entrenamiento con acentos, logrando esto mediante el ajuste fino en otro idioma y la interpolación de vectores de tarea.

Thanathai Lertpetchpun, Thanapat Trachu, Jihwan Lee, Tiantian Feng, Dani Byrd, Shrikanth Narayanan2026-03-10💬 cs.CL

← Anterior Siguiente →