cs.CL artículos | Gist.Science

From Ambiguity to Accuracy: The Transformative Effect of Coreference Resolution on Retrieval-Augmented Generation systems

Este estudio demuestra que la resolución de coreferencia mejora significativamente la eficacia de la recuperación y la calidad de las respuestas en los sistemas de Generación Aumentada por Recuperación (RAG), especialmente al aplicar estrategias de agrupación media y al beneficiar desproporcionadamente a los modelos más pequeños.

Youngjoon Jang, Seongtae Hong, Junyoung Son + 3 more2026-03-05🤖 cs.AI

Function Induction and Task Generalization: An Interpretability Study with Off-by-One Addition

Este estudio utiliza técnicas de interpretabilidad para descubrir que los modelos de lenguaje generalizan tareas mediante un mecanismo de "inducción de funciones" reutilizable y compuesto por múltiples cabezas de atención, el cual permite aprender y aplicar reglas abstractas como la suma con un desplazamiento de uno.

Qinyuan Ye, Robin Jia, Xiang Ren2026-03-05🤖 cs.AI

Evaluating Text Style Transfer: A Nine-Language Benchmark for Text Detoxification

Este artículo presenta el primer estudio de referencia multilingüe exhaustivo que evalúa métricas para la desintoxicación de textos en nueve idiomas, demostrando que los enfoques propuestos logran una correlación significativamente mayor con juicios humanos que los métodos baselines y ofreciendo directrices para construir pipelines de evaluación robustos.

Vitaly Protasov, Nikolay Babakov, Daryna Dementieva + 1 more2026-03-05💬 cs.CL

Text2VLM: Adapting Text-Only Datasets to Evaluate Alignment Training in Visual Language Models

El artículo presenta Text2VLM, un pipeline innovador que adapta conjuntos de datos de solo texto a formatos multimodales para evaluar la resistencia de los Modelos de Lenguaje Visual frente a ataques de inyección de prompts tipográficos, revelando vulnerabilidades críticas en los modelos de código abierto y proporcionando una herramienta escalable para mejorar su seguridad.

Gabriel Downer, Sean Craven, Damian Ruck + 1 more2026-03-05🤖 cs.AI

WebDS: An End-to-End Benchmark for Web-based Data Science

El documento presenta WebDS, el primer benchmark integral para ciencia de datos basada en web que evalúa tareas de extremo a extremo en diversos sitios, revelando una brecha significativa entre el rendimiento de los agentes de IA actuales y el humano debido a nuevas modalidades de fallo como la falta de fundamentación de la información.

Ethan Hsu, Hong Meng Yam, Ines Bouissou + 9 more2026-03-05🤖 cs.AI

SEVADE: Self-Evolving Multi-Agent Analysis with Decoupled Evaluation for Hallucination-Resistant Irony Detection

El artículo presenta SEVADE, un marco innovador de análisis multiagente autoevolutivo con evaluación desacoplada que supera las limitaciones de los modelos actuales en la detección de ironía al lograr un rendimiento superior y una mayor resistencia a las alucinaciones mediante un motor de razonamiento dinámico y un adjudicador de justificaciones separado.

Ziqi Liu, Ziyang Zhou, Yilin Li + 4 more2026-03-05💬 cs.CL

ObfusQAte: A Proposed Framework to Evaluate LLM Robustness on Obfuscated Factual Question Answering

El artículo presenta ObfusQAte, un marco innovador que evalúa la robustez de los modelos de lenguaje grandes mediante preguntas de respuesta factual obfuscadas en tres niveles (indirecta de entidades nombradas, distractores y sobrecarga contextual), revelando que estos modelos tienden a fallar o alucinar ante variaciones lingüísticas sutiles.

Shubhra Ghosh, Abhilekh Borah, Aditya Kumar Guru + 1 more2026-03-05🤖 cs.AI

MultiWikiQA: A Reading Comprehension Benchmark in 300+ Languages

El artículo presenta MultiWikiQA, un nuevo conjunto de datos de comprensión lectora que abarca 306 idiomas con más de 1,2 millones de muestras generadas por LLM y validadas humanamente, demostrando ser un desafío robusto que revela grandes disparidades en el rendimiento de los modelos de lenguaje actuales.

Dan Saattrup Smart2026-03-05💬 cs.CL

Index-Preserving Lightweight Token Pruning for Efficient Document Understanding in Vision-Language Models

Los autores proponen un marco de poda de tokens ligero que preserva el índice, el cual elimina las regiones de fondo no informativas de las imágenes de documentos antes de procesarlas en modelos de visión y lenguaje, logrando así reducir significativamente los costos computacionales sin comprometer la precisión en la comprensión de documentos.

Jaemin Son, Sujin Choi, Inyong Yun2026-03-05🤖 cs.AI

See, Think, Act: Teaching Multimodal Agents to Effectively Interact with GUI by Identifying Toggles

Este artículo presenta StaR, un método de razonamiento multimodal que mejora significativamente la precisión de los agentes al interactuar con interfaces gráficas mediante la identificación y gestión efectiva de los estados de los interruptores (toggles), superando las limitaciones actuales en la ejecución de instrucciones de control binario.

Zongru Wu, Rui Mao, Zhiyuan Tian + 7 more2026-03-05🤖 cs.AI

Trust Me, I Can Convince You: The Contextualized Argument Appraisal Framework

Este artículo presenta el Marco de Valoración de Argumentos Contextualizado, un nuevo enfoque que integra modelos de valoración psicológica y variables demográficas para analizar cómo la evaluación subjetiva de un argumento por parte del receptor influye en su capacidad de persuasión, validado mediante el corpus ContArgA de 4000 anotaciones.

Lynn Greschner, Sabine Weber, Roman Klinger2026-03-05💬 cs.CL

Non-Collaborative User Simulators for Tool Agents

Este trabajo presenta un nuevo simulador de usuarios no colaborativos que genera comportamientos realistas como la impaciencia o la digresión, revelando la vulnerabilidad de los agentes de herramientas actuales ante tales interacciones y proporcionando un marco extensible para mejorar su robustez.

Jeonghoon Shim, Woojung Song, Cheyon Jin + 2 more2026-03-05💬 cs.CL

Towards Personalized Deep Research: Benchmarks and Evaluations

Este trabajo presenta PDR-Bench, el primer benchmark para evaluar la personalización en Agentes de Investigación Profunda, junto con el marco de evaluación PQR, para abordar la falta de escenarios personalizados en las evaluaciones existentes y sentar las bases para asistentes de investigación de IA más adaptados a cada usuario.

Yuan Liang, Jiaxian Li, Yuqing Wang + 11 more2026-03-05🤖 cs.AI

GraphMERT: Efficient and Scalable Distillation of Reliable Knowledge Graphs from Unstructured Data

El artículo presenta GraphMERT, un modelo neuronal simbólico eficiente y escalable que supera a los grandes modelos de lenguaje en la generación de gráficos de conocimiento fiables, factuales y ontológicamente válidos a partir de texto no estructurado.

Margarita Belova, Jiaxin Xiao, Shikhar Tuli + 1 more2026-03-05🤖 cs.AI

The Geometry of Reasoning: Flowing Logics in Representation Space

Este artículo propone un marco geométrico que modela el razonamiento de los modelos de lenguaje como flujos suaves en el espacio de representaciones, demostrando que estos modelos internalizan invariancias lógicas como geometría de alto orden y sugiriendo la existencia de una ley representacional universal independiente de la arquitectura o el entrenamiento.

Yufa Zhou, Yixiao Wang, Xunjian Yin + 2 more2026-03-05🤖 cs.AI

Circuit Insights: Towards Interpretability Beyond Activations

El artículo presenta WeightLens y CircuitLens, dos métodos complementarios que superan las limitaciones de los enfoques basados únicamente en activaciones para la interpretabilidad mecánica al analizar directamente los pesos y las interacciones entre componentes, logrando así un descubrimiento de circuitos más robusto, escalable y eficiente.

Elena Golimblevskaia, Aakriti Jain, Bruno Puri + 3 more2026-03-05🤖 cs.AI

Composition-Grounded Data Synthesis for Visual Reasoning

El artículo presenta COGS, un marco eficiente en datos que mejora las capacidades de razonamiento de los modelos de lenguaje multimodal en dominios como gráficos y documentos renderizados, mediante la síntesis de grandes conjuntos de datos de preguntas y respuestas a partir de semillas limitadas y el entrenamiento con recompensas de proceso a nivel de factores.

Xinyi Gu, Jiayuan Mao, Zhang-Wei Hong + 5 more2026-03-05🤖 cs.LG

Annotation-Efficient Universal Honesty Alignment

El artículo presenta EliCal, un marco de dos etapas que logra una alineación de honestidad universal en modelos de lenguaje con una eficiencia de anotación extrema (utilizando solo el 0,18% de las etiquetas de corrección completas) mediante la combinación de autoconsistencia y un pequeño conjunto de anotaciones, respaldado por el nuevo benchmark HonestyBench.

Shiyu Ni, Keping Bi, Jiafeng Guo + 4 more2026-03-05💬 cs.CL

Citation Failure: Definition, Analysis and Efficient Mitigation

Este trabajo aborda el problema de la falla de citas en sistemas RAG basados en LLMs, diferenciándolo de las fallas de respuesta, mediante la introducción del benchmark CITECONTROL para analizar sus causas y el marco CITENTION para mitigarlas de manera eficiente mediante la integración de métodos generativos, de atención y de recuperación.

Jan Buchmann, Iryna Gurevych2026-03-05💬 cs.CL

REVISION:Reflective Intent Mining and Online Reasoning Auxiliary for E-commerce Visual Search System Optimization

El marco REVISION optimiza la búsqueda visual en el comercio electrónico de Taobao integrando la minería de intenciones implícitas mediante modelos grandes en una fase offline con la ejecución de decisiones adaptativas en línea, logrando así reducir significativamente la tasa de solicitudes sin clics al resolver la discrepancia entre las intenciones del usuario y la respuesta del sistema.

Yiwen Tang, Qiuyu Zhao, Zenghui Sun + 3 more2026-03-05🤖 cs.AI

← Anterior Siguiente →