From Ambiguity to Accuracy: The Transformative Effect of Coreference Resolution on Retrieval-Augmented Generation systems

Este estudio demuestra que la resolución de coreferencia mejora significativamente la eficacia de la recuperación y la calidad de las respuestas en los sistemas de Generación Aumentada por Recuperación (RAG), especialmente al aplicar estrategias de agrupación media y al beneficiar desproporcionadamente a los modelos más pequeños.

Youngjoon Jang, Seongtae Hong, Junyoung Son + 3 more2026-03-05🤖 cs.AI

Evaluating Text Style Transfer: A Nine-Language Benchmark for Text Detoxification

Este artículo presenta el primer estudio de referencia multilingüe exhaustivo que evalúa métricas para la desintoxicación de textos en nueve idiomas, demostrando que los enfoques propuestos logran una correlación significativamente mayor con juicios humanos que los métodos baselines y ofreciendo directrices para construir pipelines de evaluación robustos.

Vitaly Protasov, Nikolay Babakov, Daryna Dementieva + 1 more2026-03-05💬 cs.CL

Text2VLM: Adapting Text-Only Datasets to Evaluate Alignment Training in Visual Language Models

El artículo presenta Text2VLM, un pipeline innovador que adapta conjuntos de datos de solo texto a formatos multimodales para evaluar la resistencia de los Modelos de Lenguaje Visual frente a ataques de inyección de prompts tipográficos, revelando vulnerabilidades críticas en los modelos de código abierto y proporcionando una herramienta escalable para mejorar su seguridad.

Gabriel Downer, Sean Craven, Damian Ruck + 1 more2026-03-05🤖 cs.AI

SEVADE: Self-Evolving Multi-Agent Analysis with Decoupled Evaluation for Hallucination-Resistant Irony Detection

El artículo presenta SEVADE, un marco innovador de análisis multiagente autoevolutivo con evaluación desacoplada que supera las limitaciones de los modelos actuales en la detección de ironía al lograr un rendimiento superior y una mayor resistencia a las alucinaciones mediante un motor de razonamiento dinámico y un adjudicador de justificaciones separado.

Ziqi Liu, Ziyang Zhou, Yilin Li + 4 more2026-03-05💬 cs.CL

ObfusQAte: A Proposed Framework to Evaluate LLM Robustness on Obfuscated Factual Question Answering

El artículo presenta ObfusQAte, un marco innovador que evalúa la robustez de los modelos de lenguaje grandes mediante preguntas de respuesta factual obfuscadas en tres niveles (indirecta de entidades nombradas, distractores y sobrecarga contextual), revelando que estos modelos tienden a fallar o alucinar ante variaciones lingüísticas sutiles.

Shubhra Ghosh, Abhilekh Borah, Aditya Kumar Guru + 1 more2026-03-05🤖 cs.AI

Index-Preserving Lightweight Token Pruning for Efficient Document Understanding in Vision-Language Models

Los autores proponen un marco de poda de tokens ligero que preserva el índice, el cual elimina las regiones de fondo no informativas de las imágenes de documentos antes de procesarlas en modelos de visión y lenguaje, logrando así reducir significativamente los costos computacionales sin comprometer la precisión en la comprensión de documentos.

Jaemin Son, Sujin Choi, Inyong Yun2026-03-05🤖 cs.AI

See, Think, Act: Teaching Multimodal Agents to Effectively Interact with GUI by Identifying Toggles

Este artículo presenta StaR, un método de razonamiento multimodal que mejora significativamente la precisión de los agentes al interactuar con interfaces gráficas mediante la identificación y gestión efectiva de los estados de los interruptores (toggles), superando las limitaciones actuales en la ejecución de instrucciones de control binario.

Zongru Wu, Rui Mao, Zhiyuan Tian + 7 more2026-03-05🤖 cs.AI

REVISION:Reflective Intent Mining and Online Reasoning Auxiliary for E-commerce Visual Search System Optimization

El marco REVISION optimiza la búsqueda visual en el comercio electrónico de Taobao integrando la minería de intenciones implícitas mediante modelos grandes en una fase offline con la ejecución de decisiones adaptativas en línea, logrando así reducir significativamente la tasa de solicitudes sin clics al resolver la discrepancia entre las intenciones del usuario y la respuesta del sistema.

Yiwen Tang, Qiuyu Zhao, Zenghui Sun + 3 more2026-03-05🤖 cs.AI