OfficeQA Pro: An Enterprise Benchmark for End-to-End Grounded Reasoning

El artículo presenta OfficeQA Pro, un nuevo benchmark que evalúa la capacidad de razonamiento fundamentado de agentes de IA sobre un corpus masivo y heterogéneo de documentos del Tesoro de EE. UU., revelando que incluso los modelos de vanguardia actuales tienen un rendimiento muy limitado en esta tarea y que la representación estructurada de documentos puede mejorar significativamente sus resultados.

Krista Opsahl-Ong, Arnav Singhvi, Jasmine Collins, Ivan Zhou, Cindy Wang, Ashutosh Baheti, Owen Oertell, Jacob Portes, Sam Havens, Erich Elsen, Michael Bendersky, Matei Zaharia, Xing ChenTue, 10 Ma💬 cs.CL

Explainability of Text Processing and Retrieval Methods: A Survey

Este artículo ofrece una amplia revisión de las investigaciones sobre la explicabilidad e interpretabilidad de los métodos de procesamiento del lenguaje natural y recuperación de información, abarcando desde representaciones de palabras y modelos de atención hasta transformadores y sistemas de clasificación de documentos, y concluye sugiriendo direcciones futuras para la investigación en este campo.

Sourav Saha, Debapriyo Majumdar, Mandar MitraThu, 12 Ma💬 cs.CL

Intuition First or Reflection Before Judgment? The Impact of Evaluation Sequence on Consumer Ratings

Esta investigación demuestra que el orden de evaluación en las reseñas en línea (calificación antes o después del texto) polariza las calificaciones de los consumidores mediante un mecanismo de heurística afectiva y esfuerzo cognitivo, donde la secuencia "calificación primero" amplifica las puntuaciones extremas según la calidad del servicio y el tipo de producto, un hallazgo respaldado por datos secundarios de plataformas como Yelp y Letterboxd.

He Wang, Yueheng Wang, Ziyu Zhou, Hanxiang LiuThu, 12 Ma💻 cs

Does Reasoning Make Search More Fair? Comparing Fairness in Reasoning and Non-Reasoning Rerankers

Este estudio compara sistemáticamente la equidad de los rerankers con y sin capacidades de razonamiento, concluyendo que el razonamiento por sí solo no mejora ni perjudica la equidad, ya que los modelos actuales preservan las características de equidad de sus entradas y presentan brechas demográficas independientes de la arquitectura.

Saron Samuel, Benjamin Van Durme, Eugene YangThu, 12 Ma🤖 cs.AI

Differentiable Geometric Indexing for End-to-End Generative Retrieval

El artículo presenta la Indexación Geométrica Diferenciable (DGI), un enfoque que resuelve los conflictos de optimización y geométricos en la Recuperación Generativa mediante la unificación operativa con Gumbel-Softmax y la optimización isótropa en la esfera unitaria, logrando así un rendimiento superior, especialmente en escenarios de cola larga.

Xujing Wang, Yufeng Chen, Boxuan Zhang, Jie Zhao, Chao Wei, Cai Xu, Ziyu Guan, Wei Zhao, Weiru Zhang, Xiaoyi ZengThu, 12 Ma💻 cs

Modeling Stage-wise Evolution of User Interests for News Recommendation

Este trabajo propone un marco unificado para la recomendación de noticias que modela la evolución de los intereses de los usuarios en etapas, combinando la captura de preferencias a largo plazo mediante un grafo global con el análisis de dinámicas a corto plazo a través de subgrafos temporales escalonados, superando así a los enfoques existentes en la gestión de la sensibilidad temporal de las noticias.

Zhiyong Cheng, Yike Jin, Zhijie Zhang, Huilin Chen, Zhangling Duan, Meng WangThu, 12 Ma🤖 cs.AI

Trajectory-Informed Memory Generation for Self-Improving Agent Systems

Este artículo presenta un marco innovador para sistemas de agentes auto-mejorables que extrae aprendizajes estructurados de las trayectorias de ejecución mediante análisis semántico y atribución de decisiones, permitiendo la recuperación contextual de estrategias, recuperaciones y optimizaciones que logran mejoras significativas en la finalización de tareas complejas.

Gaodan Fang, Vatche Isahagian, K. R. Jayaram, Ritesh Kumar, Vinod Muthusamy, Punleuk Oum, Gegi ThomasThu, 12 Ma🤖 cs.AI

Breaking User-Centric Agency: A Tri-Party Framework for Agent-Based Recommendation

Este trabajo presenta TriRec, el primer marco de recomendación basado en agentes LLM de tres partes que coordina la utilidad del usuario, la exposición de los artículos y la equidad de la plataforma mediante una arquitectura de dos etapas, logrando mejoras simultáneas en precisión, equidad y utilidad sin sacrificar la relevancia.

Yaxin Gong, Chongming Gao, Chenxiao Fan, Wenjie Wang, Fuli Feng, Xiangnan HeThu, 12 Ma💻 cs

Structured Linked Data as a Memory Layer for Agent-Orchestrated Retrieval

Este artículo demuestra que el uso de datos vinculados estructurados, específicamente mediante páginas de entidades optimizadas para agentes que integran instrucciones, migas de pan y capacidades de búsqueda neuronal, mejora significativamente la precisión y la calidad de las respuestas en sistemas de Recuperación Aumentada por Generación (RAG) tanto estándar como agénticos.

Andrea Volpini, Elie Raad, Beatrice Gamba, David RiccitelliThu, 12 Ma🤖 cs.AI

RAGPerf: An End-to-End Benchmarking Framework for Retrieval-Augmented Generation Systems

El documento presenta RAGPerf, un marco de referencia de código abierto y bajo costo que permite el análisis detallado y la configuración modular de sistemas de generación aumentada por recuperación (RAG) mediante la evaluación de su rendimiento, uso de recursos y precisión en diversos escenarios y componentes.

Shaobo Li, Yirui Zhou, Yuan Xu, Kevin Chen, Daniel Waddington, Swaminathan Sundararaman, Hubertus Franke, Jian HuangThu, 12 Ma💻 cs

Interpretable Chinese Metaphor Identification via LLM-Assisted MIPVU Rule Script Generation: A Comparative Protocol Study

Este estudio presenta un pipeline asistido por LLM que transforma cuatro protocolos de identificación de metáforas en scripts de reglas ejecutables y auditables para el chino, demostrando que la elección del protocolo es la fuente principal de variación en la identificación y que este enfoque logra un rendimiento competitivo con total transparencia e interpretabilidad.

Weihang Huang, Mengna LiuThu, 12 Ma💬 cs.CL

An Extreme Multi-label Text Classification (XMTC) Library Dataset: What if we took "Use of Practical AI in Digital Libraries" seriously?

Este trabajo presenta un corpus bilingüe (inglés/alemán) de registros de catálogo anotados con la Integrated Authority File (GND) y una taxonomía procesable por máquinas, diseñado para habilitar la clasificación multietiqueta consciente de la ontología y evaluar sistemas de IA que asistan a los catalogadores en la indexación a escala.

Jennifer D'Souza, Sameer Sadruddin, Maximilian Kähler, Andrea Salfinger, Luca Zaccagna, Francesca Incitti, Lauro Snidaro, Osma SuominenThu, 12 Ma💬 cs.CL

A Hybrid Knowledge-Grounded Framework for Safety and Traceability in Prescription Verification

El artículo presenta PharmGraph-Auditor, un sistema innovador que combina una Base de Conocimiento Farmacéutico Híbrida (HPKB) con un paradigma de Verificación Basada en Conocimiento (CoV) para transformar a los modelos de lenguaje en motores de razonamiento transparentes y seguros, mejorando así la precisión y la trazabilidad en la verificación de recetas médicas.

Yichi Zhu, Kan Ling, Xu Liu, Hengrun Zhang, Huiqun Yu, Guisheng FanThu, 12 Ma🤖 cs.AI