MITRA: An AI Assistant for Knowledge Retrieval in Physics Collaborations

El artículo presenta MITRA, un prototipo de asistente de IA basado en generación aumentada por recuperación (RAG) y alojado localmente para garantizar la privacidad, diseñado para facilitar la búsqueda de información en las vastas bases de datos de documentación interna de colaboraciones científicas como CMS mediante un pipeline automatizado de extracción de texto y una arquitectura de base de datos vectorial de dos niveles.

Abhishikth Mallampalli, Sridhara DasuWed, 11 Ma🤖 cs.AI

RecThinker: An Agentic Framework for Tool-Augmented Reasoning in Recommendation

RecThinker es un marco de agentes que transforma la recomendación de un proceso pasivo a una investigación autónoma mediante un paradigma de Análisis-Planificar-Actuar, el cual utiliza herramientas especializadas y entrenamiento con aprendizaje por refuerzo para identificar y cubrir dinámicamente las brechas de información, logrando así un rendimiento superior en escenarios de recomendación.

Haobo Zhang, Yutao Zhu, Kelong Mao, Tianhao Li, Zhicheng DouWed, 11 Ma💻 cs

Overview of the TREC 2025 Retrieval Augmented Generation (RAG) Track

La segunda edición de la pista de Generación Aumentada por Recuperación (RAG) de TREC 2025 avanza en el desarrollo de sistemas confiables y contextualmente conscientes mediante la introducción de consultas narrativas complejas, el uso del corpus MS MARCO V2.1 y una evaluación multifacética que prioriza la transparencia y la fundamentación factual.

Shivani Upadhyay, Nandan Thakur, Ronak Pradeep, Nick Craswell, Daniel Campos, Jimmy LinWed, 11 Ma💻 cs

Fine-grained Motion Retrieval via Joint-Angle Motion Images and Token-Patch Late Interaction

Este trabajo propone un método interpretable para la recuperación de movimiento a partir de texto que utiliza representaciones de imágenes de ángulos articulares y una interacción tardía token-parche para superar las limitaciones de las representaciones globales y lograr correspondencias finas y precisas entre descripciones lingüísticas y secuencias de movimiento 3D.

Yao Zhang, Zhuchenyang Liu, Yanlan He, Thomas Ploetz, Yu XiaoWed, 11 Ma💻 cs

A Voronoi Cell Formulation for Principled Token Pruning in Late-Interaction Retrieval Models

Este trabajo propone un marco de poda de tokens fundamentado en la geometría de espacios hiperesféricos y la estimación de celdas de Voronoi para reducir la sobrecarga de almacenamiento en modelos de recuperación de interacción tardía como ColBERT, manteniendo al mismo tiempo la calidad de la recuperación y ofreciendo una mayor interpretabilidad.

Yash Kankanampati, Yuxuan Zong, Nadi Tomeh, Benjamin Piwowarksi, Joseph Le RouxWed, 11 Ma💻 cs

Survey of Computerized Adaptive Testing: A Machine Learning Perspective

Este artículo presenta una encuesta centrada en el aprendizaje automático sobre la Prueba Adaptativa Computarizada (CAT), explorando cómo las técnicas de ML pueden optimizar sus componentes clave para crear sistemas más robustos, justos y eficientes que integren la psicometría tradicional con enfoques interdisciplinarios.

Yan Zhuang, Qi Liu, Haoyang Bi, Zhenya Huang, Weizhe Huang, Jiatong Li, Junhao Yu, Zirui Liu, Zirui Hu, Yuting Hong, Zachary A. Pardos, Haiping Ma, Mengxiao Zhu, Shijin Wang, Enhong ChenTue, 10 Ma🤖 cs.LG

KrishokBondhu: A Retrieval-Augmented Voice-Based Agricultural Advisory Call Center for Bengali Farmers

El artículo presenta KrishokBondhu, un sistema de asesoramiento agrícola basado en voz y en un marco de generación aumentada por recuperación (RAG) diseñado para agricultores bengalíes en Bangladesh, el cual demuestra una mejora significativa en la calidad y riqueza contextual de las respuestas en comparación con benchmarks existentes.

Mohd Ruhul Ameen, Akif Islam, Farjana Aktar, M. Saifuzzaman RafatTue, 10 Ma💬 cs.CL

Continual Low-Rank Adapters for LLM-based Generative Recommender Systems

El artículo presenta PESO, un método de adaptación continua para sistemas de recomendación generativa basados en LLM que utiliza un regularizador proximal en LoRA para equilibrar eficazmente la adaptación a nuevos comportamientos de los usuarios y la preservación de conocimientos relevantes, superando así a los métodos existentes.

Hyunsik Yoo, Ting-Wei Li, SeongKu Kang, Zhining Liu, Charlie Xu, Qilin Qi, Hanghang TongTue, 10 Ma🤖 cs.LG

Semantic Search over 9 Million Mathematical Theorems

Este trabajo presenta un sistema de búsqueda semántica a escala web que, al indexar y recuperar 9,2 millones de teoremas matemáticos utilizando descripciones en lenguaje natural, mejora significativamente la precisión en la localización de resultados específicos en comparación con las herramientas tradicionales que solo recuperan documentos completos.

Luke Alexander, Eric Leonen, Sophie Szeto, Artemii Remizov, Ignacio Tejeda, Jarod Alper, Giovanni Inchiostro, Vasily IlinTue, 10 Ma🔢 math

Retrieval Pivot Attacks in Hybrid RAG: Measuring and Mitigating Amplified Leakage from Vector Seeds to Graph Expansion

Este artículo identifica y cuantifica el riesgo de "Retrieval Pivot" en los sistemas híbridos RAG, donde la combinación de búsqueda vectorial y expansión de grafos permite filtraciones de datos entre inquilinos sin necesidad de inyección maliciosa, demostrando que aplicar controles de autorización en el límite de expansión del grafos mitiga eficazmente estas fugas con un mínimo sobrecosto.

Scott ThorntonTue, 10 Ma🤖 cs.LG

Scaling Search Relevance: Augmenting App Store Ranking with LLM-Generated Judgments

Este artículo presenta un enfoque para mejorar la relevancia de la búsqueda en la App Store mediante el uso de un modelo de lenguaje grande (LLM) especializado y ajustado para generar millones de etiquetas de relevancia textual, lo que permitió optimizar simultáneamente la relevancia conductual y textual, resultando en un aumento estadísticamente significativo del 0,24% en la tasa de conversión global y mejoras notables en consultas de cola.

Evangelia Christakopoulou, Vivekkumar Patel, Hemanth Velaga, Sandip Gaikwad, Sean Suchter, Venkat SundaranathaTue, 10 Ma🤖 cs.LG

Isotonic Layer: A Universal Framework for Generic Recommendation Debiasing

El artículo presenta la "Capa Isotónica", un marco diferenciable universal que integra ajustes lineales por tramos en arquitecturas neuronales para calibrar y eliminar sesgos en sistemas de recomendación a gran escala, logrando una mayor precisión predictiva y consistencia en el ranking mediante la descomposición de objetivos y la adaptación contextual.

Hailing Cheng, Yafang Yang, Hemeng Tao, Fengyu ZhangTue, 10 Ma🤖 cs.LG

T-REX: Transformer-Based Category Sequence Generation for Grocery Basket Recommendation

El artículo presenta T-REX, una arquitectura basada en transformadores diseñada para Amazon que mejora las recomendaciones de carritos de compras en línea mediante la generación de secuencias de categorías personalizadas, resolviendo desafíos como patrones repetitivos y dependencias temporales mediante innovaciones en muestreo, codificación posicional y modelado causal.

Soroush Mokhtari, Muhammad Tayyab Asif, Sergiy ZubatiyTue, 10 Ma🤖 cs.LG

Optimizing Multi-Modal Models for Image-Based Shape Retrieval: The Role of Pre-Alignment and Hard Contrastive Learning

Este artículo presenta un enfoque para la recuperación de formas basada en imágenes que utiliza codificadores prealineados de imágenes y nubes de puntos, junto con una pérdida de contraste duro multimodal, para lograr un rendimiento superior y capacidades de recuperación cero disparos sin necesidad de síntesis de vistas ni reentrenamiento específico.

Paul Julius Kühn, Cedric Spengler, Michael Weinmann, Arjan Kuijper, Saptarshi Neil SinhaTue, 10 Ma💻 cs

Leveraging Large Language Models for Automated Scalable Development of Open Scientific Databases

Este artículo presenta una herramienta web basada en modelos de lenguaje grandes (LLM) que automatiza y escala la creación de bases de datos científicas abiertas mediante la recuperación y filtrado inteligente de literatura, logrando un 90% de coincidencia con bases de datos curadas manualmente y reduciendo significativamente la carga de trabajo.

Nikita Gautam, Doina Caragea, Ignacio Ciampitti, Federico GomezTue, 10 Ma💻 cs

Efficient Personalized Reranking with Semi-Autoregressive Generation and Online Knowledge Distillation

El artículo presenta PSAD, un marco de reranking personalizado que combina generación semiautoregresiva y destilación de conocimiento en línea para resolver el conflicto entre calidad y latencia, mejorando además la interacción usuario-ítem mediante una red de perfiles de usuario y superando a los métodos más avanzados en rendimiento y eficiencia.

Kai Cheng, Hao Wang, Wei Guo, Weiwen Liu, Yong Liu, Yawen Li, Enhong ChenTue, 10 Ma💻 cs