cs.IR artículos | Gist.Science

TURA: Tool-Augmented Unified Retrieval Agent for AI Search

El artículo presenta TURA, un marco de agente unificado que combina la generación aumentada por recuperación (RAG) con el uso de herramientas para superar las limitaciones de los sistemas de búsqueda tradicionales, permitiendo acceder tanto a contenido estático como a información dinámica en tiempo real mediante un proceso de tres etapas diseñado para escalar a millones de usuarios con baja latencia.

Zhejun Zhao, Yuchen Li, Alley Liu, Yuehu Dong, Xiaolong Wei, Lixue Zheng, Pingsheng Liu, Dongdong Shen, Long Xia, Jiashu Zhao, Dawei YinFri, 13 Ma💬 cs.CL

On the Theoretical Limitations of Embedding-Based Retrieval

Este trabajo demuestra que las limitaciones teóricas de los modelos de recuperación basados en embeddings, derivadas de la restricción de la dimensión vectorial sobre el número de subconjuntos recuperables, persisten incluso en escenarios realistas con consultas simples, lo que indica que el paradigma actual de un solo vector es fundamentalmente insuficiente y requiere nuevas técnicas de investigación.

Orion Weller, Michael Boratko, Iftekhar Naim, Jinhyuk LeeFri, 13 Ma💬 cs.CL

Mobile-Agent-RAG: Driving Smart Multi-Agent Coordination with Contextual Knowledge Empowerment for Long-Horizon Mobile Automation

El artículo presenta Mobile-Agent-RAG, un marco innovador de agentes móviles jerárquicos que utiliza la recuperación aumentada de conocimiento en dos niveles (planificación y ejecución) para mitigar las alucinaciones estratégicas y los errores operativos, logrando así un rendimiento superior en tareas de automatización móvil de largo alcance y multiaplicación.

Yuxiang Zhou, Jichang Li, Yanhao Zhang, Haonan Lu, Guanbin LiFri, 13 Ma🤖 cs.AI

PosIR: Position-Aware Heterogeneous Information Retrieval Benchmark

El artículo presenta PosIR, el primer benchmark estandarizado que diagnostica sistemáticamente el sesgo posicional en sistemas de recuperación de información mediante un enfoque multilingüe y controlado por longitud, revelando que los modelos actuales muestran preferencias generalizadas por el contenido inicial o final que no se detectan en las evaluaciones tradicionales de texto corto.

Ziyang Zeng, Dun Zhang, Yu Yan, Xu Sun, Cuiqiaoshu Pan, Yudong Zhou, Yuqing YangFri, 13 Ma💬 cs.CL

Truncated Step-Level Sampling with Process Rewards for Retrieval-Augmented Reasoning

El artículo presenta SLATE, un marco que mejora el razonamiento con recuperación aumentada mediante un muestreo truncado a nivel de paso y recompensas de proceso densas, logrando una asignación de crédito más precisa y un rendimiento superior en tareas complejas al reducir la varianza de los gradientes en comparación con métodos existentes.

Chris Samarinas, Haw-Shiuan Chang, Hamed ZamaniFri, 13 Ma💬 cs.CL

Geodesic Semantic Search: Learning Local Riemannian Metrics for Citation Graph Retrieval

El artículo presenta Geodesic Semantic Search (GSS), un sistema de recuperación que aprende métricas riemannianas específicas por nodo en grafos de citación para realizar búsquedas semánticas conscientes de la geometría, logrando una mejora del 23% en Recall@20 frente a métodos basados en distancias euclidianas fijas y ofreciendo rutas de citación interpretables.

Brandon Yee, Lucas Wang, Kundana Kommini, Krishna SharmaFri, 13 Ma🤖 cs.LG

OpenSanctions Pairs: Large-Scale Entity Matching with LLMs

El artículo presenta OpenSanctions Pairs, un extenso conjunto de datos para la coincidencia de entidades derivado de sanciones internacionales, y demuestra que los modelos de lenguaje grandes (LLMs) superan significativamente a los sistemas basados en reglas tradicionales, alcanzando un rendimiento cercano al límite práctico y sugiriendo un cambio de enfoque hacia componentes de la pipeline como el bloqueo y la agrupación.

Chandler Smith, Magnus Sesodia, Friedrich Lindenberg, Christian Schroeder de WittFri, 13 Ma💬 cs.CL

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

El artículo presenta MDER-DR, un marco de pregunta-respuesta impulsado por LLMs que mejora significativamente el rendimiento en preguntas de múltiples saltos sobre grafos de conocimiento al combinar un enfoque de indexación que genera resúmenes centrados en entidades con un mecanismo de recuperación basado en la descomposición y resolución iterativa de consultas, superando a las bases de RAG estándar hasta en un 66%.

Riccardo Campi, Nicolò Oreste Pinciroli Vago, Mathyas Giudici, Marco Brambilla, Piero FraternaliFri, 13 Ma💬 cs.CL

Modeling Trial-and-Error Navigation With a Sequential Decision Model of Information Scent

Este artículo propone un modelo de toma de decisiones secuenciales bajo restricciones de memoria que amplía el concepto de "olor de la información" para explicar cómo los usuarios navegan mediante ensayo y error, seleccionando enlaces prematuramente y recuperándose de errores al considerar solo la información local y global disponible en su memoria limitada.

Xiaofu Jin, Yunpeng Bai, Antti OulasvirtaFri, 13 Ma🤖 cs.LG

How Auditing Methodologies Can Impact Our Understanding of YouTube's Recommendation Systems

Este estudio demuestra que las decisiones metodológicas en las auditorías de YouTube, como el uso de cuentas iniciadas sesión, impactan significativamente la precisión de los sesgos inferidos en sus sistemas de recomendación, ofreciendo directrices para optimizar el equilibrio entre costos y validez científica.

Sarmad Chandio, Daniyal Pirwani Dar, Rishab Nithyanand2026-03-10💻 cs

Agent-OM: Leveraging LLM Agents for Ontology Matching

El artículo presenta Agent-OM, un nuevo marco basado en agentes de modelos de lenguaje grande que utiliza dos agentes siameses y herramientas especializadas para lograr un emparejamiento de ontologías competitivo en tareas sencillas y superior en escenarios complejos y de pocos ejemplos.

Zhangcheng Qiang, Weiqing Wang, Kerry Taylor2026-03-10💬 cs.CL

LEXA: Legal Case Retrieval via Graph Contrastive Learning with Contextualised LLM Embeddings

El modelo LEXA mejora la recuperación de casos legales mediante el aprendizaje contrastivo en grafos y la integración de incrustaciones contextualizadas de modelos de lenguaje grandes, superando las limitaciones de métodos anteriores al aprovechar plenamente la información estructural y semántica de los documentos jurídicos.

Yanran Tang, Ruihong Qiu, Yilun Liu + 2 more2026-03-06💻 cs

Vector Retrieval with Similarity and Diversity: How Hard Is It?

Este artículo presenta y demuestra la complejidad NP-completa del problema de recuperación de vectores con similitud y diversidad (VRSD), proponiendo un algoritmo heurístico sin parámetros que supera a métodos establecidos como MMR y k-DPP en tareas de preguntas y respuestas científicas.

Hang Gao, Dong Deng, Yongfeng Zhang2026-03-06💻 cs

Agentic Multi-Persona Framework for Evidence-Aware Fake News Detection

El artículo presenta AMPEND-LS, un marco de detección de noticias falsas multimodal basado en agentes y sinergia entre modelos de lenguaje grandes y pequeños que supera a los métodos existentes al integrar evidencia, razonamiento estructurado y mecanismos de fusión de credibilidad para lograr mayor precisión, robustez y explicabilidad.

Roopa Bukke, Soumya Pandey, Suraj Kumar + 2 more2026-03-06💻 cs

A Scalable Inter-edge Correlation Modeling in CopulaGNN for Link Sign Prediction

Este trabajo propone una versión escalable de CopulaGNN para la predicción de signos en enlaces mediante el modelado de dependencias estadísticas entre aristas usando copulas gaussianas, optimizando la eficiencia computacional y la convergencia mediante la representación de la matriz de correlación como un gramiano de incrustaciones y la reformulación de la distribución de probabilidad condicional.

Jinkyu Sung, Myunggeum Jee, Joonseok Lee2026-03-06💻 cs

Mapping a Decade of Avian Influenza Research (2014-2023): A Scientometric Analysis from Web of Science

Este estudio scientométrico analiza la evolución de la investigación sobre la influenza aviar entre 2014 y 2023 utilizando datos de Web of Science, revelando un aumento constante en las publicaciones lideradas por China y Estados Unidos, una predominancia de artículos originales y la necesidad de fortalecer la colaboración internacional.

Muneer Ahmad, Undie Felicia Nkatv, Amrita Sharma + 3 more2026-03-06💻 cs

Beyond the Unit Hypersphere: Embedding Magnitude in Contrastive Learning

Este artículo demuestra que aprender la magnitud de las incrustaciones, en lugar de asumir que es ruido, mejora significativamente la recuperación y la generación aumentada por recuperación (RAG) al controlar independientemente la normalización de consultas y documentos, lo que resulta en una mayor generalización fuera de dominio.

Xincan Feng, Taro Watanabe2026-03-06💻 cs

Pailitao-VL: Unified Embedding and Reranker for Real-Time Multi-Modal Industrial Search

Este trabajo presenta Pailitao-VL, un sistema de búsqueda industrial multimodal en tiempo real que supera las limitaciones de precisión y eficiencia de las soluciones actuales mediante un nuevo paradigma de incrustación basado en reconocimiento de ID absoluto y un reordenador generativo de lista comparativa, logrando un rendimiento superior y un impacto comercial significativo en la plataforma de comercio electrónico de Alibaba.

Lei Chen, Chen Ju, Xu Chen + 13 more2026-03-06💻 cs

Give Users the Wheel: Towards Promptable Recommendation Paradigm

Este artículo presenta DPR, un marco agnóstico al modelo que permite a los sistemas de recomendación secuenciales tradicionales integrar intenciones explícitas del usuario mediante prompts de lenguaje natural, superando las limitaciones de los enfoques actuales al modular directamente las representaciones latentes sin sacrificar la precisión colaborativa ni la eficiencia.

Fuyuan Lyu, Chenglin Luo, Qiyuan Zhang + 6 more2026-03-06💻 cs

SearchGym: A Modular Infrastructure for Cross-Platform Benchmarking and Hybrid Search Orchestration

El artículo presenta SearchGym, una infraestructura modular de código abierto que cierra la brecha entre prototipos experimentales y sistemas de producción para la generación aumentada por recuperación (RAG), permitiendo la orquestación híbrida de búsquedas, la composición de configuraciones jerárquicas y el análisis de la "conciencia de los k superiores" para optimizar el rendimiento en dominios heterogéneos.

Jerome Tze-Hou Hsu2026-03-06💻 cs

← Anterior Siguiente →