cs.IR artículos | Gist.Science

FinRetrieval: A Benchmark for Financial Data Retrieval by AI Agents

El artículo presenta FinRetrieval, un nuevo benchmark de 500 preguntas financieras que demuestra que la disponibilidad de herramientas de acceso a datos estructurados es el factor determinante en el rendimiento de los agentes de IA, superando ampliamente a la búsqueda web y revelando variaciones en el uso de modos de razonamiento y sesgos geográficos derivados de convenciones fiscales.

Eric Y. Kim, Jie Huang2026-03-06💻 cs

Signal in the Noise: Decoding the Reality of Airline Service Quality with Large Language Models

Este estudio valida un marco basado en modelos de lenguaje grande que, al analizar más de 16.000 reseñas de TripAdvisor, revela una desconexión operativa crítica en EgyptAir y demuestra que esta metodología supera a las métricas tradicionales al transformar el feedback no estructurado en inteligencia estratégica accionable para la industria aérea.

Ahmed Dawoud, Osama El-Shamy, Ahmed Habashy2026-03-06💻 cs

Still Fresh? Evaluating Temporal Drift in Retrieval Benchmarks

Este trabajo evalúa el impacto del desplazamiento temporal en el corpus del benchmark de recuperación técnica FreshStack, demostrando que, a pesar de la migración de documentos relevantes entre repositorios, las métricas de evaluación de modelos de recuperación permanecen altamente consistentes y fiables a lo largo del tiempo.

Nathan Kuissi, Suraj Subrahmanyan, Nandan Thakur + 1 more2026-03-06💻 cs

iAgentBench: Benchmarking Sensemaking Capabilities of Information-Seeking Agents on High-Traffic Topics

El artículo presenta iAgentBench, un nuevo benchmark dinámico que evalúa la capacidad de los agentes de búsqueda para realizar un sentido de la información integrando evidencia de múltiples fuentes en temas de alto tráfico, superando así las limitaciones de las pruebas actuales que solo requieren recuperar un único fragmento de texto.

Preetam Prabhu Srikar Dammu, Arnav Palkhiwala, Tanya Roosta + 1 more2026-03-06💻 cs

CONE: Embeddings for Complex Numerical Data Preserving Unit and Variable Semantics

El artículo presenta CONE, un modelo híbrido preentrenado que utiliza un algoritmo de construcción de incrustaciones compuesto para codificar números, rangos y gaussianas junto con sus unidades y atributos, logrando un razonamiento numérico superior y superando a los modelos más avanzados en diversas tareas de comprensión y recuperación de datos.

Gyanendra Shrestha, Anna Pyayt, Michael Gubanov2026-03-06💻 cs

DARE: Aligning LLM Agents with the R Statistical Ecosystem via Distribution-Aware Retrieval

El artículo presenta DARE, un modelo de recuperación de paquetes R que incorpora información sobre la distribución de los datos para mejorar la alineación de los agentes LLM con el ecosistema estadístico de R, logrando un rendimiento superior en la generación de código y tareas de análisis en comparación con los modelos existentes.

Maojun Sun, Yue Wu, Yifei Xie + 5 more2026-03-06💻 cs

Scaling Laws for Reranking in Information Retrieval

Este trabajo presenta el primer estudio sistemático de las leyes de escalado para los sistemas de reordenamiento en la recuperación de información, demostrando que el rendimiento de modelos de mayor tamaño puede predecirse con precisión a partir de experimentos a menor escala mediante el análisis de métricas como NDCG y MAP, lo que permite optimizar significativamente los recursos computacionales en sistemas industriales.

Rahul Seetharaman, Aman Bansal, Hamed Zamani + 1 more2026-03-06💻 cs

Beyond Text: Aligning Vision and Language for Multimodal E-Commerce Retrieval

Este trabajo propone una red novedosa de fusión de modalidades para la recuperación en comercio electrónico que, mediante un ajuste fino específico del dominio y una alineación en dos etapas, integra eficazmente información visual y textual para superar las limitaciones de los sistemas actuales basados principalmente en texto.

Qujiaheng Zhang, Guagnyue Xu, Fengjie Li2026-03-06💻 cs

Detecting RAG Advertisements Across Advertising Styles

Este artículo presenta una nueva taxonomía de estilos publicitarios para sistemas de generación aumentada por recuperación (RAG) impulsados por modelos de lenguaje, demostrando que los modelos de reconocimiento de entidades son efectivos y robustos para detectar y localizar anuncios generados, mientras que los modelos ligeros resultan frágiles ante cambios en el estilo publicitario.

Sebastian Heineking, Wilhelm Pertsch, Ines Zelch + 4 more2026-03-06💻 cs

Debiasing Sequential Recommendation with Time-aware Inverse Propensity Scoring

Este artículo propone TIPS, un método de puntuación inversa por propensión consciente del tiempo que corrige los sesgos de selección y exposición en la recomendación secuencial al modelar las dependencias temporales y dinámicas del comportamiento del usuario, mejorando así el rendimiento de diversos modelos existentes.

Sirui Huang, Jing Long, Qian Li + 2 more2026-03-06🤖 cs.AI

Core-based Hierarchies for Efficient GraphRAG

Este artículo propone un marco de GraphRAG basado en descomposición k-core que reemplaza el clustering Leiden para superar problemas de reproducibilidad en grafos dispersos, logrando mediante jerarquías deterministas y heurísticas ligeras una mejora en la comprensión global y la diversidad de respuestas con un menor costo de tokens.

Jakir Hossain, Ahmet Erdem Sarıyüce2026-03-06💬 cs.CL

Leveraging Large Language Models for Semantic Query Processing in a Scholarly Knowledge Graph

Esta investigación propone un sistema innovador que integra Modelos de Lenguaje Grandes (LLM) con el Grafo de Conocimiento Académico de la ANU y un modelo de documentos profundos para procesar consultas semánticas complejas sobre la producción científica en ciencias de la computación, logrando una mayor precisión y eficiencia en la recuperación de información que los métodos tradicionales.

Runsong Jia, Bowen Zhang, Sergio J. Rodríguez Méndez + 1 more2026-03-05🤖 cs.AI

RAG vs. GraphRAG: A Systematic Evaluation and Key Insights

Este artículo presenta un estudio comparativo sistemático que evalúa RAG y GraphRAG mediante un protocolo unificado, revelando sus fortalezas y limitaciones específicas para proponer estrategias de integración que mejoran el rendimiento en tareas de texto.

Haoyu Han, Li Ma, Yu Wang + 9 more2026-03-05💻 cs

OSCAR: Online Soft Compression And Reranking

El artículo presenta OSCAR, un método novedoso de compresión en línea dependiente de la consulta y reordenamiento que reduce significativamente el costo computacional de los sistemas RAG sin sacrificar la precisión, logrando aceleraciones de 2 a 5 veces en modelos de lenguaje de gran tamaño.

Maxime Louis, Thibault Formal, Hervé Dejean + 1 more2026-03-05🤖 cs.AI

PinRec: Outcome-Conditioned, Multi-Token Generative Retrieval for Industry-Scale Recommendation Systems

Este artículo presenta PinRec, un modelo de recuperación generativa escalable y flexible desarrollado por Pinterest que utiliza la generación condicionada a resultados y multi-token para equilibrar eficazmente diversas métricas de negocio y mejorar la experiencia del usuario a gran escala.

Prabhat Agarwal, Anirudhan Badrinath, Laksh Bhasin + 4 more2026-03-05🤖 cs.LG

When Relevance Meets Novelty: Dual-Stable Periodic Optimization for Serendipitous Recommendation

Este artículo presenta CoEA, un método de recomendación serendípica que supera las limitaciones de los sistemas tradicionales y de los marcos actuales basados en LLM mediante el módulo DSIE para modelar intereses grupales e individuales y el mecanismo PCO para lograr una optimización dinámica en bucle cerrado que equilibra relevancia y novedad.

Hongxiang Lin, Hao Guo, Zeshun Li + 6 more2026-03-05🤖 cs.AI

Towards Personalized Deep Research: Benchmarks and Evaluations

Este trabajo presenta PDR-Bench, el primer benchmark para evaluar la personalización en Agentes de Investigación Profunda, junto con el marco de evaluación PQR, para abordar la falta de escenarios personalizados en las evaluaciones existentes y sentar las bases para asistentes de investigación de IA más adaptados a cada usuario.

Yuan Liang, Jiaxian Li, Yuqing Wang + 11 more2026-03-05🤖 cs.AI

REVISION:Reflective Intent Mining and Online Reasoning Auxiliary for E-commerce Visual Search System Optimization

El marco REVISION optimiza la búsqueda visual en el comercio electrónico de Taobao integrando la minería de intenciones implícitas mediante modelos grandes en una fase offline con la ejecución de decisiones adaptativas en línea, logrando así reducir significativamente la tasa de solicitudes sin clics al resolver la discrepancia entre las intenciones del usuario y la respuesta del sistema.

Yiwen Tang, Qiuyu Zhao, Zenghui Sun + 3 more2026-03-05🤖 cs.AI

Succeeding at Scale: Automated Dataset Construction and Query-Side Adaptation for Multi-Tenant Search

El artículo presenta DevRev-Search, un marco que combina una tubería automatizada de construcción de datos con una estrategia de adaptación que preserva el índice (ajustando solo el codificador de consultas), permitiendo la adaptación eficiente y escalable de sistemas de búsqueda empresarial multiinquilino sin necesidad de reindexación costosa.

Prateek Jain, Shabari S Nair, Ritesh Goru + 4 more2026-03-05🤖 cs.AI

Generative Recommendation for Large-Scale Advertising

El artículo presenta GR4AD, un sistema de recomendación generativa orientado a la producción para publicidad a gran escala que integra tokenización semántica unificada, decodificación autoregresiva perezosa y optimización basada en valor para lograr mejoras significativas en los ingresos publicitarios y un servicio en tiempo real de alto rendimiento.

Ben Xue, Dan Liu, Lixiang Wang + 26 more2026-03-05🤖 cs.LG

← Anterior Siguiente →