cs.IR artigos | Gist.Science

FinRetrieval: A Benchmark for Financial Data Retrieval by AI Agents

O artigo apresenta o FinRetrieval, um novo benchmark com 500 perguntas de recuperação de dados financeiros que demonstra que a disponibilidade de ferramentas de API estruturada é o fator determinante para o desempenho dos agentes de IA, superando significativamente a busca na web e revelando variações de desempenho baseadas em configurações de raciocínio e convenções geográficas.

Eric Y. Kim, Jie Huang2026-03-06💻 cs

Signal in the Noise: Decoding the Reality of Airline Service Quality with Large Language Models

Este estudo valida um framework de Modelo de Linguagem Grande (LLM) que, ao analisar mais de 16.000 avaliações não estruturadas, revela uma desconexão entre as melhorias operacionais e a queda na satisfação dos passageiros da EgyptAir, demonstrando a superioridade dessa abordagem em relação às métricas tradicionais para identificar drivers críticos de insatisfação.

Ahmed Dawoud, Osama El-Shamy, Ahmed Habashy2026-03-06💻 cs

Still Fresh? Evaluating Temporal Drift in Retrieval Benchmarks

Este estudo avalia o impacto do desvio temporal em corpora técnicos sobre o benchmark de recuperação FreshStack, demonstrando que, apesar da migração de documentos relevantes entre repositórios, as classificações dos modelos de recuperação permanecem altamente correlacionadas, indicando que benchmarks reavaliados com corpora evolutivos continuam confiáveis.

Nathan Kuissi, Suraj Subrahmanyan, Nandan Thakur + 1 more2026-03-06💻 cs

iAgentBench: Benchmarking Sensemaking Capabilities of Information-Seeking Agents on High-Traffic Topics

O artigo apresenta o iAgentBench, um novo benchmark dinâmico para perguntas de resposta aberta que avalia a capacidade de agentes de IA de realizar "sensemaking" (compreensão e síntese) ao integrar evidências de múltiplas fontes em tópicos de alto interesse, superando as limitações de benchmarks tradicionais que exigem apenas a recuperação de um único trecho.

Preetam Prabhu Srikar Dammu, Arnav Palkhiwala, Tanya Roosta + 1 more2026-03-06💻 cs

CONE: Embeddings for Complex Numerical Data Preserving Unit and Variable Semantics

O artigo apresenta o CONE, um modelo híbrido pré-treinado que utiliza um algoritmo inovador de embeddings compostos para codificar números, intervalos e gaussianas junto com suas unidades e atributos, preservando semântica e distância e demonstrando capacidades superiores de raciocínio numérico em diversos domínios.

Gyanendra Shrestha, Anna Pyayt, Michael Gubanov2026-03-06💻 cs

DARE: Aligning LLM Agents with the R Statistical Ecosystem via Distribution-Aware Retrieval

O artigo apresenta o DARE, um modelo de recuperação leve que alinha agentes de LLM ao ecossistema estatístico R ao incorporar informações de distribuição de dados nas representações de funções, resultando em uma recuperação de pacotes e geração de código significativamente mais precisas.

Maojun Sun, Yue Wu, Yifei Xie + 5 more2026-03-06💻 cs

Scaling Laws for Reranking in Information Retrieval

Este trabalho apresenta o primeiro estudo sistemático das leis de escala para modelos de reranking em sistemas de recuperação de informação, demonstrando que o desempenho de arquiteturas pontuais, pareadas e listwise segue padrões previsíveis que permitem estimar com precisão a eficácia de modelos grandes (como os de 1 bilhão de parâmetros) a partir de experimentos com modelos menores, otimizando assim o uso de recursos computacionais.

Rahul Seetharaman, Aman Bansal, Hamed Zamani + 1 more2026-03-06💻 cs

Beyond Text: Aligning Vision and Language for Multimodal E-Commerce Retrieval

Este trabalho propõe uma rede de fusão de modalidades inovadora e estratégias de alinhamento em duas etapas para melhorar a recuperação multimodal em e-commerce, superando a dependência tradicional de apenas texto ao integrar efetivamente informações visuais e textuais.

Qujiaheng Zhang, Guagnyue Xu, Fengjie Li2026-03-06💻 cs

Detecting RAG Advertisements Across Advertising Styles

Este artigo propõe uma taxonomia de estilos publicitários para sistemas de geração aumentada por recuperação (RAG), demonstrando que modelos baseados em reconhecimento de entidades são eficazes e robustos na detecção de anúncios nativos gerados por IA, ao passo que modelos leves como SVM e Random Forests mostram-se frágeis frente a variações estilísticas.

Sebastian Heineking, Wilhelm Pertsch, Ines Zelch + 4 more2026-03-06💻 cs

Debiasing Sequential Recommendation with Time-aware Inverse Propensity Scoring

Este artigo propõe o TIPS (Time-aware Inverse Propensity Scoring), um método que supera as limitações das abordagens estáticas ao incorporar dependências sequenciais e dinâmicas temporais para corrigir vieses de seleção e exposição em sistemas de recomendação sequencial, melhorando significativamente a precisão das previsões de interação do usuário.

Sirui Huang, Jing Long, Qian Li + 2 more2026-03-06🤖 cs.AI

Core-based Hierarchies for Efficient GraphRAG

Este artigo propõe o GraphRAG baseado em k-core, uma abordagem determinista e eficiente que substitui a clusterização Leiden por decomposição de k-core para superar a não reprodutibilidade em grafos esparsos, melhorando a compreensão global e reduzindo custos de tokens.

Jakir Hossain, Ahmet Erdem Sarıyüce2026-03-06💬 cs.CL

Leveraging Large Language Models for Semantic Query Processing in a Scholarly Knowledge Graph

Este trabalho propõe um sistema inovador de processamento de consultas semânticas que integra Modelos de Linguagem de Grande Escala (LLMs) ao Grafo de Conhecimento Acadêmico da ANU, utilizando o Modelo de Documento Profundo (DDM) e o Processamento de Consultas Aprimorado por KG (KGQP) para superar as limitações das abordagens tradicionais e permitir a recuperação precisa e eficiente de informações detalhadas sobre a pesquisa em Ciência da Computação.

Runsong Jia, Bowen Zhang, Sergio J. Rodríguez Méndez + 1 more2026-03-05🤖 cs.AI

RAG vs. GraphRAG: A Systematic Evaluation and Key Insights

Este artigo apresenta um estudo abrangente que compara sistematicamente os métodos RAG e GraphRAG em tarefas de texto padronizadas, identificando seus pontos fortes e fracos distintos e propondo estratégias de integração para melhorar o desempenho geral.

Haoyu Han, Li Ma, Yu Wang + 9 more2026-03-05💻 cs

OSCAR: Online Soft Compression And Reranking

O OSCAR é um método inovador de compressão online e reclassificação dependente da consulta que reduz significativamente o custo computacional e acelera a inferência em pipelines de RAG, mantendo a precisão de modelos de linguagem de grande porte sem sobrecarga de armazenamento.

Maxime Louis, Thibault Formal, Hervé Dejean + 1 more2026-03-05🤖 cs.AI

PinRec: Outcome-Conditioned, Multi-Token Generative Retrieval for Industry-Scale Recommendation Systems

O artigo apresenta o PinRec, um modelo inovador de recuperação generativa desenvolvido para o Pinterest que utiliza geração condicionada a resultados e multi-token para equilibrar métricas de negócio, diversidade e eficiência em escala industrial.

Prabhat Agarwal, Anirudhan Badrinath, Laksh Bhasin + 4 more2026-03-05🤖 cs.LG

When Relevance Meets Novelty: Dual-Stable Periodic Optimization for Serendipitous Recommendation

Este artigo propõe o método Co-Evolutionary Alignment (CoEA), que utiliza um módulo de Exploração de Interesses Dual-Estável para modelar identidades grupais e interesses individuais, além de um mecanismo de Otimização Colaborativa Periódica para criar um ciclo de feedback dinâmico, superando as limitações de sistemas de recomendação tradicionais e baseados em LLMs ao equilibrar relevância e novidade.

Hongxiang Lin, Hao Guo, Zeshun Li + 6 more2026-03-05🤖 cs.AI

Towards Personalized Deep Research: Benchmarks and Evaluations

Este trabalho apresenta o PDR-Bench, o primeiro benchmark para avaliar agentes de pesquisa profunda personalizados, combinando tarefas diversificadas com perfis de usuários autênticos e propondo o framework PQR para medir alinhamento, qualidade e confiabilidade factual.

Yuan Liang, Jiaxian Li, Yuqing Wang + 11 more2026-03-05🤖 cs.AI

REVISION:Reflective Intent Mining and Online Reasoning Auxiliary for E-commerce Visual Search System Optimization

O artigo apresenta o framework REVISION, que integra mineração de intenções implícitas offline e raciocínio online via modelos de linguagem para otimizar sistemas de busca visual no e-commerce, reduzindo significativamente a taxa de cliques nulos ao alinhar as respostas do sistema às necessidades diversificadas dos usuários.

Yiwen Tang, Qiuyu Zhao, Zenghui Sun + 3 more2026-03-05🤖 cs.AI

Succeeding at Scale: Automated Dataset Construction and Query-Side Adaptation for Multi-Tenant Search

O artigo apresenta o DevRev-Search, um benchmark para recuperação de passagens em suporte técnico construído via pipeline automatizado, e propõe uma estratégia de adaptação que preserva o índice ao fine-tunar apenas o codificador de consultas, permitindo a evolução eficiente de sistemas de busca multi-tenant sem a necessidade de reindexação completa.

Prateek Jain, Shabari S Nair, Ritesh Goru + 4 more2026-03-05🤖 cs.AI

Generative Recommendation for Large-Scale Advertising

O artigo apresenta o GR4AD, um sistema de recomendação generativa orientado à produção para publicidade em larga escala que integra novas técnicas de tokenização, decodificação e otimização para alcançar ganhos significativos de receita e servir milhões de usuários em tempo real no ecossistema do Kuaishou.

Ben Xue, Dan Liu, Lixiang Wang + 26 more2026-03-05🤖 cs.LG

← Anterior Próximo →