Signal in the Noise: Decoding the Reality of Airline Service Quality with Large Language Models

Este estudo valida um framework de Modelo de Linguagem Grande (LLM) que, ao analisar mais de 16.000 avaliações não estruturadas, revela uma desconexão entre as melhorias operacionais e a queda na satisfação dos passageiros da EgyptAir, demonstrando a superioridade dessa abordagem em relação às métricas tradicionais para identificar drivers críticos de insatisfação.

Ahmed Dawoud, Osama El-Shamy, Ahmed Habashy2026-03-06💻 cs

Still Fresh? Evaluating Temporal Drift in Retrieval Benchmarks

Este estudo avalia o impacto do desvio temporal em corpora técnicos sobre o benchmark de recuperação FreshStack, demonstrando que, apesar da migração de documentos relevantes entre repositórios, as classificações dos modelos de recuperação permanecem altamente correlacionadas, indicando que benchmarks reavaliados com corpora evolutivos continuam confiáveis.

Nathan Kuissi, Suraj Subrahmanyan, Nandan Thakur + 1 more2026-03-06💻 cs

iAgentBench: Benchmarking Sensemaking Capabilities of Information-Seeking Agents on High-Traffic Topics

O artigo apresenta o iAgentBench, um novo benchmark dinâmico para perguntas de resposta aberta que avalia a capacidade de agentes de IA de realizar "sensemaking" (compreensão e síntese) ao integrar evidências de múltiplas fontes em tópicos de alto interesse, superando as limitações de benchmarks tradicionais que exigem apenas a recuperação de um único trecho.

Preetam Prabhu Srikar Dammu, Arnav Palkhiwala, Tanya Roosta + 1 more2026-03-06💻 cs

Scaling Laws for Reranking in Information Retrieval

Este trabalho apresenta o primeiro estudo sistemático das leis de escala para modelos de reranking em sistemas de recuperação de informação, demonstrando que o desempenho de arquiteturas pontuais, pareadas e listwise segue padrões previsíveis que permitem estimar com precisão a eficácia de modelos grandes (como os de 1 bilhão de parâmetros) a partir de experimentos com modelos menores, otimizando assim o uso de recursos computacionais.

Rahul Seetharaman, Aman Bansal, Hamed Zamani + 1 more2026-03-06💻 cs

Debiasing Sequential Recommendation with Time-aware Inverse Propensity Scoring

Este artigo propõe o TIPS (Time-aware Inverse Propensity Scoring), um método que supera as limitações das abordagens estáticas ao incorporar dependências sequenciais e dinâmicas temporais para corrigir vieses de seleção e exposição em sistemas de recomendação sequencial, melhorando significativamente a precisão das previsões de interação do usuário.

Sirui Huang, Jing Long, Qian Li + 2 more2026-03-06🤖 cs.AI

Leveraging Large Language Models for Semantic Query Processing in a Scholarly Knowledge Graph

Este trabalho propõe um sistema inovador de processamento de consultas semânticas que integra Modelos de Linguagem de Grande Escala (LLMs) ao Grafo de Conhecimento Acadêmico da ANU, utilizando o Modelo de Documento Profundo (DDM) e o Processamento de Consultas Aprimorado por KG (KGQP) para superar as limitações das abordagens tradicionais e permitir a recuperação precisa e eficiente de informações detalhadas sobre a pesquisa em Ciência da Computação.

Runsong Jia, Bowen Zhang, Sergio J. Rodríguez Méndez + 1 more2026-03-05🤖 cs.AI

When Relevance Meets Novelty: Dual-Stable Periodic Optimization for Serendipitous Recommendation

Este artigo propõe o método Co-Evolutionary Alignment (CoEA), que utiliza um módulo de Exploração de Interesses Dual-Estável para modelar identidades grupais e interesses individuais, além de um mecanismo de Otimização Colaborativa Periódica para criar um ciclo de feedback dinâmico, superando as limitações de sistemas de recomendação tradicionais e baseados em LLMs ao equilibrar relevância e novidade.

Hongxiang Lin, Hao Guo, Zeshun Li + 6 more2026-03-05🤖 cs.AI

REVISION:Reflective Intent Mining and Online Reasoning Auxiliary for E-commerce Visual Search System Optimization

O artigo apresenta o framework REVISION, que integra mineração de intenções implícitas offline e raciocínio online via modelos de linguagem para otimizar sistemas de busca visual no e-commerce, reduzindo significativamente a taxa de cliques nulos ao alinhar as respostas do sistema às necessidades diversificadas dos usuários.

Yiwen Tang, Qiuyu Zhao, Zenghui Sun + 3 more2026-03-05🤖 cs.AI

Succeeding at Scale: Automated Dataset Construction and Query-Side Adaptation for Multi-Tenant Search

O artigo apresenta o DevRev-Search, um benchmark para recuperação de passagens em suporte técnico construído via pipeline automatizado, e propõe uma estratégia de adaptação que preserva o índice ao fine-tunar apenas o codificador de consultas, permitindo a evolução eficiente de sistemas de busca multi-tenant sem a necessidade de reindexação completa.

Prateek Jain, Shabari S Nair, Ritesh Goru + 4 more2026-03-05🤖 cs.AI