cs.IR artigos | Gist.Science

TURA: Tool-Augmented Unified Retrieval Agent for AI Search

O artigo apresenta o TURA, um agente unificado de busca com ferramentas que integra RAG e uso de agentes para superar as limitações dos sistemas tradicionais ao acessar simultaneamente conteúdo estático e fontes de informação dinâmicas em tempo real, atendendo assim às demandas de baixa latência de produtos de busca conversacional em escala industrial.

Zhejun Zhao, Yuchen Li, Alley Liu, Yuehu Dong, Xiaolong Wei, Lixue Zheng, Pingsheng Liu, Dongdong Shen, Long Xia, Jiashu Zhao, Dawei YinFri, 13 Ma💬 cs.CL

On the Theoretical Limitations of Embedding-Based Retrieval

Este trabalho demonstra que as limitações teóricas inerentes aos modelos de recuperação baseados em embeddings, especificamente a restrição do número de subconjuntos de documentos retornáveis em função da dimensionalidade, persistem em cenários realistas com consultas simples, indicando que a otimização de dados e modelos não supera essa barreira fundamental do paradigma de vetor único.

Orion Weller, Michael Boratko, Iftekhar Naim, Jinhyuk LeeFri, 13 Ma💬 cs.CL

Mobile-Agent-RAG: Driving Smart Multi-Agent Coordination with Contextual Knowledge Empowerment for Long-Horizon Mobile Automation

O artigo propõe o Mobile-Agent-RAG, um framework hierárquico de agentes múltiplos que utiliza recuperação de conhecimento em dois níveis (planejamento estratégico e execução operacional) para superar as limitações de alucinação e erro em tarefas de automação móvel de longo prazo, demonstrando melhorias significativas em relação aos métodos atuais.

Yuxiang Zhou, Jichang Li, Yanhao Zhang, Haonan Lu, Guanbin LiFri, 13 Ma🤖 cs.AI

PosIR: Position-Aware Heterogeneous Information Retrieval Benchmark

O artigo apresenta o PosIR, o primeiro benchmark padronizado que utiliza uma estratégia de agrupamento controlada por comprimento para diagnosticar sistematicamente o viés de posição em modelos de recuperação de informações, revelando que tal viés é pervasivo, aumenta com o tamanho do documento e não é adequadamente capturado pelas avaliações atuais de textos curtos.

Ziyang Zeng, Dun Zhang, Yu Yan, Xu Sun, Cuiqiaoshu Pan, Yudong Zhou, Yuqing YangFri, 13 Ma💬 cs.CL

Truncated Step-Level Sampling with Process Rewards for Retrieval-Augmented Reasoning

O artigo apresenta o SLATE, um framework que melhora o raciocínio com recuperação aumentada em modelos de linguagem grandes através de uma amostragem truncada em nível de passo e recompensas processuais densas, resolvendo problemas de atribuição de crédito e variância de gradiente para superar métodos existentes em tarefas complexas.

Chris Samarinas, Haw-Shiuan Chang, Hamed ZamaniFri, 13 Ma💬 cs.CL

Geodesic Semantic Search: Learning Local Riemannian Metrics for Citation Graph Retrieval

O artigo apresenta o Geodesic Semantic Search (GSS), um sistema de recuperação que aprende métricas riemannianas específicas para cada nó em grafos de citação para realizar buscas semânticas geométricas, alcançando uma melhoria de 23% no Recall@20 em comparação com métodos baseados em distâncias euclidianas fixas, ao mesmo tempo que oferece caminhos de citação interpretáveis e reduz custos computacionais através de uma busca hierárquica.

Brandon Yee, Lucas Wang, Kundana Kommini, Krishna SharmaFri, 13 Ma🤖 cs.LG

OpenSanctions Pairs: Large-Scale Entity Matching with LLMs

O artigo apresenta o OpenSanctions Pairs, um grande conjunto de dados para correspondência de entidades derivado de sanções internacionais, demonstrando que modelos de linguagem (LLMs) superam significativamente os sistemas baseados em regras existentes, atingindo um desempenho próximo ao limite prático e sugerindo uma mudança de foco para componentes de pipeline como bloqueio e agrupamento.

Chandler Smith, Magnus Sesodia, Friedrich Lindenberg, Christian Schroeder de WittFri, 13 Ma💬 cs.CL

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

O artigo propõe o framework MDER-DR, uma abordagem de Resposta a Perguntas (QA) baseada em Grafos de Conhecimento que combina um novo método de indexação (Map-Disambiguate-Enrich-Reduce) e um mecanismo de recuperação (Decompose-Resolve) para superar as limitações do RAG tradicional em perguntas multi-hop, alcançando melhorias significativas de desempenho e robustez multilíngue.

Riccardo Campi, Nicolò Oreste Pinciroli Vago, Mathyas Giudici, Marco Brambilla, Piero FraternaliFri, 13 Ma💬 cs.CL

Modeling Trial-and-Error Navigation With a Sequential Decision Model of Information Scent

Este artigo propõe um modelo de tomada de decisão sequencial que estende o conceito de "cheiro de informação" para explicar o comportamento de navegação por tentativa e erro, demonstrando que usuários, sob restrições de memória e tempo, inspecionam estrategicamente links e cometem erros previsíveis ao priorizar o "suficiente" em vez de analisar páginas inteiras.

Xiaofu Jin, Yunpeng Bai, Antti OulasvirtaFri, 13 Ma🤖 cs.LG

How Auditing Methodologies Can Impact Our Understanding of YouTube's Recommendation Systems

Este artigo demonstra que as escolhas metodológicas em auditorias do sistema de recomendação do YouTube impactam significativamente a precisão das inferências sobre vieses algorítmicos, oferecendo diretrizes para equilibrar custos e acurácia na coleta de dados.

Sarmad Chandio, Daniyal Pirwani Dar, Rishab Nithyanand2026-03-10💻 cs

Agent-OM: Leveraging LLM Agents for Ontology Matching

O artigo apresenta o Agent-OM, um novo paradigma baseado em agentes de LLM que utiliza um framework com agentes siameses e ferramentas específicas para realizar correspondência de ontologias, demonstrando desempenho superior em tarefas complexas e de poucos exemplos em comparação com os sistemas mais avançados existentes.

Zhangcheng Qiang, Weiqing Wang, Kerry Taylor2026-03-10💬 cs.CL

LEXA: Legal Case Retrieval via Graph Contrastive Learning with Contextualised LLM Embeddings

O artigo apresenta o LEXA, um modelo aprimorado de recuperação de casos jurídicos que supera as limitações do CaseGNN ao integrar informações estruturais ricas de grafos, sinais de aprendizado contrastivo e embeddings contextualizados de grandes modelos de linguagem, alcançando desempenho superior em benchmarks.

Yanran Tang, Ruihong Qiu, Yilun Liu + 2 more2026-03-06💻 cs

Vector Retrieval with Similarity and Diversity: How Hard Is It?

Este artigo propõe e analisa teoricamente o problema NP-completo de Recuperação de Vetores com Similaridade e Diversidade (VRSD), introduzindo um algoritmo heurístico sem parâmetros que supera métodos existentes como MMR e k-DPP em tarefas de recuperação semântica.

Hang Gao, Dong Deng, Yongfeng Zhang2026-03-06💻 cs

Agentic Multi-Persona Framework for Evidence-Aware Fake News Detection

O artigo apresenta o AMPEND-LS, um framework agêntico multi-persona que combina sinergia entre LLMs e SLMs com evidências multimodais para detectar notícias falsas com maior precisão, robustez e explicabilidade do que os métodos existentes.

Roopa Bukke, Soumya Pandey, Suraj Kumar + 2 more2026-03-06💻 cs

A Scalable Inter-edge Correlation Modeling in CopulaGNN for Link Sign Prediction

Este artigo propõe uma abordagem escalável para a previsão de sinais em links de grafos assinados, baseada no modelo CopulaGNN, que utiliza uma representação eficiente de matrizes de correlação e uma reformulação probabilística para superar limitações computacionais, garantindo convergência linear e desempenho competitivo.

Jinkyu Sung, Myunggeum Jee, Joonseok Lee2026-03-06💻 cs

Mapping a Decade of Avian Influenza Research (2014-2023): A Scientometric Analysis from Web of Science

Este estudo scientométrico analisa a produção científica sobre influenza aviária entre 2014 e 2023, revelando um crescimento constante das publicações lideradas pela China e pelos EUA, com destaque para instituições específicas e revistas como o PLoS One, ao mesmo tempo que enfatiza a necessidade de maior colaboração internacional.

Muneer Ahmad, Undie Felicia Nkatv, Amrita Sharma + 3 more2026-03-06💻 cs

Beyond the Unit Hypersphere: Embedding Magnitude in Contrastive Learning

O artigo demonstra que, ao contrário da similaridade de cosseno tradicional que trata a magnitude dos embeddings como ruído, aprender e controlar seletivamente a magnitude de consultas e documentos melhora significativamente a recuperação e a geração aumentada por recuperação (RAG), especialmente em cenários de generalização fora de domínio, ao identificar que normalizar apenas um lado é mais eficaz e que a magnitude da consulta modula os gradientes enquanto a do documento escala as pontuações de inferência.

Xincan Feng, Taro Watanabe2026-03-06💻 cs

Pailitao-VL: Unified Embedding and Reranker for Real-Time Multi-Modal Industrial Search

O artigo apresenta o Pailitao-VL, um sistema de busca multimodal industrial em tempo real que supera limitações de granularidade e ruído ao adotar uma nova abordagem de reconhecimento de ID absoluto para embeddings e uma política de reclassificação comparativa e calibrada, resultando em desempenho superior e impacto comercial significativo na plataforma de comércio eletrônico do Alibaba.

Lei Chen, Chen Ju, Xu Chen + 13 more2026-03-06💻 cs

Give Users the Wheel: Towards Promptable Recommendation Paradigm

Este artigo apresenta o DPR, um framework agnóstico a modelos que capacita sistemas de recomendação sequenciais tradicionais a incorporar instruções em linguagem natural para orientar dinamicamente a recuperação de itens, superando as limitações de paradigmas existentes ao alinhar sinais colaborativos e semânticos sem sacrificar eficiência ou precisão.

Fuyuan Lyu, Chenglin Luo, Qiyuan Zhang + 6 more2026-03-06💻 cs

SearchGym: A Modular Infrastructure for Cross-Platform Benchmarking and Hybrid Search Orchestration

O artigo apresenta o SearchGym, uma infraestrutura modular de código aberto que permite a orquestração de buscas híbridas e o benchmarking cross-plataforma através de abstrações desacopladas e uma álgebra de configuração composicional, demonstrando que a ordem ótima de filtragem e classificação semântica depende da força do filtro e alcançando uma taxa de recuperação de 70% no benchmark LitSearch.

Jerome Tze-Hou Hsu2026-03-06💻 cs

← Anterior Próximo →