TURA: Tool-Augmented Unified Retrieval Agent for AI Search

O artigo apresenta o TURA, um agente unificado de busca com ferramentas que integra RAG e uso de agentes para superar as limitações dos sistemas tradicionais ao acessar simultaneamente conteúdo estático e fontes de informação dinâmicas em tempo real, atendendo assim às demandas de baixa latência de produtos de busca conversacional em escala industrial.

Zhejun Zhao, Yuchen Li, Alley Liu, Yuehu Dong, Xiaolong Wei, Lixue Zheng, Pingsheng Liu, Dongdong Shen, Long Xia, Jiashu Zhao, Dawei YinFri, 13 Ma💬 cs.CL

On the Theoretical Limitations of Embedding-Based Retrieval

Este trabalho demonstra que as limitações teóricas inerentes aos modelos de recuperação baseados em embeddings, especificamente a restrição do número de subconjuntos de documentos retornáveis em função da dimensionalidade, persistem em cenários realistas com consultas simples, indicando que a otimização de dados e modelos não supera essa barreira fundamental do paradigma de vetor único.

Orion Weller, Michael Boratko, Iftekhar Naim, Jinhyuk LeeFri, 13 Ma💬 cs.CL

Mobile-Agent-RAG: Driving Smart Multi-Agent Coordination with Contextual Knowledge Empowerment for Long-Horizon Mobile Automation

O artigo propõe o Mobile-Agent-RAG, um framework hierárquico de agentes múltiplos que utiliza recuperação de conhecimento em dois níveis (planejamento estratégico e execução operacional) para superar as limitações de alucinação e erro em tarefas de automação móvel de longo prazo, demonstrando melhorias significativas em relação aos métodos atuais.

Yuxiang Zhou, Jichang Li, Yanhao Zhang, Haonan Lu, Guanbin LiFri, 13 Ma🤖 cs.AI

PosIR: Position-Aware Heterogeneous Information Retrieval Benchmark

O artigo apresenta o PosIR, o primeiro benchmark padronizado que utiliza uma estratégia de agrupamento controlada por comprimento para diagnosticar sistematicamente o viés de posição em modelos de recuperação de informações, revelando que tal viés é pervasivo, aumenta com o tamanho do documento e não é adequadamente capturado pelas avaliações atuais de textos curtos.

Ziyang Zeng, Dun Zhang, Yu Yan, Xu Sun, Cuiqiaoshu Pan, Yudong Zhou, Yuqing YangFri, 13 Ma💬 cs.CL

Geodesic Semantic Search: Learning Local Riemannian Metrics for Citation Graph Retrieval

O artigo apresenta o Geodesic Semantic Search (GSS), um sistema de recuperação que aprende métricas riemannianas específicas para cada nó em grafos de citação para realizar buscas semânticas geométricas, alcançando uma melhoria de 23% no Recall@20 em comparação com métodos baseados em distâncias euclidianas fixas, ao mesmo tempo que oferece caminhos de citação interpretáveis e reduz custos computacionais através de uma busca hierárquica.

Brandon Yee, Lucas Wang, Kundana Kommini, Krishna SharmaFri, 13 Ma🤖 cs.LG

OpenSanctions Pairs: Large-Scale Entity Matching with LLMs

O artigo apresenta o OpenSanctions Pairs, um grande conjunto de dados para correspondência de entidades derivado de sanções internacionais, demonstrando que modelos de linguagem (LLMs) superam significativamente os sistemas baseados em regras existentes, atingindo um desempenho próximo ao limite prático e sugerindo uma mudança de foco para componentes de pipeline como bloqueio e agrupamento.

Chandler Smith, Magnus Sesodia, Friedrich Lindenberg, Christian Schroeder de WittFri, 13 Ma💬 cs.CL

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

O artigo propõe o framework MDER-DR, uma abordagem de Resposta a Perguntas (QA) baseada em Grafos de Conhecimento que combina um novo método de indexação (Map-Disambiguate-Enrich-Reduce) e um mecanismo de recuperação (Decompose-Resolve) para superar as limitações do RAG tradicional em perguntas multi-hop, alcançando melhorias significativas de desempenho e robustez multilíngue.

Riccardo Campi, Nicolò Oreste Pinciroli Vago, Mathyas Giudici, Marco Brambilla, Piero FraternaliFri, 13 Ma💬 cs.CL

Modeling Trial-and-Error Navigation With a Sequential Decision Model of Information Scent

Este artigo propõe um modelo de tomada de decisão sequencial que estende o conceito de "cheiro de informação" para explicar o comportamento de navegação por tentativa e erro, demonstrando que usuários, sob restrições de memória e tempo, inspecionam estrategicamente links e cometem erros previsíveis ao priorizar o "suficiente" em vez de analisar páginas inteiras.

Xiaofu Jin, Yunpeng Bai, Antti OulasvirtaFri, 13 Ma🤖 cs.LG

Mapping a Decade of Avian Influenza Research (2014-2023): A Scientometric Analysis from Web of Science

Este estudo scientométrico analisa a produção científica sobre influenza aviária entre 2014 e 2023, revelando um crescimento constante das publicações lideradas pela China e pelos EUA, com destaque para instituições específicas e revistas como o PLoS One, ao mesmo tempo que enfatiza a necessidade de maior colaboração internacional.

Muneer Ahmad, Undie Felicia Nkatv, Amrita Sharma + 3 more2026-03-06💻 cs

Beyond the Unit Hypersphere: Embedding Magnitude in Contrastive Learning

O artigo demonstra que, ao contrário da similaridade de cosseno tradicional que trata a magnitude dos embeddings como ruído, aprender e controlar seletivamente a magnitude de consultas e documentos melhora significativamente a recuperação e a geração aumentada por recuperação (RAG), especialmente em cenários de generalização fora de domínio, ao identificar que normalizar apenas um lado é mais eficaz e que a magnitude da consulta modula os gradientes enquanto a do documento escala as pontuações de inferência.

Xincan Feng, Taro Watanabe2026-03-06💻 cs

Pailitao-VL: Unified Embedding and Reranker for Real-Time Multi-Modal Industrial Search

O artigo apresenta o Pailitao-VL, um sistema de busca multimodal industrial em tempo real que supera limitações de granularidade e ruído ao adotar uma nova abordagem de reconhecimento de ID absoluto para embeddings e uma política de reclassificação comparativa e calibrada, resultando em desempenho superior e impacto comercial significativo na plataforma de comércio eletrônico do Alibaba.

Lei Chen, Chen Ju, Xu Chen + 13 more2026-03-06💻 cs

SearchGym: A Modular Infrastructure for Cross-Platform Benchmarking and Hybrid Search Orchestration

O artigo apresenta o SearchGym, uma infraestrutura modular de código aberto que permite a orquestração de buscas híbridas e o benchmarking cross-plataforma através de abstrações desacopladas e uma álgebra de configuração composicional, demonstrando que a ordem ótima de filtragem e classificação semântica depende da força do filtro e alcançando uma taxa de recuperação de 70% no benchmark LitSearch.

Jerome Tze-Hou Hsu2026-03-06💻 cs