cs.IR artigos | Gist.Science

ThinkQE: Query Expansion via an Evolving Thinking Process

O artigo apresenta o ThinkQE, um framework de expansão de consultas que utiliza um processo de raciocínio evolutivo e interação com o corpus para superar as limitações de foco estreito dos métodos baseados em LLMs, alcançando desempenho superior em benchmarks de busca na web.

Yibin Lei, Tao Shen, Andrew YatesWed, 11 Ma💬 cs.CL

TaoSR1: The Thinking Model for E-commerce Relevance Search

O artigo apresenta o TaoSR1, um novo paradigma que adapta Grandes Modelos de Linguagem (LLMs) para a previsão de relevância em buscas de e-commerce, utilizando um processo de três etapas com raciocínio passo a passo (Chain-of-Thought) e otimização de preferências para superar limitações de modelos anteriores e alcançar desempenho superior tanto em testes offline quanto em avaliações online.

Chenhe Dong, Shaowei Yao, Pengkun Jiao, Jianhui Yang, Yiming Jin, Zerui Huang, Xiaojiang Zhou, Dan Ou, Haihong Tang, Bo ZhengWed, 11 Ma🤖 cs.AI

Enhancing Retrieval-Augmented Generation with Entity Linking for Educational Platforms

O artigo propõe o ELERAG, uma arquitetura aprimorada de Geração Aumentada por Recuperação (RAG) que integra a Vinculação de Entidades para melhorar a precisão factual em sistemas de perguntas e respostas educacionais em italiano, demonstrando que estratégias híbridas adaptadas ao domínio superam abordagens padrão em contextos especializados.

Francesco Granata, Francesco Poggi, Misael MongiovìWed, 11 Ma🤖 cs.AI

MCGI: Manifold-Consistent Graph Indexing for Billion-Scale Disk-Resident Vector Search

O artigo apresenta o MCGI, um método de indexação de grafos geométrico e residente em disco que utiliza a Dimensão Intrínseca Local (LID) para adaptar dinamicamente as estratégias de busca à geometria dos dados, superando significativamente os métodos existentes em termos de throughput e latência em buscas de vizinhos mais próximos aproximados em escala bilionária.

Dongfang ZhaoWed, 11 Ma🤖 cs.AI

Scaling Multilingual Semantic Search in Uber Eats Delivery

Este artigo apresenta um sistema de recuperação semântica unificado e multilíngue para o Uber Eats, que utiliza um modelo Qwen2 de duas torres com aprendizado de representação Matryoshka e treinamento em centenas de milhões de interações para melhorar significativamente a precisão na busca por restaurantes, pratos e itens de varejo em múltiplos mercados.

Bo Ling, Zheng Liu, Haoyang Chen, Divya Nagar, Luting Yang, Mehul ParsanaWed, 11 Ma💻 cs

Time warping with Hellinger elasticity

O artigo apresenta o algoritmo de Warping Temporal Elástico, que resolve problemas de correspondência de séries temporais em espaços métricos arbitrários utilizando uma penalidade baseada no kernel de Hellinger, com complexidade computacional cúbica.

Yuly BilligWed, 11 Ma💻 cs

Beyond Relevance: On the Relationship Between Retrieval and RAG Information Coverage

Este estudo demonstra que métricas de recuperação baseadas em cobertura são indicadores confiáveis do desempenho de sistemas RAG em termos de cobertura de informações, especialmente quando os objetivos de recuperação e geração estão alinhados.

Saron Samuel, Alexander Martin, Eugene Yang, Andrew Yates, Dawn Lawrie, Ian Soborof, Laura Dietz, Benjamin Van DurmeWed, 11 Ma🤖 cs.AI

Quantifying Uncertainty in AI Visibility: A Statistical Framework for Generative Search Measurement

Este artigo demonstra que as métricas de visibilidade em motores de busca generativos são inerentemente estocásticas e instáveis, argumentando que elas devem ser tratadas como estimadores amostrais com intervalos de confiança em vez de valores fixos de ponto único.

Ronald SielinskiWed, 11 Ma🤖 cs.AI

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

O artigo apresenta o "Guardian", um sistema de suporte à decisão que utiliza uma arquitetura de três camadas combinando cadeias de Markov, aprendizado por reforço e validação por modelos de linguagem para gerar planos de busca interpretáveis e otimizados para crianças desaparecidas nas primeiras 72 horas.

Joshua Castillo, Ravi MukkamalaWed, 11 Ma🤖 cs.AI

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

O artigo apresenta o PathoScribe, um framework unificado baseado em modelos de linguagem (LLM) que transforma arquivos de patologia estáticos em uma biblioteca viva e inteligente, permitindo recuperação semântica, construção automatizada de coortes e raciocínio clínico com alta precisão, conforme demonstrado em uma avaliação com 70.000 relatórios cirúrgicos.

Abdul Rehman Akbar, Samuel Wales-McGrath, Alejadro Levya, Lina Gokhale, Rajendra Singh, Wei Chen, Anil Parwani, Muhammad Khalid Khan NiaziWed, 11 Ma🤖 cs.AI

A Consensus-Driven Multi-LLM Pipeline for Missing-Person Investigations

O artigo apresenta o Guardian, um sistema de pipeline multi-LLM que utiliza modelos especializados, um mecanismo de consenso e ajuste fino QLoRA para extrair e processar informações de forma auditável e coordenada, visando otimizar as investigações de pessoas desaparecidas nas primeiras 72 horas críticas.

Joshua Castillo, Ravi MukkamalaWed, 11 Ma🤖 cs.AI

Unlocking High-Fidelity Analog Joint Source-Channel Coding on Standard Digital Transceivers

O artigo apresenta o D2AJSCC, um novo framework que permite a implementação de codificação conjunta fonte-canal analógica de alta fidelidade em transceptores digitais padrão, utilizando a estrutura de subportadoras do OFDM e uma rede neural proxy para superar as limitações de hardware e permitir transmissão semântica robusta sem modificações físicas.

Shumin Yao, Hao Chen, Yaping Sun, Nan Ma, Xiaodong Xu, Qinglin Zhao, Shuguang CuiWed, 11 Ma🔢 math

From Verification to Amplification: Auditing Reverse Image Search as Algorithmic Gatekeeping in Visual Misinformation Fact-checking

Este estudo audita o Google Reverse Image Search e revela que, ao atuar como um guardião algorítmico na verificação de desinformação visual, a ferramenta frequentemente prioriza informações irrelevantes e falsas em detrimento de conteúdos de desmentido, criando desafios significativos para a eficácia da fact-checking.

Cong Lin, Yifei Chen, Jiangyue Chen, Yingdan Lu, Yilang Peng, Cuihua ShenWed, 11 Ma💻 cs

DataFactory: Collaborative Multi-Agent Framework for Advanced Table Question Answering

O artigo apresenta o DataFactory, um framework colaborativo multi-agente que supera as limitações de modelos de linguagem únicos na Resposta a Perguntas sobre Tabelas (TableQA) através da orquestração especializada de agentes, transformação automática de dados em grafos de conhecimento e estratégias de engenharia de contexto, resultando em ganhos significativos de precisão e robustez em benchmarks padrão.

Tong Wang, Chi Jin, Yongkang Chen, Huan Deng, Xiaohui Kuang, Gang ZhaoWed, 11 Ma🤖 cs.AI

Evoking User Memory: Personalizing LLM via Recollection-Familiarity Adaptive Retrieval

O artigo apresenta o RF-Mem, um recuperador de memória adaptativo que personaliza modelos de linguagem simulando o processo cognitivo humano ao alternar dinamicamente entre busca por familiaridade e reconstrução deliberada por recordação, superando assim as limitações de métodos existentes em termos de precisão e escalabilidade.

Yingyi Zhang, Junyi Li, Wenlin Zhang, Penyue Jia, Xianneng Li, Yichao Wang, Derong Xu, Yi Wen, Huifeng Guo, Yong Liu, Xiangyu ZhaoWed, 11 Ma💻 cs

Diagnosing and Repairing Citation Failures in Generative Engine Optimization

Este artigo apresenta o AgentGEO, um sistema autônomo que diagnostica e repara falhas específicas na citação de documentos em motores generativos, alcançando uma melhoria superior a 40% nas taxas de citação ao modificar apenas 5% do conteúdo, superando abordagens genéricas e promovendo uma visibilidade mais equitativa.

Zhihua Tian, Yuhan Chen, Yao Tang, Jian Liu, Ruoxi JiaWed, 11 Ma💬 cs.CL

TA-Mem: Tool-Augmented Autonomous Memory Retrieval for LLM in Long-Term Conversational QA

O artigo apresenta o TA-Mem, um novo quadro de recuperação de memória autônoma e aumentada por ferramentas para Grandes Modelos de Linguagem (LLMs) que supera as limitações das abordagens estáticas atuais ao permitir a extração adaptativa de informações e a seleção dinâmica de métodos de busca, resultando em melhorias significativas de desempenho em tarefas de perguntas e respostas de conversação de longo prazo.

Mengwei Yuan, Jianan Liu, Jing Yang, Xianyou Li, Weiran Yan, Yichao Wu, Penghao LiangWed, 11 Ma💬 cs.CL

PRECEPT: Planning Resilience via Experience, Context Engineering & Probing Trajectories A Unified Framework for Test-Time Adaptation with Compositional Rule Learning and Pareto-Guided Prompt Evolution

O PRECEPT é uma estrutura unificada para adaptação em tempo de teste que combina recuperação determinística de regras, memória consciente de conflitos e evolução de prompts guiada por Pareto para superar a degradação de recuperação, melhorar a generalização composicional e garantir robustez contra conhecimento desatualizado ou adversário em agentes LLM.

Arash ShahmansooriWed, 11 Ma🤖 cs.AI

Understanding the Interplay between LLMs' Utilisation of Parametric and Contextual Knowledge: A keynote at ECIR 2025

Esta palestra no ECIR 2025 explora a interação entre o conhecimento paramétrico e contextual em Modelos de Linguagem, apresentando pesquisas sobre avaliação de conhecimento, testes diagnósticos para conflitos e características do uso bem-sucedido de contexto.

Isabelle AugensteinWed, 11 Ma💬 cs.CL

Automatic Cardiac Risk Management Classification using large-context Electronic Patients Health Records

Este estudo apresenta um framework de classificação automatizada para o gerenciamento de risco cardiovascular em idosos, demonstrando que uma arquitetura Transformer personalizada supera tanto métodos tradicionais quanto modelos de linguagem generativos ao analisar registros de saúde eletrônicos não estruturados de longo contexto.

Jacopo Vitale, David Della Morte, Luca Bacco, Mario Merone, Mark de Groot, Saskia Haitjema, Leandro Pecchia, Bram van EsWed, 11 Ma🤖 cs.AI