cs.IR artigos | Gist.Science

Retrieving Minimal and Sufficient Reasoning Subgraphs with Graph Foundation Models for Path-aware GraphRAG

O artigo apresenta o GFM-Retriever, um método que utiliza um Modelo Fundacional de Grafos pré-treinado e um seletor de subgrafos baseado no Princípio do Gargalo de Informação para recuperar, de forma eficiente e sem rótulos, subgrafos mínimos e suficientes que fornecem evidências estruturadas para raciocínio multi-hop em cenários de GraphRAG.

Haonan Yuan, Qingyun Sun, Junhua Shi, Mingjun Liu, Jiaqi Yuan, Ziwei Zhang, Xingcheng Fu, Jianxin LiTue, 10 Ma💻 cs

Detecting Cryptographically Relevant Software Packages with Collaborative LLMs

Este artigo propõe um framework colaborativo baseado em múltiplos modelos de linguagem (LLMs) que operam localmente para identificar automaticamente pacotes de software relevantes para criptografia em grandes repositórios, visando facilitar a transição para criptografia pós-quântica e reduzir a carga de trabalho manual.

Eduard Hirsch, Kristina Raab, Tobias J. Bauer, Daniel LoebenbergerTue, 10 Ma💻 cs

Retrieval-Augmented Generation for Predicting Cellular Responses to Gene Perturbation

O artigo apresenta o PT-RAG, um novo framework de Geração Aumentada por Recuperação (RAG) que utiliza recuperação diferenciada e consciente do tipo celular para superar as limitações de generalização dos métodos atuais na previsão de respostas celulares a perturbações genéticas.

Andrea Giuseppe Di Francesco, Andrea Rubbi, Pietro LiòTue, 10 Ma🤖 cs.LG

Rethinking Deep Research from the Perspective of Web Content Distribution Matching

O artigo apresenta o WeDas, um novo framework que melhora a precisão dos agentes de pesquisa profunda ao alinhar suas consultas com a estrutura de distribuição de conteúdo da web, utilizando um mecanismo de sondagem para estimar a compatibilidade entre a intenção do agente e os resultados de busca.

Zixuan Yu, Zhenheng Tang, Tongliang Liu, Chengqi Zhang, Xiaowen Chu, Bo HanTue, 10 Ma🤖 cs.LG

AutoDataset: A Lightweight System for Continuous Dataset Discovery and Search

O AutoDataset é um sistema leve e automatizado que monitora continuamente o arXiv para descobrir, extrair e indexar novos conjuntos de dados diretamente de artigos científicos, permitindo uma busca semântica em tempo real e aumentando a eficiência da descoberta de dados em até 80%.

Junzhe Yang, Xinghao Chen, Yunuo Liu, Zhijing Sun, Wenjin Guo, Xiaoyu ShenTue, 10 Ma💻 cs

Do Deployment Constraints Make LLMs Hallucinate Citations? An Empirical Study across Four Models and Five Prompting Regimes

Este estudo empírico demonstra que, sob diversas restrições de implantação, quatro modelos de linguagem de grande porte (LLMs) apresentam altas taxas de alucinação de citações bibliográficas, com taxas de existência verificável inferiores a 47,5%, o que reforça a necessidade imperativa de validação pós-geração antes de seu uso em síntese de evidências de engenharia de software.

Chen Zhao, Yuan Tang, Yitian QianTue, 10 Ma💻 cs

SoK: Agentic Retrieval-Augmented Generation (RAG): Taxonomy, Architectures, Evaluation, and Research Directions

Este artigo de sistematização de conhecimento (SoK) apresenta o primeiro quadro unificado para a RAG Agêntica, formalizando-a como um processo de decisão de Markov, propondo uma taxonomia arquitetônica abrangente, identificando riscos sistêmicos críticos e delineando direções de pesquisa para sistemas de recuperação e geração autônomos mais confiáveis e escaláveis.

Saroj Mishra, Suman Niroula, Umesh Yadav, Dilip Thakur, Srijan Gyawali, Shiva GaireTue, 10 Ma💬 cs.CL

Dial: A Knowledge-Grounded Dialect-Specific NL2SQL System

O artigo apresenta o Dial, um sistema de NL2SQL baseado em conhecimento que supera as limitações dos métodos existentes ao gerar consultas SQL semanticamente corretas e executáveis em diversos dialetos de banco de dados, utilizando planejamento lógico consciente de dialeto, uma base de conhecimento hierárquica e um ciclo de depuração orientado à execução.

Xiang Zhang, Hongming Xu, Le Zhou, Wei Zhou, Xuanhe Zhou, Guoliang Li, Yuyu Luo, Changdong Liu, Guorun Chen, Jiang Liao, Fan WuTue, 10 Ma🤖 cs.LG

SeDa: A Unified System for Dataset Discovery and Multi-Entity Augmented Semantic Exploration

O artigo apresenta o SeDa, um sistema unificado que integra mais de 7,6 milhões de conjuntos de dados de diversas fontes para facilitar sua descoberta e exploração semântica por meio de anotação padronizada, verificação de procedência e navegação contextual baseada em entidades.

Kan Ling, Zhen Qin, Yichi Zhu, Hengrun Zhang, Huiqun Yu, Guisheng FanTue, 10 Ma💻 cs

GP-Tree: An in-memory spatial index combining adaptive grid cells with a prefix tree for efficient spatial querying

O artigo apresenta o GP-Tree, um índice espacial em memória que combina células de grade adaptativas com uma árvore de prefixos para superar as limitações dos índices tradicionais baseados em retângulos delimitadores, oferecendo uma filtragem mais precisa e melhorando significativamente a eficiência de consultas espaciais em grandes conjuntos de dados.

Xiangyang Yang, Xuefeng Guan, Lanxue Dang, Yi Xie, Qingyang Xu, Huayi Wu, Jiayao WangTue, 10 Ma💻 cs

Deep Research for Recommender Systems

Este artigo propõe o RecPilot, um novo paradigma de recomendação baseado em agentes que substitui as tradicionais listas de itens por relatórios detalhados e centrados no usuário, reduzindo significativamente o esforço necessário para a avaliação e decisão de compra.

Kesha Ou, Chenghao Wu, Xiaolei Wang, Bowen Zheng, Wayne Xin Zhao, Weitao Li, Long Zhang, Sheng Chen, Ji-Rong WenTue, 10 Ma💻 cs

Verifiable Reasoning for LLM-based Generative Recommendation

O artigo apresenta o VRec, uma nova abordagem de "raciocinar-verificar-recomendar" que utiliza verificação intermediária para mitigar a degradação do raciocínio em sistemas de recomendação generativa baseados em LLMs, resultando em melhorias significativas na eficácia e escalabilidade sem comprometer a eficiência.

Xinyu Lin, Hanqing Zeng, Hanchao Yu, Yinglong Xia, Jiang Zhang, Aashu Singh, Fei Liu, Wenjie Wang, Fuli Feng, Tat-Seng Chua, Qifan WangTue, 10 Ma💻 cs

SynPlanResearch-R1: Encouraging Tool Exploration for Deep Research with Synthetic Plans

O artigo apresenta o SynPlanResearch-R1, um framework que melhora o desempenho de agentes de pesquisa ao sintetizar trajetórias de uso de ferramentas que incentivam uma exploração mais profunda durante o ajuste fino supervisionado inicial, superando as limitações de exploração do aprendizado por reforço tradicional e alcançando resultados superiores em diversos benchmarks.

Hansi Zeng, Zoey Li, Yifan Gao, Chenwei Zhang, Xiaoman Pan, Tao Yang, Fengran Mo, Jiacheng Lin, Xian Li, Jingbo ShangTue, 10 Ma💬 cs.CL

Structure-Preserving Graph Contrastive Learning for Mathematical Information Retrieval

Este artigo apresenta a Substituição de Variáveis, uma técnica de aumento de dados específica para domínios que preserva a estrutura e o significado algébrico de fórmulas matemáticas em aprendizado contrastivo de grafos, demonstrando melhorias significativas no desempenho de recuperação de informações matemáticas em comparação com estratégias genéricas.

Chun-Hsi Ku, Hung-Hsuan ChenTue, 10 Ma💻 cs

Why Large Language Models can Secretly Outperform Embedding Similarity in Information Retrieval

O artigo argumenta que, embora os Sistemas de Julgamento de Relevância Baseados em LLM (LLM-RJS) tenham o potencial de superar as limitações de "visão curta" dos sistemas de recuperação por similaridade de embeddings ao utilizar raciocínio, essa superioridade não pode ser validada em conjuntos de dados padrão, pois as próprias anotações humanas de relevância compartilham as mesmas limitações.

Matei Benescu, Ivo Pascal de JongTue, 10 Ma💻 cs

UIS-Digger: Towards Comprehensive Research Agent Systems for Real-world Unindexed Information Seeking

O artigo apresenta o UIS-Digger, um novo framework de agentes multiagentes, e o benchmark UIS-QA para abordar o desafio crítico da busca por informações não indexadas, demonstrando que interações proativas com fontes não capturadas por motores de busca superam sistemas baseados em LLMs avançados nesse domínio.

Chang Liu, Chuqiao Kuang, Tianyi Zhuang, Yuxin Cheng, Huichi Zhou, Xiaoguang Li, Lifeng ShangTue, 10 Ma💻 cs

SPD-RAG: Sub-Agent Per Document Retrieval-Augmented Generation

O SPD-RAG é um framework hierárquico de múltiplos agentes que melhora a qualidade e a escalabilidade da resposta a perguntas complexas em grandes corpora documentais, superando métodos tradicionais de RAG e modelos de contexto longo ao processar documentos individualmente e sintetizar suas respostas de forma eficiente e econômica.

Yagiz Can Akay, Muhammed Yusuf Kartal, Esra Alparslan, Faruk Ortakoyluoglu, Arda AkpinarTue, 10 Ma💬 cs.CL

ERASE -- A Real-World Aligned Benchmark for Unlearning in Recommender Systems

O artigo apresenta o ERASE, um benchmark em larga escala e alinhado com cenários reais para avaliar o aprendizado de máquina em sistemas de recomendação, demonstrando que, embora métodos aproximados possam igualar o re-treinamento em alguns casos, a robustez varia significativamente entre abordagens e arquiteturas, especialmente sob unlearning sequencial.

Pierre Lubitzsch, Maarten de Rijke, Sebastian SchelterTue, 10 Ma💻 cs

Unifying On- and Off-Policy Variance Reduction Methods

Este artigo unifica os métodos de redução de variância para experimentação online e avaliação off-policy, demonstrando a equivalência matemática entre o estimador de diferenças de médias e o estimador de pontuação de propensão inversa com variáveis de controle, bem como entre métodos de ajuste por regressão e a estimativa duplamente robusta.

Olivier JeunenTue, 10 Ma🤖 cs.LG

One Model Is Enough: Native Retrieval Embeddings from LLM Agent Hidden States

Este artigo propõe um método que capacita agentes de LLM a realizar recuperação nativa de conhecimento diretamente a partir de seus estados ocultos, eliminando a necessidade de um modelo de incorporação separado e mantendo 97% da qualidade de recuperação original.

Bo JiangTue, 10 Ma💬 cs.CL

← Anterior Próximo →