Retrieving Minimal and Sufficient Reasoning Subgraphs with Graph Foundation Models for Path-aware GraphRAG

Ce papier propose GFM-Retriever, une méthode qui utilise un modèle de fondation graphique pré-entraîné et un sélecteur de sous-graphe optimisé par le principe du goulot d'information pour extraire des preuves minimales et suffisantes, permettant ainsi un raisonnement interprétable et performant dans des scénarios de démarrage à froid.

Haonan Yuan, Qingyun Sun, Junhua Shi, Mingjun Liu, Jiaqi Yuan, Ziwei Zhang, Xingcheng Fu, Jianxin LiTue, 10 Ma💻 cs

AutoDataset: A Lightweight System for Continuous Dataset Discovery and Search

Ce papier présente AutoDataset, un système léger et automatisé qui surveille en temps réel arXiv pour détecter, extraire et indexer de nouveaux jeux de données à partir des articles de recherche, permettant ainsi une découverte et une recherche sémantique rapides qui réduisent le temps de localisation de ces ressources jusqu'à 80 %.

Junzhe Yang, Xinghao Chen, Yunuo Liu, Zhijing Sun, Wenjin Guo, Xiaoyu ShenTue, 10 Ma💻 cs

Do Deployment Constraints Make LLMs Hallucinate Citations? An Empirical Study across Four Models and Five Prompting Regimes

Cette étude empirique démontre que, quel que soit le modèle ou le régime de prompt utilisé, les contraintes de déploiement n'empêchent pas les LLMs de générer massivement des citations fictives qui restent formatiquement valides, soulignant ainsi la nécessité impérative d'une vérification post-hoc avant leur intégration dans la littérature scientifique ou les outils d'ingénierie logicielle.

Chen Zhao, Yuan Tang, Yitian QianTue, 10 Ma💻 cs

SoK: Agentic Retrieval-Augmented Generation (RAG): Taxonomy, Architectures, Evaluation, and Research Directions

Cet article de synthèse (SoK) propose le premier cadre unifié pour les systèmes de Génération Augmentée par Récupération (RAG) agents, en formalisant leur fonctionnement comme des processus de décision markoviens, en établissant une taxonomie architecturale complète, en identifiant des risques critiques tels que la propagation des hallucinations, et en définissant des orientations de recherche pour améliorer leur fiabilité et leur contrôlabilité.

Saroj Mishra, Suman Niroula, Umesh Yadav, Dilip Thakur, Srijan Gyawali, Shiva GaireTue, 10 Ma💬 cs.CL

Dial: A Knowledge-Grounded Dialect-Specific NL2SQL System

Le papier présente Dial, un système NL2SQL ancré dans des connaissances qui améliore la génération de requêtes pour des dialectes SQL hétérogènes grâce à une planification logique adaptée, une base de connaissances hiérarchique et une boucle de débogage exécutée, surpassant ainsi les méthodes existantes sur un nouveau benchmark multi-dialectes.

Xiang Zhang, Hongming Xu, Le Zhou, Wei Zhou, Xuanhe Zhou, Guoliang Li, Yuyu Luo, Changdong Liu, Guorun Chen, Jiang Liao, Fan WuTue, 10 Ma🤖 cs.LG

SeDa: A Unified System for Dataset Discovery and Multi-Entity Augmented Semantic Exploration

Le papier présente SeDa, un système unifié qui agrège plus de 7,6 millions de jeux de données provenant de plus de 200 plateformes pour faciliter leur découverte, leur annotation sémantique et leur navigation enrichie par des entités multiples, garantissant ainsi une exploration de données plus fiable, complète et traçable que les solutions existantes.

Kan Ling, Zhen Qin, Yichi Zhu, Hengrun Zhang, Huiqun Yu, Guisheng FanTue, 10 Ma💻 cs

GP-Tree: An in-memory spatial index combining adaptive grid cells with a prefix tree for efficient spatial querying

Ce papier présente le GP-Tree, un index spatial en mémoire de nouvelle génération qui combine une grille adaptative et un arbre de préfixes pour remplacer les approximations grossières par des cellules fines, offrant ainsi des performances de requête nettement supérieures aux index traditionnels.

Xiangyang Yang, Xuefeng Guan, Lanxue Dang, Yi Xie, Qingyang Xu, Huayi Wu, Jiayao WangTue, 10 Ma💻 cs

Deep Research for Recommender Systems

Ce papier propose RecPilot, un nouveau paradigme de recommandation basé sur des agents intelligents qui génère des rapports détaillés et centrés sur l'utilisateur pour remplacer les listes d'articles traditionnelles, transformant ainsi le système de recommandation en un assistant proactif capable de réduire l'effort d'évaluation des utilisateurs.

Kesha Ou, Chenghao Wu, Xiaolei Wang, Bowen Zheng, Wayne Xin Zhao, Weitao Li, Long Zhang, Sheng Chen, Ji-Rong WenTue, 10 Ma💻 cs

Verifiable Reasoning for LLM-based Generative Recommendation

Cet article propose VRec, une nouvelle approche de recommandation générative basée sur les LLMs qui adopte un paradigme « raisonner-vérifier-recommander » pour surmonter la dégradation du raisonnement en intercalant des étapes de vérification fiables et multidimensionnelles, améliorant ainsi significativement l'efficacité des recommandations.

Xinyu Lin, Hanqing Zeng, Hanchao Yu, Yinglong Xia, Jiang Zhang, Aashu Singh, Fei Liu, Wenjie Wang, Fuli Feng, Tat-Seng Chua, Qifan WangTue, 10 Ma💻 cs

SynPlanResearch-R1: Encouraging Tool Exploration for Deep Research with Synthetic Plans

Le papier présente SynPlanResearch-R1, un cadre qui synthétise des trajectoires d'utilisation d'outils favorisant une exploration approfondie pour améliorer l'entraînement initial des agents de recherche, surmontant ainsi les limites des méthodes d'apprentissage par renforcement classiques et démontrant des performances supérieures sur plusieurs benchmarks.

Hansi Zeng, Zoey Li, Yifan Gao, Chenwei Zhang, Xiaoman Pan, Tao Yang, Fengran Mo, Jiacheng Lin, Xian Li, Jingbo ShangTue, 10 Ma💬 cs.CL

Why Large Language Models can Secretly Outperform Embedding Similarity in Information Retrieval

Bien que les systèmes de jugement de pertinence basés sur les grands modèles de langage (LLM-RJS) aient le potentiel de surpasser les systèmes de récupération par similarité d'embedding en surmontant leur « myopie » grâce au raisonnement, cette supériorité ne peut être détectée sur les jeux de données annotés standards car ces mêmes annotations souffrent souvent des mêmes limitations.

Matei Benescu, Ivo Pascal de JongTue, 10 Ma💻 cs

UIS-Digger: Towards Comprehensive Research Agent Systems for Real-world Unindexed Information Seeking

Ce papier introduit UIS-Digger, un cadre multi-agents novateur et un benchmark dédié (UIS-QA) pour résoudre le problème sous-exploré de la recherche d'informations non indexées, démontrant que des interactions proactives avec des sources non crawlées surpassent les agents actuels même avec des modèles de langage plus petits.

Chang Liu, Chuqiao Kuang, Tianyi Zhuang, Yuxin Cheng, Huichi Zhou, Xiaoguang Li, Lifeng ShangTue, 10 Ma💻 cs

SPD-RAG: Sub-Agent Per Document Retrieval-Augmented Generation

Le papier présente SPD-RAG, un cadre hiérarchique multi-agents qui améliore la qualité et l'efficacité des systèmes de génération augmentée par la récupération (RAG) pour les questions complexes sur de vastes corpus de documents en traitant chaque document via un agent dédié et en fusionnant leurs réponses partielles.

Yagiz Can Akay, Muhammed Yusuf Kartal, Esra Alparslan, Faruk Ortakoyluoglu, Arda AkpinarTue, 10 Ma💬 cs.CL