Retrieving Minimal and Sufficient Reasoning Subgraphs with Graph Foundation Models for Path-aware GraphRAG

Die Arbeit stellt GFM-Retriever vor, einen neuen Ansatz für GraphRAG, der vortrainierte Graph-Foundation-Modelle und ein informationsbottleneck-basiertes Subgraph-Selektionsverfahren nutzt, um in kältestart-Szenarien minimalere und ausreichend informative Begründungsstrukturen für interpretierbares, mehrstufiges Schlussfolgern zu extrahieren.

Haonan Yuan, Qingyun Sun, Junhua Shi, Mingjun Liu, Jiaqi Yuan, Ziwei Zhang, Xingcheng Fu, Jianxin LiTue, 10 Ma💻 cs

Retrieval-Augmented Generation for Predicting Cellular Responses to Gene Perturbation

Die Studie stellt PT-RAG vor, ein neuartiges, zweistufiges Framework zur Vorhersage zellulärer Reaktionen auf Gen-Perturbationen, das durch eine differenzierbare, zelltypbewusste Retrieval-Augmented-Generation-Strategie die Generalisierungsfähigkeit bestehender Deep-Learning-Modelle verbessert und zeigt, dass naive Retrieval-Ansätze in diesem Bereich die Leistung sogar verschlechtern können.

Andrea Giuseppe Di Francesco, Andrea Rubbi, Pietro LiòTue, 10 Ma🤖 cs.LG

AutoDataset: A Lightweight System for Continuous Dataset Discovery and Search

Das Paper stellt AutoDataset vor, ein leichtgewichtiges, automatisiertes System, das durch kontinuierliche Überwachung von arXiv und den Einsatz einer mehrstufigen Pipeline neue Datensätze aus Forschungsarbeiten extrahiert und indiziert, um die Entdeckung und Suche nach aktuellen Datensätzen für Forscher erheblich zu beschleunigen.

Junzhe Yang, Xinghao Chen, Yunuo Liu, Zhijing Sun, Wenjin Guo, Xiaoyu ShenTue, 10 Ma💻 cs

Do Deployment Constraints Make LLMs Hallucinate Citations? An Empirical Study across Four Models and Five Prompting Regimes

Eine empirische Studie an vier Modellen und fünf Prompting-Regimen zeigt, dass deploymentbedingte Einschränkungen die Halluzination von Zitaten in geschlossenen Umgebungen nicht verhindern, sondern die Verifizierbarkeit von Referenzen drastisch senken, was eine nachträgliche Überprüfung vor der Nutzung in der Softwaretechnik zwingend erforderlich macht.

Chen Zhao, Yuan Tang, Yitian QianTue, 10 Ma💻 cs

SoK: Agentic Retrieval-Augmented Generation (RAG): Taxonomy, Architectures, Evaluation, and Research Directions

Diese Systematisierung des Wissens (SoK) stellt das erste einheitliche Rahmenwerk für autonome Retrieval-Augmented-Generation-Systeme vor, indem sie diese als sequenzielle Entscheidungsprozesse formalisiert, eine umfassende Taxonomie und Architekturdekomposition entwickelt, kritische Evaluierungslücken und systemische Risiken analysiert sowie einen Fahrplan für zukünftige Forschungsrichtungen zur Steigerung von Zuverlässigkeit und Skalierbarkeit aufzeigt.

Saroj Mishra, Suman Niroula, Umesh Yadav, Dilip Thakur, Srijan Gyawali, Shiva GaireTue, 10 Ma💬 cs.CL

Dial: A Knowledge-Grounded Dialect-Specific NL2SQL System

Die Arbeit stellt Dial vor, ein wissensbasiertes Framework für dialektspezifische NL2SQL-Übersetzungen, das durch eine dialektsensible logische Abfrageplanung, eine hierarchische Wissensdatenbank und einen ausführungsbasierten Debugging-Prozess die Genauigkeit und Abdeckung von Datenbankdialekten im Vergleich zu bestehenden Methoden signifikant verbessert.

Xiang Zhang, Hongming Xu, Le Zhou, Wei Zhou, Xuanhe Zhou, Guoliang Li, Yuyu Luo, Changdong Liu, Guorun Chen, Jiang Liao, Fan WuTue, 10 Ma🤖 cs.LG

SeDa: A Unified System for Dataset Discovery and Multi-Entity Augmented Semantic Exploration

Das Paper stellt SeDa vor, ein einheitliches Framework, das über 7,6 Millionen Datensätze von mehr als 200 Plattformen integriert, um durch semantische Annotation, eine erweiterbare Tag-Grafik und eine mehrstufige Navigationsstrategie eine vertrauenswürdige und kontextbewusste Entdeckung von Datenquellen zu ermöglichen.

Kan Ling, Zhen Qin, Yichi Zhu, Hengrun Zhang, Huiqun Yu, Guisheng FanTue, 10 Ma💻 cs

GP-Tree: An in-memory spatial index combining adaptive grid cells with a prefix tree for efficient spatial querying

Die Arbeit stellt GP-Tree vor, einen neuen in-Memory-Raumindex, der feinkörnige Gitterzellen in einer Präfixbaumstruktur organisiert und durch Optimierungsstrategien wie das Beschneiden von Bäumen die Abfrageeffizienz für komplexe räumliche Daten im Vergleich zu traditionellen Indizes um eine Größenordnung verbessert.

Xiangyang Yang, Xuefeng Guan, Lanxue Dang, Yi Xie, Qingyang Xu, Huayi Wu, Jiayao WangTue, 10 Ma💻 cs

Verifiable Reasoning for LLM-based Generative Recommendation

Die Arbeit stellt VRec vor, ein neues „reason-verify-recommend"-Paradigma, das durch den Einsatz eines Mischungsverifizierers und eines Proxy-Vorhersageziels die Zuverlässigkeit und Genauigkeit von LLM-basierten generativen Empfehlungssystemen durch verifizierte Zwischenschritte erheblich verbessert.

Xinyu Lin, Hanqing Zeng, Hanchao Yu, Yinglong Xia, Jiang Zhang, Aashu Singh, Fei Liu, Wenjie Wang, Fuli Feng, Tat-Seng Chua, Qifan WangTue, 10 Ma💻 cs

SynPlanResearch-R1: Encouraging Tool Exploration for Deep Research with Synthetic Plans

Die Arbeit stellt SynPlanResearch-R1 vor, ein Framework, das durch synthetisierte Tool-Nutzungspfade die Exploration von Forschungsagenten während des kalten Start-Trainings verbessert und so die Leistung auf mehreren Benchmarks im Vergleich zu bestehenden Methoden signifikant steigert.

Hansi Zeng, Zoey Li, Yifan Gao, Chenwei Zhang, Xiaoman Pan, Tao Yang, Fengran Mo, Jiacheng Lin, Xian Li, Jingbo ShangTue, 10 Ma💬 cs.CL

UIS-Digger: Towards Comprehensive Research Agent Systems for Real-world Unindexed Information Seeking

Die Arbeit stellt das UIS-Digger-Framework und den UIS-QA-Benchmark vor, um die bisher vernachlässigte Herausforderung der Suche nach unindexierten Informationen zu adressieren und zeigt, dass ein optimiertes Multi-Agenten-System selbst mit kleineren Modellen leistungsfähiger ist als aktuelle State-of-the-Art-LLMs.

Chang Liu, Chuqiao Kuang, Tianyi Zhuang, Yuxin Cheng, Huichi Zhou, Xiaoguang Li, Lifeng ShangTue, 10 Ma💻 cs