cs.IR Arbeiten | Gist.Science

Retrieving Minimal and Sufficient Reasoning Subgraphs with Graph Foundation Models for Path-aware GraphRAG

Die Arbeit stellt GFM-Retriever vor, einen neuen Ansatz für GraphRAG, der vortrainierte Graph-Foundation-Modelle und ein informationsbottleneck-basiertes Subgraph-Selektionsverfahren nutzt, um in kältestart-Szenarien minimalere und ausreichend informative Begründungsstrukturen für interpretierbares, mehrstufiges Schlussfolgern zu extrahieren.

Haonan Yuan, Qingyun Sun, Junhua Shi, Mingjun Liu, Jiaqi Yuan, Ziwei Zhang, Xingcheng Fu, Jianxin LiTue, 10 Ma💻 cs

Detecting Cryptographically Relevant Software Packages with Collaborative LLMs

Diese Studie stellt einen kollaborativen Ansatz vor, bei dem mehrere lokale Large Language Models durch Mehrheitsvoting eingesetzt werden, um in über 65.000 Fedora-Paketen effizient kryptografisch relevante Software zu identifizieren und so den Übergang zur Post-Quanten-Kryptografie zu unterstützen.

Eduard Hirsch, Kristina Raab, Tobias J. Bauer, Daniel LoebenbergerTue, 10 Ma💻 cs

Retrieval-Augmented Generation for Predicting Cellular Responses to Gene Perturbation

Die Studie stellt PT-RAG vor, ein neuartiges, zweistufiges Framework zur Vorhersage zellulärer Reaktionen auf Gen-Perturbationen, das durch eine differenzierbare, zelltypbewusste Retrieval-Augmented-Generation-Strategie die Generalisierungsfähigkeit bestehender Deep-Learning-Modelle verbessert und zeigt, dass naive Retrieval-Ansätze in diesem Bereich die Leistung sogar verschlechtern können.

Andrea Giuseppe Di Francesco, Andrea Rubbi, Pietro LiòTue, 10 Ma🤖 cs.LG

Rethinking Deep Research from the Perspective of Web Content Distribution Matching

Die Arbeit stellt WeDas vor, ein Framework, das durch die Integration von Suchraum-Strukturmerkmalen und einer Few-Shot-Probing-Mechanik die Ausrichtung zwischen agentenbasierten Suchintentionen und den Ergebnissen dynamischer Web-Indizes verbessert, um die Genauigkeit von Deep-Search-Agenten zu steigern.

Zixuan Yu, Zhenheng Tang, Tongliang Liu, Chengqi Zhang, Xiaowen Chu, Bo HanTue, 10 Ma🤖 cs.LG

AutoDataset: A Lightweight System for Continuous Dataset Discovery and Search

Das Paper stellt AutoDataset vor, ein leichtgewichtiges, automatisiertes System, das durch kontinuierliche Überwachung von arXiv und den Einsatz einer mehrstufigen Pipeline neue Datensätze aus Forschungsarbeiten extrahiert und indiziert, um die Entdeckung und Suche nach aktuellen Datensätzen für Forscher erheblich zu beschleunigen.

Junzhe Yang, Xinghao Chen, Yunuo Liu, Zhijing Sun, Wenjin Guo, Xiaoyu ShenTue, 10 Ma💻 cs

Do Deployment Constraints Make LLMs Hallucinate Citations? An Empirical Study across Four Models and Five Prompting Regimes

Eine empirische Studie an vier Modellen und fünf Prompting-Regimen zeigt, dass deploymentbedingte Einschränkungen die Halluzination von Zitaten in geschlossenen Umgebungen nicht verhindern, sondern die Verifizierbarkeit von Referenzen drastisch senken, was eine nachträgliche Überprüfung vor der Nutzung in der Softwaretechnik zwingend erforderlich macht.

Chen Zhao, Yuan Tang, Yitian QianTue, 10 Ma💻 cs

SoK: Agentic Retrieval-Augmented Generation (RAG): Taxonomy, Architectures, Evaluation, and Research Directions

Diese Systematisierung des Wissens (SoK) stellt das erste einheitliche Rahmenwerk für autonome Retrieval-Augmented-Generation-Systeme vor, indem sie diese als sequenzielle Entscheidungsprozesse formalisiert, eine umfassende Taxonomie und Architekturdekomposition entwickelt, kritische Evaluierungslücken und systemische Risiken analysiert sowie einen Fahrplan für zukünftige Forschungsrichtungen zur Steigerung von Zuverlässigkeit und Skalierbarkeit aufzeigt.

Saroj Mishra, Suman Niroula, Umesh Yadav, Dilip Thakur, Srijan Gyawali, Shiva GaireTue, 10 Ma💬 cs.CL

Dial: A Knowledge-Grounded Dialect-Specific NL2SQL System

Die Arbeit stellt Dial vor, ein wissensbasiertes Framework für dialektspezifische NL2SQL-Übersetzungen, das durch eine dialektsensible logische Abfrageplanung, eine hierarchische Wissensdatenbank und einen ausführungsbasierten Debugging-Prozess die Genauigkeit und Abdeckung von Datenbankdialekten im Vergleich zu bestehenden Methoden signifikant verbessert.

Xiang Zhang, Hongming Xu, Le Zhou, Wei Zhou, Xuanhe Zhou, Guoliang Li, Yuyu Luo, Changdong Liu, Guorun Chen, Jiang Liao, Fan WuTue, 10 Ma🤖 cs.LG

SeDa: A Unified System for Dataset Discovery and Multi-Entity Augmented Semantic Exploration

Das Paper stellt SeDa vor, ein einheitliches Framework, das über 7,6 Millionen Datensätze von mehr als 200 Plattformen integriert, um durch semantische Annotation, eine erweiterbare Tag-Grafik und eine mehrstufige Navigationsstrategie eine vertrauenswürdige und kontextbewusste Entdeckung von Datenquellen zu ermöglichen.

Kan Ling, Zhen Qin, Yichi Zhu, Hengrun Zhang, Huiqun Yu, Guisheng FanTue, 10 Ma💻 cs

GP-Tree: An in-memory spatial index combining adaptive grid cells with a prefix tree for efficient spatial querying

Die Arbeit stellt GP-Tree vor, einen neuen in-Memory-Raumindex, der feinkörnige Gitterzellen in einer Präfixbaumstruktur organisiert und durch Optimierungsstrategien wie das Beschneiden von Bäumen die Abfrageeffizienz für komplexe räumliche Daten im Vergleich zu traditionellen Indizes um eine Größenordnung verbessert.

Xiangyang Yang, Xuefeng Guan, Lanxue Dang, Yi Xie, Qingyang Xu, Huayi Wu, Jiayao WangTue, 10 Ma💻 cs

Deep Research for Recommender Systems

Diese Arbeit stellt mit RecPilot ein neues Multi-Agenten-Framework vor, das das traditionelle Paradigma der Empfehlungssysteme durch proaktive, agentengesteuerte Forschungsberichte ersetzt, um die Nutzerentscheidung durch tiefgehende Analyse und Synthese zu unterstützen.

Kesha Ou, Chenghao Wu, Xiaolei Wang, Bowen Zheng, Wayne Xin Zhao, Weitao Li, Long Zhang, Sheng Chen, Ji-Rong WenTue, 10 Ma💻 cs

Verifiable Reasoning for LLM-based Generative Recommendation

Die Arbeit stellt VRec vor, ein neues „reason-verify-recommend"-Paradigma, das durch den Einsatz eines Mischungsverifizierers und eines Proxy-Vorhersageziels die Zuverlässigkeit und Genauigkeit von LLM-basierten generativen Empfehlungssystemen durch verifizierte Zwischenschritte erheblich verbessert.

Xinyu Lin, Hanqing Zeng, Hanchao Yu, Yinglong Xia, Jiang Zhang, Aashu Singh, Fei Liu, Wenjie Wang, Fuli Feng, Tat-Seng Chua, Qifan WangTue, 10 Ma💻 cs

SynPlanResearch-R1: Encouraging Tool Exploration for Deep Research with Synthetic Plans

Die Arbeit stellt SynPlanResearch-R1 vor, ein Framework, das durch synthetisierte Tool-Nutzungspfade die Exploration von Forschungsagenten während des kalten Start-Trainings verbessert und so die Leistung auf mehreren Benchmarks im Vergleich zu bestehenden Methoden signifikant steigert.

Hansi Zeng, Zoey Li, Yifan Gao, Chenwei Zhang, Xiaoman Pan, Tao Yang, Fengran Mo, Jiacheng Lin, Xian Li, Jingbo ShangTue, 10 Ma💬 cs.CL

Structure-Preserving Graph Contrastive Learning for Mathematical Information Retrieval

Diese Arbeit stellt eine domänenspezifische Graph-Augmentierungstechnik namens Variablensubstitution vor, die die semantische Struktur mathematischer Formeln erhält und so die Leistung von Graph-Contrastive-Learning-Modellen für die mathematische Informationsrückgewinnung im Vergleich zu generischen Strategien signifikant verbessert.

Chun-Hsi Ku, Hung-Hsuan ChenTue, 10 Ma💻 cs

Why Large Language Models can Secretly Outperform Embedding Similarity in Information Retrieval

Die Studie argumentiert, dass zwar LLM-basierte Relevanzsysteme das Potenzial haben, die kurzsichtigen Grenzen von Embedding-basierten Verfahren zu überwinden, dies jedoch mit standardmäßigen annotierten Datensätzen nicht nachweisbar ist, da diese Annotationen selbst von derselben Kurzsichtigkeit betroffen sind.

Matei Benescu, Ivo Pascal de JongTue, 10 Ma💻 cs

UIS-Digger: Towards Comprehensive Research Agent Systems for Real-world Unindexed Information Seeking

Die Arbeit stellt das UIS-Digger-Framework und den UIS-QA-Benchmark vor, um die bisher vernachlässigte Herausforderung der Suche nach unindexierten Informationen zu adressieren und zeigt, dass ein optimiertes Multi-Agenten-System selbst mit kleineren Modellen leistungsfähiger ist als aktuelle State-of-the-Art-LLMs.

Chang Liu, Chuqiao Kuang, Tianyi Zhuang, Yuxin Cheng, Huichi Zhou, Xiaoguang Li, Lifeng ShangTue, 10 Ma💻 cs

SPD-RAG: Sub-Agent Per Document Retrieval-Augmented Generation

Das Paper stellt SPD-RAG vor, ein hierarchisches Multi-Agenten-Framework, das komplexe Fragen über viele Dokumente hinweg durch eine spezialisierte, pro Dokument arbeitende Agentenarchitektur und eine zentrale Synthese effizienter und kostengünstiger beantwortet als herkömmliche RAG- oder Long-Context-LLM-Ansätze.

Yagiz Can Akay, Muhammed Yusuf Kartal, Esra Alparslan, Faruk Ortakoyluoglu, Arda AkpinarTue, 10 Ma💬 cs.CL

ERASE -- A Real-World Aligned Benchmark for Unlearning in Recommender Systems

Das Paper stellt ERASE vor, ein umfassendes Benchmark für das maschinelle Vergessen in Empfehlungssystemen, das durch realitätsnahe Szenarien, diverse Datensätze und Modelle sowie umfangreiche experimentelle Artefakte die Lücke zwischen aktuellen Forschungsmethoden und praktischen Anforderungen schließt.

Pierre Lubitzsch, Maarten de Rijke, Sebastian SchelterTue, 10 Ma💻 cs

Unifying On- and Off-Policy Variance Reduction Methods

Diese Arbeit vereint Online- und Off-Policy-Varianzreduktionsmethoden, indem sie die mathematische Äquivalenz zwischen dem Difference-in-Means-Schätzer und einem optimierten Inverse Propensity Scoring-Schätzer sowie zwischen Regressionsanpassungsverfahren und Doubly Robust-Schätzung nachweist.

Olivier JeunenTue, 10 Ma🤖 cs.LG

One Model Is Enough: Native Retrieval Embeddings from LLM Agent Hidden States

Die vorgestellte Methode eliminiert die Notwendigkeit separater Embedding-Modelle für LLM-Agenten, indem sie einen leichten Projektionskopf verwendet, um versteckte Zustände direkt in den Embedding-Raum zu projizieren, und erreicht dabei 97 % der ursprünglichen Suchqualität.

Bo JiangTue, 10 Ma💬 cs.CL

← Zurück Weiter →