Retrieving Minimal and Sufficient Reasoning Subgraphs with Graph Foundation Models for Path-aware GraphRAG

이 논문은 사전 학습된 그래프 기반 모델 (GFM) 과 정보 병목 원리를 활용하여 도메인 간 추론이 가능한 최소이면서 충분한 하위 그래프를 추출하고, 이를 통해 경로 인식 그래프 RAG 의 성능을 획기적으로 개선하는 'GFM-Retriever'를 제안합니다.

Haonan Yuan, Qingyun Sun, Junhua Shi, Mingjun Liu, Jiaqi Yuan, Ziwei Zhang, Xingcheng Fu, Jianxin LiTue, 10 Ma💻 cs

AutoDataset: A Lightweight System for Continuous Dataset Discovery and Search

이 논문은 arXiv 의 새로운 논문을 실시간으로 모니터링하여 데이터셋을 자동 탐지하고 인덱싱하는 경량화 시스템 'AutoDataset'을 제안함으로써, 기존 수동 큐레이션의 한계를 극복하고 연구자들이 신규 데이터셋을 발견하는 효율성을 최대 80% 까지 향상시킨다고 설명합니다.

Junzhe Yang, Xinghao Chen, Yunuo Liu, Zhijing Sun, Wenjin Guo, Xiaoyu ShenTue, 10 Ma💻 cs

Do Deployment Constraints Make LLMs Hallucinate Citations? An Empirical Study across Four Models and Five Prompting Regimes

본 논문은 4 개의 대규모 언어 모델과 5 가지 프롬프트 제약을 대상으로 한 실증 연구를 통해, 배포 제약 조건이 적용되더라도 모델이 생성한 인용문 중 실제 존재하는 비율이 47.5% 를 초과하지 않으며 많은 부분이 허위임을 확인하고, 이를 바탕으로 학술 문헌 검토나 소프트웨어 공학 파이프라인에 LLM 출력을 활용하기 전에 사후 인용 검증이 필수적임을 주장합니다.

Chen Zhao, Yuan Tang, Yitian QianTue, 10 Ma💻 cs

SoK: Agentic Retrieval-Augmented Generation (RAG): Taxonomy, Architectures, Evaluation, and Research Directions

이 논문은 자율적 의사결정 시스템으로서의 에이전트 기반 검색 증강 생성 (Agentic RAG) 을 체계화하기 위해 수학적 형식화, 통합 분류 체계, 평가 방법론의 한계 및 시스템적 위험 분석을 제시하고, 향후 신뢰성 있는 시스템 구축을 위한 연구 방향을 제시합니다.

Saroj Mishra, Suman Niroula, Umesh Yadav, Dilip Thakur, Srijan Gyawali, Shiva GaireTue, 10 Ma💬 cs.CL

Dial: A Knowledge-Grounded Dialect-Specific NL2SQL System

이 논문은 이기종 데이터베이스 시스템의 각기 다른 SQL 문법과 제약 조건을 고려하여 자연어에서 실행 가능한 SQL 쿼리를 생성하는 지식 기반 프레임워크 'Dial'을 제안하고, 논리적 쿼리 계획, 계층적 지식 베이스, 실행 기반 디버깅 루프를 통해 기존 방법론 대비 번역 정확도와 기능 커버리지를 크게 향상시켰음을 보여줍니다.

Xiang Zhang, Hongming Xu, Le Zhou, Wei Zhou, Xuanhe Zhou, Guoliang Li, Yuyu Luo, Changdong Liu, Guorun Chen, Jiang Liao, Fan WuTue, 10 Ma🤖 cs.LG

SeDa: A Unified System for Dataset Discovery and Multi-Entity Augmented Semantic Exploration

이 논문은 200 개 이상의 플랫폼에서 760 만 개 이상의 데이터를 통합하여 메타데이터 표준화, 확장 가능한 태그 그래프 기반 주제 검색, 출처 검증 모듈, 그리고 기관 및 기업과 연계된 다중 개체 증강 탐색 전략을 통해 신뢰할 수 있고 의미적으로 풍부하며 글로벌하게 확장 가능한 데이터셋 발견 및 탐색을 위한 통합 프레임워크인 SeDa 를 제안합니다.

Kan Ling, Zhen Qin, Yichi Zhu, Hengrun Zhang, Huiqun Yu, Guisheng FanTue, 10 Ma💻 cs

Deep Research for Recommender Systems

이 논문은 기존 추천 시스템의 수동적 필터링 한계를 극복하기 위해 사용자의 탐색과 비교 부담을 줄여주는 능동적 보고서를 생성하는 다중 에이전트 프레임워크 'RecPilot'을 제안하고, 이를 통해 사용자 의사결정을 지원하는 새로운 추천 패러다임을 제시합니다.

Kesha Ou, Chenghao Wu, Xiaolei Wang, Bowen Zheng, Wayne Xin Zhao, Weitao Li, Long Zhang, Sheng Chen, Ji-Rong WenTue, 10 Ma💻 cs

Verifiable Reasoning for LLM-based Generative Recommendation

이 논문은 기존 '추론 후 추천' 방식의 한계를 극복하기 위해 추론 과정에 검증을 삽입하여 신뢰할 수 있는 피드백을 제공하는 새로운 '추론 - 검증 - 추천' 패러다임과 이를 구현한 VRec 모델을 제안하고, 다양한 실세계 데이터셋에서 추천 성능과 확장성을 크게 향상시켰음을 입증합니다.

Xinyu Lin, Hanqing Zeng, Hanchao Yu, Yinglong Xia, Jiang Zhang, Aashu Singh, Fei Liu, Wenjie Wang, Fuli Feng, Tat-Seng Chua, Qifan WangTue, 10 Ma💻 cs

SynPlanResearch-R1: Encouraging Tool Exploration for Deep Research with Synthetic Plans

이 논문은 강화학습만으로는 심층 탐사가 부족할 수 있는 연구 에이전트의 한계를 극복하기 위해, 합성된 탐색 궤적을 활용한 냉각 시작 감독 미세 조정 (SFT) 프레임워크인 SynPlanResearch-R1 을 제안하여 최신 기법 대비 성능을 크게 향상시켰다고 요약할 수 있습니다.

Hansi Zeng, Zoey Li, Yifan Gao, Chenwei Zhang, Xiaoman Pan, Tao Yang, Fengran Mo, Jiacheng Lin, Xian Li, Jingbo ShangTue, 10 Ma💬 cs.CL

Why Large Language Models can Secretly Outperform Embedding Similarity in Information Retrieval

이 논문은 LLM 기반의 추론을 활용한 정보 검색 시스템이 임베딩 유사성 기반 시스템보다 잠재적으로 우월할 수 있음을 주장하지만, 기존 TREC-DL 2019 데이터셋의 인간 주석 자체가 '단시안적'인 한계를 지녀 이러한 잠재력을 표준 평가 데이터셋으로 검증할 수 없음을 밝힙니다.

Matei Benescu, Ivo Pascal de JongTue, 10 Ma💻 cs

UIS-Digger: Towards Comprehensive Research Agent Systems for Real-world Unindexed Information Seeking

이 논문은 검색 엔진에 인덱싱되지 않은 정보를 찾는 새로운 과제인 'Unindexed Information Seeking (UIS)'을 정의하고, 이를 해결하기 위해 제안된 다중 에이전트 프레임워크 'UIS-Digger'와 전용 벤치마크 'UIS-QA'를 소개하며, 기존 최첨단 모델보다 우수한 성능을 입증합니다.

Chang Liu, Chuqiao Kuang, Tianyi Zhuang, Yuxin Cheng, Huichi Zhou, Xiaoguang Li, Lifeng ShangTue, 10 Ma💻 cs

SPD-RAG: Sub-Agent Per Document Retrieval-Augmented Generation

이 논문은 방대한 문서 코퍼스를 대상으로 복잡한 질문에 답할 때 표준 RAG 의 증거 부족과 장문맥 LLM 의 추론 한계를 해결하기 위해, 각 문서를 전용 에이전트가 처리하고 조정자가 이를 통합하는 계층적 다중 에이전트 프레임워크인 SPD-RAG 를 제안하며, LOONG 벤치마크에서 기존 방법보다 높은 정확도와 비용 효율성을 입증했습니다.

Yagiz Can Akay, Muhammed Yusuf Kartal, Esra Alparslan, Faruk Ortakoyluoglu, Arda AkpinarTue, 10 Ma💬 cs.CL