cs.IR 편의 논문 | Gist.Science

Retrieving Minimal and Sufficient Reasoning Subgraphs with Graph Foundation Models for Path-aware GraphRAG

이 논문은 사전 학습된 그래프 기반 모델 (GFM) 과 정보 병목 원리를 활용하여 도메인 간 추론이 가능한 최소이면서 충분한 하위 그래프를 추출하고, 이를 통해 경로 인식 그래프 RAG 의 성능을 획기적으로 개선하는 'GFM-Retriever'를 제안합니다.

Haonan Yuan, Qingyun Sun, Junhua Shi, Mingjun Liu, Jiaqi Yuan, Ziwei Zhang, Xingcheng Fu, Jianxin LiTue, 10 Ma💻 cs

Detecting Cryptographically Relevant Software Packages with Collaborative LLMs

이 논문은 프라이버시를 보호하면서 오프라인 환경에서 여러 대규모 언어 모델 (LLM) 을 협업시켜 암호화 관련 소프트웨어 패키지를 효율적으로 탐지하고 양자 내성 암호화 전환을 지원하는 새로운 프레임워크를 제안합니다.

Eduard Hirsch, Kristina Raab, Tobias J. Bauer, Daniel LoebenbergerTue, 10 Ma💻 cs

Retrieval-Augmented Generation for Predicting Cellular Responses to Gene Perturbation

이 논문은 유전자 교란에 대한 세포 반응 예측의 일반화 한계를 극복하기 위해, 세포 유형을 인식하고 미분 가능한 두 단계 검색 메커니즘을 도입한 새로운 프레임워크인 PT-RAG 를 제안하며, 이를 통해 기존 방법론보다 우수한 성능을 입증했습니다.

Andrea Giuseppe Di Francesco, Andrea Rubbi, Pietro LiòTue, 10 Ma🤖 cs.LG

Rethinking Deep Research from the Perspective of Web Content Distribution Matching

이 논문은 검색 엔진의 인덱싱 구조와 에이전트의 추론 간 불일치를 해결하기 위해, 검색 공간의 구조적 특성을 반영하고 few-shot 프로빙을 통해 동적으로 서브-목표를 재보정하는 'WeDas'라는 웹 콘텐츠 분포 인식 프레임워크를 제안합니다.

Zixuan Yu, Zhenheng Tang, Tongliang Liu, Chengqi Zhang, Xiaowen Chu, Bo HanTue, 10 Ma🤖 cs.LG

AutoDataset: A Lightweight System for Continuous Dataset Discovery and Search

이 논문은 arXiv 의 새로운 논문을 실시간으로 모니터링하여 데이터셋을 자동 탐지하고 인덱싱하는 경량화 시스템 'AutoDataset'을 제안함으로써, 기존 수동 큐레이션의 한계를 극복하고 연구자들이 신규 데이터셋을 발견하는 효율성을 최대 80% 까지 향상시킨다고 설명합니다.

Junzhe Yang, Xinghao Chen, Yunuo Liu, Zhijing Sun, Wenjin Guo, Xiaoyu ShenTue, 10 Ma💻 cs

Do Deployment Constraints Make LLMs Hallucinate Citations? An Empirical Study across Four Models and Five Prompting Regimes

본 논문은 4 개의 대규모 언어 모델과 5 가지 프롬프트 제약을 대상으로 한 실증 연구를 통해, 배포 제약 조건이 적용되더라도 모델이 생성한 인용문 중 실제 존재하는 비율이 47.5% 를 초과하지 않으며 많은 부분이 허위임을 확인하고, 이를 바탕으로 학술 문헌 검토나 소프트웨어 공학 파이프라인에 LLM 출력을 활용하기 전에 사후 인용 검증이 필수적임을 주장합니다.

Chen Zhao, Yuan Tang, Yitian QianTue, 10 Ma💻 cs

SoK: Agentic Retrieval-Augmented Generation (RAG): Taxonomy, Architectures, Evaluation, and Research Directions

이 논문은 자율적 의사결정 시스템으로서의 에이전트 기반 검색 증강 생성 (Agentic RAG) 을 체계화하기 위해 수학적 형식화, 통합 분류 체계, 평가 방법론의 한계 및 시스템적 위험 분석을 제시하고, 향후 신뢰성 있는 시스템 구축을 위한 연구 방향을 제시합니다.

Saroj Mishra, Suman Niroula, Umesh Yadav, Dilip Thakur, Srijan Gyawali, Shiva GaireTue, 10 Ma💬 cs.CL

Dial: A Knowledge-Grounded Dialect-Specific NL2SQL System

이 논문은 이기종 데이터베이스 시스템의 각기 다른 SQL 문법과 제약 조건을 고려하여 자연어에서 실행 가능한 SQL 쿼리를 생성하는 지식 기반 프레임워크 'Dial'을 제안하고, 논리적 쿼리 계획, 계층적 지식 베이스, 실행 기반 디버깅 루프를 통해 기존 방법론 대비 번역 정확도와 기능 커버리지를 크게 향상시켰음을 보여줍니다.

Xiang Zhang, Hongming Xu, Le Zhou, Wei Zhou, Xuanhe Zhou, Guoliang Li, Yuyu Luo, Changdong Liu, Guorun Chen, Jiang Liao, Fan WuTue, 10 Ma🤖 cs.LG

SeDa: A Unified System for Dataset Discovery and Multi-Entity Augmented Semantic Exploration

이 논문은 200 개 이상의 플랫폼에서 760 만 개 이상의 데이터를 통합하여 메타데이터 표준화, 확장 가능한 태그 그래프 기반 주제 검색, 출처 검증 모듈, 그리고 기관 및 기업과 연계된 다중 개체 증강 탐색 전략을 통해 신뢰할 수 있고 의미적으로 풍부하며 글로벌하게 확장 가능한 데이터셋 발견 및 탐색을 위한 통합 프레임워크인 SeDa 를 제안합니다.

Kan Ling, Zhen Qin, Yichi Zhu, Hengrun Zhang, Huiqun Yu, Guisheng FanTue, 10 Ma💻 cs

GP-Tree: An in-memory spatial index combining adaptive grid cells with a prefix tree for efficient spatial querying

이 논문은 기존 공간 인덱스의 한계를 극복하고 정밀한 그리드 셀 기반 근사화와 접두사 트리를 결합하여 대규모 공간 데이터의 쿼리 효율성을 획기적으로 개선한 GP-Tree 를 제안합니다.

Xiangyang Yang, Xuefeng Guan, Lanxue Dang, Yi Xie, Qingyang Xu, Huayi Wu, Jiayao WangTue, 10 Ma💻 cs

Deep Research for Recommender Systems

이 논문은 기존 추천 시스템의 수동적 필터링 한계를 극복하기 위해 사용자의 탐색과 비교 부담을 줄여주는 능동적 보고서를 생성하는 다중 에이전트 프레임워크 'RecPilot'을 제안하고, 이를 통해 사용자 의사결정을 지원하는 새로운 추천 패러다임을 제시합니다.

Kesha Ou, Chenghao Wu, Xiaolei Wang, Bowen Zheng, Wayne Xin Zhao, Weitao Li, Long Zhang, Sheng Chen, Ji-Rong WenTue, 10 Ma💻 cs

Verifiable Reasoning for LLM-based Generative Recommendation

이 논문은 기존 '추론 후 추천' 방식의 한계를 극복하기 위해 추론 과정에 검증을 삽입하여 신뢰할 수 있는 피드백을 제공하는 새로운 '추론 - 검증 - 추천' 패러다임과 이를 구현한 VRec 모델을 제안하고, 다양한 실세계 데이터셋에서 추천 성능과 확장성을 크게 향상시켰음을 입증합니다.

Xinyu Lin, Hanqing Zeng, Hanchao Yu, Yinglong Xia, Jiang Zhang, Aashu Singh, Fei Liu, Wenjie Wang, Fuli Feng, Tat-Seng Chua, Qifan WangTue, 10 Ma💻 cs

SynPlanResearch-R1: Encouraging Tool Exploration for Deep Research with Synthetic Plans

이 논문은 강화학습만으로는 심층 탐사가 부족할 수 있는 연구 에이전트의 한계를 극복하기 위해, 합성된 탐색 궤적을 활용한 냉각 시작 감독 미세 조정 (SFT) 프레임워크인 SynPlanResearch-R1 을 제안하여 최신 기법 대비 성능을 크게 향상시켰다고 요약할 수 있습니다.

Hansi Zeng, Zoey Li, Yifan Gao, Chenwei Zhang, Xiaoman Pan, Tao Yang, Fengran Mo, Jiacheng Lin, Xian Li, Jingbo ShangTue, 10 Ma💬 cs.CL

Structure-Preserving Graph Contrastive Learning for Mathematical Information Retrieval

이 논문은 수학 공식 검색을 위한 그래프 대비 학습에서 기존 증강 기법의 한계를 극복하고 공식의 구조와 의미를 보존하는 '변수 치환' 기법을 제안하여 검색 성능을 크게 향상시켰음을 보여줍니다.

Chun-Hsi Ku, Hung-Hsuan ChenTue, 10 Ma💻 cs

Why Large Language Models can Secretly Outperform Embedding Similarity in Information Retrieval

이 논문은 LLM 기반의 추론을 활용한 정보 검색 시스템이 임베딩 유사성 기반 시스템보다 잠재적으로 우월할 수 있음을 주장하지만, 기존 TREC-DL 2019 데이터셋의 인간 주석 자체가 '단시안적'인 한계를 지녀 이러한 잠재력을 표준 평가 데이터셋으로 검증할 수 없음을 밝힙니다.

Matei Benescu, Ivo Pascal de JongTue, 10 Ma💻 cs

UIS-Digger: Towards Comprehensive Research Agent Systems for Real-world Unindexed Information Seeking

이 논문은 검색 엔진에 인덱싱되지 않은 정보를 찾는 새로운 과제인 'Unindexed Information Seeking (UIS)'을 정의하고, 이를 해결하기 위해 제안된 다중 에이전트 프레임워크 'UIS-Digger'와 전용 벤치마크 'UIS-QA'를 소개하며, 기존 최첨단 모델보다 우수한 성능을 입증합니다.

Chang Liu, Chuqiao Kuang, Tianyi Zhuang, Yuxin Cheng, Huichi Zhou, Xiaoguang Li, Lifeng ShangTue, 10 Ma💻 cs

SPD-RAG: Sub-Agent Per Document Retrieval-Augmented Generation

이 논문은 방대한 문서 코퍼스를 대상으로 복잡한 질문에 답할 때 표준 RAG 의 증거 부족과 장문맥 LLM 의 추론 한계를 해결하기 위해, 각 문서를 전용 에이전트가 처리하고 조정자가 이를 통합하는 계층적 다중 에이전트 프레임워크인 SPD-RAG 를 제안하며, LOONG 벤치마크에서 기존 방법보다 높은 정확도와 비용 효율성을 입증했습니다.

Yagiz Can Akay, Muhammed Yusuf Kartal, Esra Alparslan, Faruk Ortakoyluoglu, Arda AkpinarTue, 10 Ma💬 cs.CL

ERASE -- A Real-World Aligned Benchmark for Unlearning in Recommender Systems

이 논문은 기존 벤치마크의 한계를 극복하고 실제 환경에 부합하는 추천 시스템용 기계적 망각 (Machine Unlearning) 벤치마크인 ERASE 를 제안하여, 다양한 알고리즘과 모델에 대한 대규모 실험을 통해 실제 적용 가능성과 한계를 체계적으로 분석했습니다.

Pierre Lubitzsch, Maarten de Rijke, Sebastian SchelterTue, 10 Ma💻 cs

Unifying On- and Off-Policy Variance Reduction Methods

이 논문은 온라인 A/B 테스트의 차분 평균 추정기와 최적 제어 변수를 갖춘 오프 정책 역확률 가중 추정기 간의 수학적 동등성, 그리고 회귀 보정 기법과 이중 강건 추정 간의 구조적 동등성을 증명하여 두 분야의 분산 감소 방법을 통합하는 이론적 틀을 제시합니다.

Olivier JeunenTue, 10 Ma🤖 cs.LG

One Model Is Enough: Native Retrieval Embeddings from LLM Agent Hidden States

이 논문은 LLM 에이전트의 숨은 상태 (hidden states) 를 직접 임베딩 공간으로 매핑하는 경량 프로젝션 헤드를 도입하여 별도의 임베딩 모델 없이도 검색 품질을 유지하면서 인프라 복잡성과 지연 시간을 줄이는 '원 모델' 접근법을 제안합니다.

Bo JiangTue, 10 Ma💬 cs.CL

← 이전 다음 →