Learning to Retrieve from Agent Trajectories

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 1. 문제: "인간용 나침반"을 "탐험가 로봇"에게 주면?

과거의 검색 엔진 (구글, 네이버 등) 은 사람을 위해 만들어졌습니다.

사람의 행동: "오늘 날씨 어때?"라고 검색하고, 검색 결과 중 눈에 띄는 것을 클릭합니다.
학습 방식: 검색 엔진은 "누가 무엇을 클릭했는지", "얼마나 오래 머물렀는지"를 보고 "아, 이 문서가 좋은구나!"라고 학습합니다.

하지만 요즘은 **AI 에이전트 (로봇 탐험가)**가 검색을 많이 합니다.

로봇의 행동: 복잡한 문제를 해결하기 위해 스스로 질문을 만들고, 검색 결과를 보고, 내용을 읽어가며 다음 단계를 계획합니다.
문제점: 이 로봇들에게 **사람용 나침반 (기존 검색 엔진)**을 주면 엉뚱한 길로 가게 됩니다. 로봇은 "클릭"보다는 "내용을 읽어서 논리적으로 판단"하기 때문입니다. 마치 축구 선수를 위해 만든 신발을 등산가에게 신겨주는 것과 비슷합니다.

💡 2. 해결책: 로봇의 발자국을 따라 배워라 (LRAT)

저자들은 "그럼 로봇이 직접 정보를 찾아가는 **발자국 (행동 기록)**을 보고 검색 엔진을 다시 가르치자"고 제안합니다. 이를 LRAT라고 부릅니다.

이 방법은 로봇의 행동을 세 가지 단계로 분석하여 가르칩니다.

① "발걸음"을 보라 (Browsing = 긍정 신호)

비유: 로봇이 어떤 문서를 열어서 읽었다면 (Browse), 그 문서는 무언가 도움이 된다는 뜻입니다.
기존 방식: 사람이 클릭하지 않았으면 '나쁜 문서'로 취급할 수 있지만, 로봇은 클릭하지 않고도 스니펫 (짧은 요약) 을 보고 판단합니다.
LRAT 의 발견: 로봇이 문서를 열어 읽었다면, 그것은 무조건 '좋은 문서'로 간주합니다.

② "건너뜀"을 보라 (Unbrowsed = 부정 신호)

비유: 로봇이 검색 결과 목록을 훑어보면서 어떤 문서는 아예 안 읽고 넘어갔다면, 그 문서는 "쓸모없다"고 판단한 것입니다.
기존 방식: 사람이 클릭 안 했다고 해서 무조건 나쁜 건 아닙니다 (아예 안 봤을 수도 있으니까요). 하지만 로봇은 모든 결과를 훑어보고 안 읽은 건 확실히 '나쁜 문서'로 판단합니다.
LRAT 의 발견: 로봇이 읽지 않은 문서는 확실한 '나쁜 문서'로 가르칩니다.

③ "생각의 깊이"를 보라 (Reasoning = 중요도)

비유: 로봇이 문서를 읽고 나서 **긴 생각 (Reasoning)**을 했다면, 그 문서는 아주 중요한 단서를 줬다는 뜻입니다. 반면, 읽고 바로 "아, 쓸모없네" 하고 넘어갔다면 그 문서는 별볼일 없는 겁니다.
LRAT 의 발견: 로봇이 문서를 읽고 **얼마나 길게 고민했는지 (생각의 길이)**를 보고, 그 문서의 '중요도 점수'를 매깁니다. 긴 생각을 유도한 문서는 더 높은 점수를 줍니다.

🚀 3. 결과: 로봇이 더 똑똑해지고 빨라졌다

저자들은 이 방법으로 검색 엔진을 훈련시킨 후, 다양한 AI 로봇들에게 테스트했습니다.

성공률 상승: 로봇이 복잡한 문제를 해결하는 성공률이 약 28% 나 크게 향상되었습니다.
빠른 해결: 필요한 정보를 더 빨리 찾아내서, 로봇이 헤매는 시간 (단계 수) 이 줄었습니다.
어떤 로봇이든: 40 억 파라미터의 작은 로봇부터 3,500 억 파라미터의 거대 로봇까지, 모든 로봇에게 효과가 있었습니다.

🔄 4. 미래: "자기 발전하는 데이터 공장"

가장 멋진 점은 이 시스템이 스스로 발전할 수 있다는 것입니다.

로봇이 검색을 할 때마다 새로운 발자국 (데이터) 이 생깁니다.
그 발자국을 다시 학습시켜 검색 엔진을 더 똑똑하게 만들고, 다시 로봇에게 줍니다.
이는 마치 **로봇이 스스로 길을 닦고, 그 길을 따라 더 빠르게 달리는 "자기 발전의 나선"**과 같습니다.

📝 한 줄 요약

"인간을 위해 만든 검색 엔진을 로봇에게 주는 건 실패입니다. 대신 로봇이 정보를 찾아가는 '발자국'과 '생각 과정'을 분석해서, 로봇 전용 검색 엔진을 만들어주면 훨씬 더 똑똑하고 빠르게 문제를 해결할 수 있습니다."

이 연구는 AI 가 인간을 대신해 정보를 찾는 시대가 왔을 때, 검색 기술이 어떻게 변해야 하는지 보여주는 중요한 이정표입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

인간 중심에서 에이전트 중심의 검색 패러다임 전환: 기존 정보 검색 (IR) 시스템은 인간의 클릭, 머문 시간 (dwell time) 등 대규모 인간 상호작용 로그를 기반으로 학습되어 왔습니다. 그러나 최근 대규모 언어 모델 (LLM) 기반의 검색 에이전트 (Search Agents) 가 등장하면서, 검색은 더 이상 인간을 위한 독립적인 엔드포인트가 아니라, 에이전트의 다단계 추론 및 행동 루프 내에 내장된 핵심 구성 요소가 되었습니다.
훈련 데이터와 사용 환경의 불일치 (Mismatch): 현재 검색 에이전트들은 여전히 인간 중심 데이터로 훈련된 범용 검색 모델 (예: Google/Bing API, 일반 임베딩 모델) 을 사용합니다. 에이전트의 쿼리는 인간의 즉각적인 정보 요구가 아니라, 문제 해결을 위한 중간 추론 단계에서 생성되므로, 인간 사용자와는 다른 관련성 패턴을 보입니다. 이로 인해 에이전트의 정보 요구를 충족시키지 못하는 근본적인 불일치가 발생합니다.
해결 과제: 에이전트 검색 환경에 최적화된 검색 모델을 구축하기 위해, 인간 로그가 아닌 **에이전트 상호작용 데이터 (Agent Trajectories)**로부터 직접 검색 모델을 학습할 수 있는 새로운 패러다임이 필요합니다.

2. 방법론 (Methodology: LRAT)

저자들은 **LRAT (Learning to Retrieve from Agent Trajectories)**라는 새로운 학습 프레임워크를 제안합니다. 이는 에이전트의 실행 궤적 (Trajectory) 에서 고品質의 검색 감독 신호 (Supervision) 를 추출하고, 이를 기반으로 검색기를 학습시키는 과정으로 구성됩니다.

가. 에이전트 궤적 분석 및 통찰 (Key Insights)

에이전트 궤적에 대한 체계적인 분석을 통해 다음과 같은 핵심 행동 신호를 도출했습니다.

탐색 (Browsing) 은 성공의 필수 조건: 에이전트가 검색 결과 중 일부를 '탐색 (Browse)'하는 행동은 작업 성공에 필수적입니다. 따라서 탐색된 문서는 긍정적 (Positive) 신호의 후보가 됩니다.
미탐색 (Unbrowsed) 문서는 신뢰할 수 있는 부정적 신호: 인간 클릭 로그와 달리, 에이전트는 순위 편향 (Position Bias) 없이 상위 결과뿐만 아니라 다양한 위치의 문서를 평가합니다. 따라서 검색된 후보 집합 내에서 '탐색되지 않은' 문서는 에이전트가 명시적으로 거부한 것으로 간주할 수 있어, 신뢰할 수 있는 부정적 (Negative) 신호로 활용 가능합니다.
탐색 후 추론 (Post-browse Reasoning) 은 관련성 강도 지표: 에이전트가 문서를 탐색한 후 생성하는 추론 (Reasoning) 의 길이는 문서의 유용성과 강한 상관관계가 있습니다. 긴 추론은 해당 문서가 작업 진행에 실질적으로 기여했음을 의미하며, 이는 관련성의 강도 (Intensity) 를 나타냅니다.

나. LRAT 프레임워크의 단계

간단한 관련성 추출 (Naive Relevance Mining):
- [Search] → [Browse] 전환을 통해 탐색된 문서를 긍정 샘플로, 같은 검색 세트 내의 미탐색 문서를 부정 샘플로 간주하여 초기 감독 신호를 생성합니다.
추론 인식 긍정 필터링 (Reasoning-Aware Positive Filtering):
- 모든 탐색된 문서가 유용한 것은 아닙니다. LLM 을 '심판자 (Judge)'로 활용하여, 탐색 후 생성된 추론 로그를 분석합니다. 문서 내용이 실제 작업 진행에 기여했는지 판단하여 노이즈가 포함된 긍정 샘플을 제거하고 고품질 긍정 데이터를 선별합니다.
강도 인식 가중 학습 (Intensity-Aware Training):
- 단순한 이진 분류 (관련/비관련) 를 넘어, 문서가 에이전트에게 얼마나 유용했는지 그 '강도'를 반영합니다.
- 가중치 계산: 탐색 후 추론 로그의 길이 (Token 수) 를 기반으로 관련성 강도 가중치 ( $w$ ) 를 계산합니다. (지수 포화 함수 사용: 추론이 길수록 가중치가 높지만, 일정 수준 이상에서는 체감합니다.)
- 가중 대비 학습 (Weighted Contrastive Learning): 추출된 데이터로 InfoNCE 손실 함수를 최적화할 때, 각 샘플에 계산된 가중치를 곱하여, 더 깊은 추론을 유발한 문서가 모델 학습에 더 큰 영향을 미치도록 합니다.

3. 주요 기여 (Key Contributions)

새로운 검색 패러다임 제안: 인간 중심의 검색 훈련에서 벗어나, **에이전트 궤적 (Agent Trajectories)**을 직접적인 감독 신호로 활용하는 '에이전트 정렬 검색 (Agent-aligned Retrieval)' 패러다임을 정립했습니다.
LRAT 프레임워크 개발: 에이전트의 행동 (탐색, 미탐색, 추론) 에서 고품질 감독 신호를 추출하고, 관련성 강도를 반영한 가중 학습을 수행하는 간단하지만 효과적인 프레임워크를 제안했습니다.
데이터 피드휠 (Data Flywheel) 가능성 입증: 에이전트 궤적은 추가적인 인간 주석이 필요 없으며, 에이전트 실행의 부산물로 무한히 생성될 수 있음을 보였습니다. 이를 통해 검색기와 에이전트가 상호작용하며 지속적으로 성능을 향상시키는 자기 발전형 데이터 피드휠 구축이 가능함을 실증했습니다.

4. 실험 결과 (Results)

저자들은 **InfoSeek-Eval (동일 도메인)**과 BrowseComp-Plus (이종 도메인) 벤치마크에서 다양한 에이전트 (4B~358B 파라미터 규모) 와 검색기 (Qwen3-Embedding, E5-Large 등) 를 사용하여 LRAT 를 평가했습니다.

성공률 (Success Rate) 향상: LRAT 로 학습된 검색기를 사용한 에이전트는 베이스라인 대비 **평균 27.5% ~ 28.6%**의 성공률 향상을 보였습니다. 특히 대규모 에이전트 (GLM-4.7 등) 에서도 검색 품질이 병목 현상임을 확인하고 이를 해결했습니다.
증거 회수율 (Evidence Recall) 개선: BrowseComp-Plus 에서 중요한 증거 문서를 찾는 능력 (Recall) 이 크게 향상되었습니다 (최대 37% 이상 증가).
실행 효율성 증대: 에이전트가 작업을 완료하는 데 필요한 평균 단계 수 (Average Step Count) 가 감소하여, 더 적은 탐색과 검색으로 더 정확한 정보를 획득함을 보여주었습니다.
강건성 (Robustness): 훈련 데이터 양이 증가함에 따라 성능이 지속적으로 향상되었으며, 다양한 Top-K 검색 설정에서도 베이스라인보다 우월한 성능을 유지했습니다.
데이터 피드휠 시뮬레이션: 올바른 답변을 내놓지 못한 실패한 궤적조차도 유용한 감독 신호가 될 수 있음을 확인했으며, 반복적인 업데이트를 통해 검색기와 에이전트 성능이 모두 점진적으로 향상되는 것을 시뮬레이션으로 증명했습니다.

5. 의의 및 결론 (Significance)

이 논문은 에이전트 검색 (Agentic Search) 시대에 맞춰 정보 검색 시스템의 근본적인 방향 전환을 제시합니다.

실용성: 인간 주석 없이 에이전트 상호작용 데이터만으로 검색기를 학습할 수 있어, 확장 가능하고 비용 효율적인 솔루션을 제공합니다.
미래 지향성: 검색기가 에이전트의 추론 루프에 최적화됨으로써, 복잡한 다단계 정보 탐색 과제를 수행하는 자율 에이전트의 성능 한계를 확장합니다.
지속 가능성: 에이전트 궤적을 통해 지속적인 데이터 피드휠을 구축함으로써, 검색 시스템이 실제 사용 환경에서 스스로 진화할 수 있는 토대를 마련했습니다.

요약하자면, LRAT 는 에이전트의 행동 데이터를 '새로운 금광'으로 활용하여, 인간 중심의 편향을 넘어 에이전트에게 최적화된 차세대 검색 모델을 가능하게 하는 획기적인 접근법입니다.