AgentIR: Reasoning-Aware Retrieval for Deep Research Agents

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"AI 에이전트가 정보를 찾을 때, 우리가 흔히 쓰는 검색 엔진보다 훨씬 똑똑하게 작동할 수 있는 새로운 방법"**을 소개합니다.

제목은 **AgentIR(에이전트 IR)**이며, 핵심 아이디어는 **"검색할 때 '왜' 검색하는지 그 이유 (추론 과정) 까지 함께 알려주면 훨씬 좋은 결과를 얻을 수 있다"**는 것입니다.

이 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 문제 상황: "혼란스러운 주문"을 하는 고객

기존의 검색 시스템은 일반적인 사람을 대상으로 설계되었습니다.

상황: 당신이 카페에 가서 "그거 주세요"라고만 말하면 바리스타는 무엇을 드려야 할지 모릅니다. "그거"가 커피인지 케이크인지, 뜨거운 것인지 차가운 것인지 알 수 없기 때문입니다.
기존 AI 의 한계: Deep Research(심층 연구) 에이전트 같은 AI 는 복잡한 문제를 풀기 위해 여러 번 검색을 합니다. 하지만 기존 검색 엔진은 AI 가 입력한 **"검색어 (예: 'early 2010s euphoric')"**만 보고 결과를 줍니다.
결과: AI 가 "2010 년대 초반의 황홀한 느낌"이라고만 검색하면, 검색 엔진은 "2010 년대 초반의 황홀한 느낌"이라는 단어가 포함된 아무 문서나 가져옵니다. (예: 게임 스튜디오나 음악 장르 등 엉뚱한 것들)

2. 해결책: "생각의 흐름"을 함께 보여주는 비서

이 논문은 AI 가 검색을 할 때, 단순히 검색어만 보내는 게 아니라, 그 전에 AI 가 "무엇을 찾고 있는지, 왜 찾는지"에 대한 생각 (추론 과정) 을 함께 검색 엔진에 알려주자고 제안합니다.

비유: 똑똑한 비서와 검색 엔진

기존 방식: 비서가 사장님께 "사장님, '그거' 찾아주세요"라고만 말합니다. 검색 엔진은 "그거"가 뭔지 몰라 엉뚱한 것을 가져옵니다.
새로운 방식 (AgentIR): 비서가 검색 엔진에게 이렇게 말합니다.

"사장님이 **'2010 년대 초반에 작은 스튜디오에서 만든 황홀한 결말의 곡을 작곡한 작곡가'**를 찾고 계세요. 이미 **'그레미상'**을 받은 분이고, '프로그레시브 하우스' 장르일 가능성이 높아요. 이 정보를 바탕으로 찾아주세요."

이렇게 **검색어 + 생각의 맥락 (추론)**을 함께 주면, 검색 엔진은 훨씬 정확한 결과를 찾아냅니다.

3. 핵심 기술 두 가지

이 논문은 이 아이디어를 실현하기 위해 두 가지 중요한 기술을 개발했습니다.

① '생각'을 함께 검색하는 방법 (Reasoning-Aware Retrieval)

비유: 검색 엔진이 이제 **"검색어"**뿐만 아니라 **"검색을 하기 전의 고민 과정"**도 읽을 수 있게 훈련시켰습니다.
효과: AI 가 "아, 이거는 저번에 찾던 그 사람과 관련이 있겠구나"라고 생각한 내용을 검색 엔진이 함께 읽으면, 엉뚱한 정보는 걸러내고 정확한 정보만 골라냅니다.

② AI 를 위한 훈련 데이터 만들기 (DR-Synth)

문제: 기존 검색 엔진은 "사람이 물어본 질문"으로 훈련되었습니다. 하지만 AI 가 하는 "단계별 추론" 데이터는 없었습니다.
해결: 연구진은 기존에 있는 일반적인 질문 (QA) 데이터셋을 가져와서, AI 가 실제로 복잡한 문제를 풀 때 어떻게 생각하며 검색을 했는지 시뮬레이션했습니다.
비유: 요리 학교에서 "사람이 시키는 요리"만 가르치던 셰프에게, **"로봇이 요리를 하려면 어떤 재료를 어떻게 섞어야 하는지"**를 가르치기 위해, 로봇이 요리를 하는 과정을 직접 녹화해서 교육 자료로 만든 것과 같습니다.

4. 놀라운 결과

이 새로운 방법 (AgentIR-4B) 을 적용한 결과:

정확도 대폭 상승: 기존에 검색 엔진의 두 배나 큰 모델을 썼을 때보다 더 좋은 성능을 냈습니다. (정확도 50% → 68% 로 향상)
시간 단축: 엉뚱한 정보를 찾아 헤매는 시간이 줄어들어, 검색 횟수가 30 회에서 25 회 정도로 감소했습니다.
비용 절감: 별도의 추가 계산 없이, AI 가 이미 "생각"을 하는 과정에서 무료로 생성한 정보를 활용하므로 추가 비용이 들지 않습니다.

5. 결론: AI 시대의 새로운 검색

이 연구는 **"AI 가 검색을 할 때는, AI 가 생각하는 과정까지 함께 검색해야 한다"**는 사실을 증명했습니다.

앞으로 AI 에이전트들이 우리 대신 복잡한 정보를 찾아주는 시대가 오면, 우리가 직접 검색하는 것보다 AI 가 어떻게 생각하며 검색하는지 그 '맥락'을 이해하는 검색 엔진이 훨씬 더 중요해질 것입니다. 이 논문은 바로 그 '맥락'을 이해하는 검색 엔진을 만드는 길을 제시한 것입니다.

한 줄 요약:

"AI 가 검색할 때 '무엇을' 찾는지뿐만 아니라 '왜' 찾는지 그 생각의 흐름까지 함께 알려주면, 검색 엔진이 훨씬 똑똑해져서 원하는 답을 훨씬 빠르고 정확하게 찾아줍니다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

Deep Research Agents(심층 연구 에이전트) 는 복잡한 문제를 해결하기 위해 여러 턴에 걸쳐 자율적으로 추론하고 검색을 수행하는 새로운 유형의 검색 시스템 사용자입니다. 기존 검색 시스템은 인간 사용자를 가정하여 설계되었으나, Deep Research 에이전트와 인간 사용자 사이에는 중요한 차이가 존재합니다.

기존 접근법의 한계: 인간 사용자는 검색 쿼리를 입력할 때 중간 사고 과정 (Intermediate thought processes) 을 기록하지 않습니다. 따라서 기존 검색기 (Retriever) 는 단순히 입력된 쿼리 ( $q_t$ ) 만을 기반으로 문서를 검색합니다.
에이전트의 특성: Deep Research 에이전트는 각 검색 호출 전에 명시적인 자연어 추론 과정 ( $\tau_t$ ) 을 생성합니다. 이 추론 과정은 검색 의도, 이전 검색 결과에 대한 반성, 미해결된 문제점, 그리고 향후 검색 목표에 대한 가설 등 풍부한 맥락 정보를 포함하고 있습니다.
핵심 문제: 기존 검색 모델은 에이전트가 생성한 이 풍부한 '추론 흔적 (Reasoning Trace)'을 전혀 활용하지 못합니다. 결과적으로 모호한 쿼리나 복잡한 다단계 검색 작업에서 검색 성능이 저하됩니다.

2. 방법론 (Methodology)

저자들은 에이전트의 추론 흔적을 효과적으로 활용하기 위해 두 가지 핵심 구성 요소를 제안합니다.

2.1. Reasoning-Aware Retrieval (추론 인식 검색)

기존의 쿼리 기반 검색을 넘어, 에이전트의 추론 흔적 ( $\tau_t$ ) 과 쿼리 ( $q_t$ ) 를 결합하여 공동으로 임베딩하는 새로운 검색 패러다임입니다.

작동 원리: 검색 입력을 $[ \tau_t, q_t ]$ 형태로 연결 (Concatenation) 하여 임베딩 모델에 입력합니다.
효과:
- 작업 의도 명확화: 모호한 쿼리를 에이전트의 추론을 통해 명확한 의도로 해석합니다 (예: "backroom studio"를 게임 스튜디오가 아닌 음악 제작 공간으로 해석).
- 이전 결과 반영: 이전 턴에서 얻은 정보 (예: "Grammy" 수상자) 를 검색 범위를 좁히는 데 활용합니다.
- 가설 생성: 에이전트의 사전 지식과 현재 맥락을 바탕으로 유망한 검색 대상 (예: "progressive house" 장르) 을 추론하여 검색의 정확도를 높입니다.
장점: 기존 HyDE(Hypothetical Document Embeddings) 와 달리, 에이전트가 표준 운영 루프의 일부로 "무료"로 생성하는 추론을 활용하므로 추가적인 LLM 호출 비용이 들지 않습니다.

2.2. DR-Synth (Deep Research Synthesis)

Deep Research 에이전트용 다단계 검색 훈련 데이터가 부족하다는 문제를 해결하기 위해 제안한 데이터 합성 파이프라인입니다.

문제: 기존 QA 데이터셋은 전역 질문 ( $Q$ ) 에 대한 정답과 문서 집합 ( $P$ ) 만 제공하며, 에이전트가 실제로 수행하는 로컬 서브쿼리 ( $q_t$ ) 와 해당 턴의 관련성 레이블이 존재하지 않습니다.
해결책:
1. 서브쿼리 생성: 표준 QA 데이터셋 (WebShaper 등) 의 질문 $Q$ 에 대해 에이전트와 기존 검색기를 사용하여 다단계 검색 궤적 (Trajectory) 을 생성합니다. 이 과정에서 각 턴의 $(\tau_t, q_t)$ 쌍을 추출합니다.
2. 정답 라벨링 (Oracle Reranking): 각 턴 $t$ $t$ 에서 검색된 후보 문서들에 대해, 전역 질문 $Q$ $Q$ 와 정답 $A$ $A$ 를 참조하여 LLM 을 이용한 오라클 재순위화 (Oracle Reranking) 를 수행합니다.
  - 현재 턴의 서브쿼리에 가장 관련성이 높으면서도 전역 목표와 부합하는 문서를 Positive ( $d^+_t$ ) 로 선정합니다.
  - 관련성이 낮은 문서들을 Hard Negative ( $d^-_t$ ) 로 선정합니다.
3. 훈련 데이터 생성: 이렇게 생성된 $([ \tau_t, q_t ], d^+_t, \{d^-_t\})$ 쌍을 사용하여 대비 학습 (Contrastive Learning) 을 수행합니다.

3. 주요 기여 (Key Contributions)

Reasoning-Aware Retrieval 패러다임 제안: 에이전트의 명시적 추론 흔적을 검색 입력에 통합하여, 기존 검색 모델이 놓치고 있던 풍부한 의도 및 맥락 정보를 활용하는 새로운 접근법을 제시했습니다.
DR-Synth 데이터 합성 방법론: 표준 QA 데이터셋을 기반으로 Deep Research 에이전트 전용의 다단계 검색 훈련 데이터를 자동 생성하는 파이프라인을 개발하여, 데이터 부족 문제를 해결했습니다.
AgentIR-4B 모델 개발 및 검증: 위 두 방법을 결합하여 훈련된 임베딩 모델 AgentIR-4B를 개발했습니다. 이 모델은 기존 강력한 검색 모델들보다 월등한 성능을 보이며, 추가적인 미세 조정 없이도 다양한 에이전트 (Tongyi-DR, gpt-oss-120B, GLM-4.7) 에 적용 가능합니다.

4. 실험 결과 (Results)

BrowseComp-Plus (복잡한 다단계 검색을 요구하는 벤치마크) 에서 다양한 에이전트와 함께 평가한 결과입니다.

정확도 (Accuracy):
- Tongyi-DR 에이전트와 결합 시: AgentIR-4B 는 **66.27%**의 정확도를 달성했습니다.
- 비교: 이는 모델 크기가 두 배인 강력한 기존 임베딩 모델 (Qwen3-Embed-8B, 50.72%) 보다 약 15% 포인트 높으며, BM25(33.98%) 보다 32% 포인트 높은 성능입니다.
- 재순위화 (Reranking) 대비: 계산 비용이 매우 큰 LLM 기반 재순위화 (Qwen3-Embed-4B + LLM Rerank, 55.66%) 보다 약 10% 포인트 높은 정확도를 기록했습니다.
효율성 (Efficiency):
- 검색 단계 수 (Search Calls) 가 BM25(32.92 회) 대비 AgentIR-4B(25.91 회) 로 크게 감소하여, 불필요한 검색을 줄이고 작업 완료 시간을 단축했습니다.
일반화 (Generalization):
- WebShaper 데이터로 훈련되었음에도 불구하고, 다른 추론 패턴을 가진 에이전트 (gpt-oss-120B, GLM-4.7) 에 대해서도 추가 학습 없이 높은 성능을 유지했습니다.

5. 분석 및 통찰 (Analysis & Significance)

추론 흔적의 핵심 역할: 에이전트의 현재 턴 추론 ( $\tau_t$ ) 은 이전 턴의 결과를 요약할 뿐만 아니라, 오류나 잘못된 가설을 자동으로 필터링하는 역할을 합니다. 과거의 모든 추론을 포함하는 것보다 현재 턴의 정제된 추론을 사용하는 것이 더 깨끗한 검색 신호를 제공합니다.
과거 정보의 중복성: 과거 모든 턴의 추론을 입력에 포함시키더라도 성능이 향상되지 않는 이유는, 현재 추론이 이미 이전 정보를 요약하고 있기 때문입니다. 오히려 과거의 잘못된 가설을 포함하면 노이즈가 증가하여 성능이 저하됩니다.
의의:
- 검색 생태계의 변화: 인간이 직접 검색하는 시대에서, 에이전트가 주요 검색 소비자가 되는 시대로의 전환을 반영합니다.
- 컨텍스트 엔지니어링: 에이전트의 맥락을 검색기에 최적화하는 "Context Engineering"의 중요성을 강조하며, 에이전트와 검색기의 협력적 관계를 통해 검색 성능을 극대화할 수 있음을 입증했습니다.

결론적으로, AgentIR 은 Deep Research 에이전트의 고유한 특성 (명시적 추론) 을 검색 시스템에 통합함으로써, 기존 검색 모델의 한계를 극복하고 정확도와 효율성을 동시에 획기적으로 개선한 선구적인 연구입니다.