AgentSelect: Benchmark for Narrative Query-to-Agent Recommendation

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"AGENTSELECT"**라는 새로운 도구를 소개합니다. 이 도구의 핵심 아이디어를 일상적인 비유로 쉽게 설명해 드릴게요.

🎬 비유: "요리사 (에이전트) 를 구하는 상황"

생각해 보세요. 여러분이 "오늘 저녁에 특별한 파티를 준비하고 싶어. 아이들과 함께 할 수 있는 재미있는 요리를 만들고 싶어"라고 말한다고 칩시다.

지금까지의 AI 세상은 다음과 같았습니다:

재료만 알려주는 책 (LLM 리더보드): "이 요리사는 고기를 잘 다루고, 저 요리사는 해산물을 잘 다룬다"는 식으로 각 요리사의 개별 능력만 평가했습니다.
도구만 알려주는 목록 (툴 벤치마크): "이 칼은 날카롭고, 저 냄비는 열을 잘 전달한다"는 식으로 도구의 성능만 따로 평가했습니다.

하지만 문제는, **실제 파티 (사용자의 질문)**를 위해 어떤 요리사 (LLM) 가 어떤 도구 (툴) 를 조합해서 쓰면 가장 잘할지 알려주는 종합 가이드가 없었다는 점입니다. 요리사 100 명과 도구 100 개가 있는데, "아이 파티용"으로 가장 완벽한 조합을 찾는 건 마치 미로 찾기처럼 어렵습니다.

🚀 AGENTSELECT 가 해결한 일

이 논문은 **"질문 (이야기) 을 들으면, 바로 가장 적합한 요리사 조합을 추천해주는 시스템"**을 만들었습니다.

1. 데이터의 재탄생: "혼란스러운 기록을 정리하다"

기존에는 각기 다른 곳에서 나온 평가 데이터 (점수, 로그, 실패/성공 기록 등) 가 제각각이었습니다. AGENTSELECT 는 이 모든 것을 **"사용자가 어떤 질문을 했을 때, 어떤 요리사 조합이 성공했는가?"**라는 하나의 공통 언어로 변환했습니다.

비유: 각자 다른 언어로 적힌 요리사들의 경력서를 모두 번역해서, "이런 손님에게는 이 요리사가 최고"라는 매칭 데이터로 만든 것입니다.

2. 세 가지 단계로 학습 (Part I, II, III)

이 시스템은 세 가지 방식으로 배웁니다:

Part 1 (요리사만 있는 경우): "이 질문에는 이 요리사 (LLM) 가 가장 잘한다"는 데이터.
Part 2 (도구만 있는 경우): "이 질문에는 이 도구 세트가 필요하다"는 데이터.
Part 3 (실제 조합): 앞의 두 가지를 섞어서 "이 요리사 + 이 도구 = 이 질문 해결"이라는 실제 시뮬레이션 데이터를 만듭니다.
- 중요한 점: 기존에는 이런 '실제 조합' 데이터가 거의 없었는데, 이 논문이 가상의 시나리오를 만들어서 학습 데이터를 대폭 늘렸습니다.

3. 발견한 놀라운 사실: "인기 있는 요리사보다 '맞춤형'이 중요하다"

연구 결과, 인기 있는 요리사 (자주 쓰이는 모델) 만 고집하면 안 된다는 사실이 밝혀졌습니다.

과거: "인기 있는 요리사 (ID) 를 많이 봤으니 그 요리사가 좋겠지"라고 추측하는 방식 (협업 필터링).
현재: "손님의 **이야기 (질문)**를 잘 듣고, 그 상황에 맞는 특정 능력을 가진 요리사를 찾아야 한다"는 방식 (콘텐츠 기반 매칭).
비유: "가장 유명한 셰프가 항상 모든 요리를 잘하는 건 아니죠. '아이들을 위한 파티'라는 구체적인 요청에는 그 상황에 특화된 셰프가 더 좋습니다."

🌟 왜 이것이 중요한가요?

이 연구는 AI 에이전트 생태계가 **"전문가들이 직접 조합을 만드는 단계"**에서 **"누구나 말로만 요청하면 AI 가 알아서 최고의 조합을 찾아주는 단계"**로 넘어가는 데 필요한 지도를 제공했습니다.

실제 적용: 이 기술을 사용하면, 사용자가 "내 강아지를 위한 사이버펑크 풍 초상화를 그려줘"라고 말하면, AI 는 즉시 "이 특정 모델 + 이 특정 그림 도구"를 조합해서 바로 실행 가능한 에이전트를 만들어줍니다.
미래: 이제부터는 복잡한 설정을 몰라도, 자연스러운 말로만 하면 AI 가 알아서 가장 적합한 '도구 상자'를 열어줄 것입니다.

💡 한 줄 요약

**"수천 개의 AI 모델과 도구 중에서, 사용자의 구체적인 '이야기'에 딱 맞는 최고의 조합을 찾아주는 '지능형 매니저'를 만드는 방법을 처음 제시한 연구"**입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Definition)

배경: 대규모 언어 모델 (LLM) 기반 에이전트는 외부 도구와 실행 로직을 결합하여 복잡한 작업을 자동화하는 핵심 인터페이스로 부상하고 있습니다. 그러나 에이전트 생태계가 급격히 확장됨에 따라, 특정 자연어 질의 (Narrative Query) 에 대해 가장 적합한 에이전트 구성 (백본 모델 + 도구 세트) 을 선택하는 것이 어려워졌습니다.
현황의 한계:
- 기존 LLM 리더보드나 도구 벤치마크는 개별 구성 요소 (모델 또는 도구) 를 고립적으로 평가할 뿐, 전체 에이전트 구성 (Compositional Configuration) 에 대한 질의 기반 (Query-conditioned) 지도 신호를 제공하지 못합니다.
- 평가 데이터는 작업, 지표, 후보 풀이 이질적 (Heterogeneous) 으로 분산되어 있어, 에이전트 추천 학습을 위한 표준화된 데이터로 재사용하기 어렵습니다.
- 사용자는 수백 개의 후보 에이전트 중에서 자신의 요구사항에 맞는 에이전트를 직접 찾아야 하는 '마지막 마일 (Last Mile)' 문제를 겪고 있습니다.
핵심 과제: 자유 형식의 자연어 질의와 방대한 에이전트 카탈로그가 주어졌을 때, 기대 효용 (Expected Utility) 을 기준으로 에이전트를 순위 매기는 질문 - 에이전트 추천 (Query-to-Agent Recommendation) 문제 해결.

2. 방법론 (Methodology)

저자들은 AGENTSELECT라는 새로운 벤치마크와 데이터셋을 제안하여 이 문제를 해결합니다.

가. 에이전트 표현 (Capability Profile Design)

각 에이전트를 추상적인 라벨이 아닌, 배포 가능한 역량 프로파일 (Capability Profile) $A = (M, T)$ $A = (M, T)$ 로 정의합니다.
- $M$ : 백본 언어 모델 (Backbone LLM)
- $T$ : 에이전트가 호출할 수 있는 외부 도구 집합 (Toolkit)
각 에이전트는 실행 가능한 YAML 설정 파일로 저장되어, 실제 에이전트 프레임워크 (Agno, LangGraph 등) 에서 즉시 구동될 수 있도록 합니다.

나. 데이터 구성 (Dataset Construction)

이질적인 기존 평가 아티팩트를 통합된 긍정적 상호작용 (Positive-only Interaction) 데이터로 변환하여 3 가지 부분으로 구성합니다. 총 111,179 개의 질의와 107,721 개의 에이전트, 251,103 개의 상호작용 기록을 포함합니다.

Part I (LLM-only Agents):
- Open LLM Leaderboard 등 대규모 LLM 평가 결과를 활용.
- 질의별 상위 10 개 모델은 긍정 (Positive) 으로 간주.
- 도구 없이 모델 자체의 추론 능력을 평가하는 밀집된 (Dense) 데이터.
Part II (Toolkit-only Agents):
- ToolBench, APIBench 등 도구 사용 벤치마크 활용.
- 백본 모델을 null 로 설정하고, 벤치마크에서 요구된 도구 세트만 가진 에이전트를 생성.
- 도구 선택의 중요성을 독립적으로 평가.
Part III (Compositional Agents):
- 가상 긍정 (Pseudo-positive) 상호작용 합성: Part I/II 의 대표 질의를 기반으로, LLM 리트리버와 도구 리트리버를 통해 적합한 $(M, T)$ 구성을 조합하여 생성.
- 생성된 구성을 해당 질의의 긍정 샘플로, 다른 질의의 구성을 부정 (Negative) 또는 라벨 없는 샘플로 활용.
- 현실적인 에이전트 조합 (Compositional) 에 대한 학습 신호를 제공.

다. 학습 및 평가 프레임워크

모델: MF, LightFM, NCF, Two-Tower, GNN 기반 (NGCF, LightGCN 등), Reranking, 생성형 추천 (OneRec) 등 다양한 추천 알고리즘을 평가.
특징: 질의 텍스트, 모델/도구 설명 텍스트, 그리고 ID(모델 ID, 도구 ID) 를 입력으로 사용.
평가 지표: Precision@10, Recall@10, nDCG@10, MRR@10 등.

3. 주요 기여 (Key Contributions)

첫 번째 통합 에이전트 추천 벤치마크: 이질적인 평가 아티팩트를 표준화된 '질의 - 에이전트' 상호작용 데이터로 변환한 최초의 프레임워크를 제시.
규제 변화 (Regime Shift) 발견:
- 기존 추천 시스템의 '밀집된 헤드 재사용 (Dense Head Reuse)' 패턴에서, 에이전트 생태계의 '롱테일 및 거의 1 회용 (Long-tail, Near One-off)' 감독 신호로 전환됨을 규명.
- 이 환경에서는 인기 기반의 협업 필터링 (CF) 이나 GNN 방법이 취약하며, 콘텐츠 인식 (Content-aware) 역량 매칭이 필수적임을 증명.
합성 데이터의 유효성 검증:
- Part III 의 합성된 상호작용 데이터가 학습 가능하며, 제어된 반사실적 (Counterfactual) 편집 (예: 핵심 도구 제거) 에 대해 모델이 민감하게 반응함을 확인.
- 학습된 모델이 실제 에이전트 마켓플레이스 (MuleRun) 와 배포된 에이전트 실행 환경에서도 성능 향상을 보임.
오픈 소스 인프라: 40 개 이상의 소스에서 추출된 대규모 데이터셋과 평가 인프라를 공개하여 에이전트 생태계 연구를 가속화.

4. 실험 결과 및 분석 (Results & Analysis)

성능 비교:
- Part I (밀집 데이터): ID 기반의 협업 필터링 (MF, LightFM) 및 GNN 모델이 높은 성능을 보임.
- Part II/III (희소/롱테일 데이터): ID 기반 모델은 성능이 급격히 저하됨. 반면, 콘텐츠 기반 매칭 (Two-Tower, BGE-Rerank 등) 모델이 우세함.
- 임베딩 효과: 제로샷 (Zero-shot) 임베딩은 성능이 낮으나, 도메인 특화 (In-domain) 파인튜닝을 거치면 성능이 크게 향상됨.
모달리티 기여도 분석 (Table 3):
- 모델/도구 ID 만으로는 높은 정확도를 달성하기 어려우며, 텍스트 설명 (콘텐츠) 이 핵심적인 차별화 신호로 작용함.
- 특히 도구 (Tool) 의 텍스트 설명이 모델 (LLM) 설명보다 추천 성능에 더 큰 기여를 함.
실제 환경 전이 (Transfer Learning):
- AGENTSELECT 에서 파인튜닝된 모델 (EasyRec*) 은 외부 마켓플레이스 (MuleRun) 에서도 정렬되지 않은 카탈로그에 대해 기존 모델보다 일관되게 높은 성능 (Hit Rate, nDCG 향상) 을 보임.
- 배포된 에이전트 실행 결과 (End-to-End) 와 추천 순위 간의 상관관계가 유의미하게 확인됨.

5. 의의 및 결론 (Significance & Conclusion)

실용적 가치: 비전문가도 자연어 질의를 통해 즉시 실행 가능한 맞춤형 에이전트를 생성할 수 있는 '제로 코드 (Zero-code)' 에이전트 생태계의 기반을 마련함.
연구적 의의: 에이전트 선택을 단순한 구성 요소 선정을 넘어, 질의와 전체 구성 간의 역량 매칭 (Capability Matching) 문제로 재정의함.
미래 방향: 추후 실행 결과 (Execution Traces) 를 추가적인 감독 신호로 통합하여, 정적 설명만으로는 구분하기 어려운 에이전트 간의 미세한 차이를 학습할 수 있도록 확장 가능.

요약하자면, AgentSelect는 급변하는 에이전트 생태계에서 사용자의 자연어 요청에 가장 적합한 에이전트 구성을 자동으로 추천하기 위한 표준 벤치마크이자 데이터 인프라를 제공하며, 콘텐츠 기반 매칭의 중요성과 합성 데이터의 실용성을 입증했습니다.

AgentSelect: Benchmark for Narrative Query-to-Agent Recommendation

🎬 비유: "요리사 (에이전트) 를 구하는 상황"

🚀 AGENTSELECT 가 해결한 일

1. 데이터의 재탄생: "혼란스러운 기록을 정리하다"

2. 세 가지 단계로 학습 (Part I, II, III)

3. 발견한 놀라운 사실: "인기 있는 요리사보다 '맞춤형'이 중요하다"

🌟 왜 이것이 중요한가요?

💡 한 줄 요약

1. 문제 정의 (Problem Definition)

2. 방법론 (Methodology)

가. 에이전트 표현 (Capability Profile Design)

나. 데이터 구성 (Dataset Construction)

다. 학습 및 평가 프레임워크

3. 주요 기여 (Key Contributions)

4. 실험 결과 및 분석 (Results & Analysis)

5. 의의 및 결론 (Significance & Conclusion)

유사한 논문

Explainable machine learning for predicting shellfish toxicity in the Adriatic Sea using long-term monitoring data of HABs

Talking like Piping and Instrumentation Diagrams (P&IDs)

SCAM: A Real-World Typographic Robustness Evaluation for Multimodal Foundation Models

IntrinsicWeather: Controllable Weather Editing in Intrinsic Space

Expert Evaluation of LLM World Models: A High-TcT_cTc​ Superconductivity Case Study

Expert Evaluation of LLM World Models: A High- $T_c$ Superconductivity Case Study