Each language version is independently generated for its own context, not a direct translation.

🧠 KARL: 지식을 찾아다니는 '초능력 탐정'을 만드는 방법

Databricks AI 연구팀이 발표한 KARL(Knowledge Agents via Reinforcement Learning)은 단순히 정보를 검색하는 것을 넘어, 복잡한 문제를 스스로 해결하는 **'지능형 지식 에이전트'**를 만드는 혁신적인 방법론을 소개합니다.

이 논문은 마치 어려운 미스터리 사건을 해결하는 탐정을 훈련시키는 과정과 비슷합니다. 기존 모델들이 단순히 책장을 넘기만 했다면, KARL은 사건 현장에 직접 가서 증거를 찾고, 추리하며, 최종적으로 정답을 찾아내는 법을 배웠습니다.

1. 🕵️‍♂️ 왜 'KARL'이 필요한가요? (배경)

지금까지의 AI 모델들은 주로 기억에 의존했습니다. 하지만 현실 세계의 기업 데이터나 최신 뉴스는 AI가 훈련할 때 알 수 없는 경우가 많습니다. 이를 'Grounded Reasoning(근거 기반 추론)이라고 합니다.

기존 방식: "내 기억에 그런 게 있었나?" (잘못 기억하면 틀림)
KARL 의 방식: "자, 검색해서 증거를 찾아보자. 그리고 그 증거를 바탕으로 답을 도출하자."

하지만 이 방식은 매우 어렵습니다. 마치 미로를 헤매는 것과 같기 때문입니다. 너무 많은 정보를 찾으면 혼란스럽고, 너무 적으면 답을 못 찾습니다.

2. 🏋️‍♂️ KARL 을 어떻게 훈련시켰나요? (핵심 4 가지)

연구팀은 KARL 을 훈련시키기 위해 4 가지 독특한 방법을 사용했습니다.

① KARLBench: 6 가지 다른 '미로' 테스트

단순히 한 가지 문제만 푸는 게 아니라, 6 가지 완전히 다른 유형의 미로에서 훈련시켰습니다.

비유: 한 명에게 수학 문제, 요리 레시피, 법률 문서, 의료 기록, 기술 매뉴얼, 회사 내부 메모를 모두 분석하게 한 뒤, 어떤 상황에서도 답을 찾아내게 만든 것입니다.
효과: 한 가지에만 특화된 '전문가'가 아니라, 어떤 상황에서도 대처할 수 있는 '만능 탐정'이 되었습니다.

② 스스로 문제를 만들어내는 '지능형 합성'

좋은 문제를 만들기 위해 사람이 일일이 질문을 만들지 않았습니다. 대신 KARL 이 스스로 질문을 만들고, 스스로 답을 찾아보고, 그 답이 맞는지 검증하는 과정을 반복했습니다.

비유: 요리사가 스스로 새로운 레시피를 개발하고, 그 레시피로 요리를 해본 뒤, "이게 맛있는가?"를 스스로 평가하며 레시피를 고쳐나가는 것과 같습니다. 이렇게 만든 데이터는 훨씬 더 어렵고 현실적입니다.

③ 실수에서 배우는 '반복 훈련 (RL)

기존에는 AI 가 한 번 실수하면 그 데이터를 버리거나, 실시간으로 계속 훈련해야 했습니다. 하지만 KARL 은 대량의 데이터를 한 번에 모아, 실수한 부분과 성공한 부분을 비교하며 효율적으로 학습합니다.

비유: 축구 선수가 경기 영상을 수십 번 돌려보며 "여기서 패스를 잘못했다", "저기서 골을 넣었다"를 분석하고, 다음 경기에서 바로 적용하는 방식입니다.

④ 여러 업무를 동시에 수행하는 '멀티태스킹'

특정 업무 (예: 의학 문서 검색) 만 잘하는 게 아니라, 여러 업무 (의학, 법률, 기술 등) 를 동시에 학습하게 했습니다.

비유: 한 명의 의사가 수술만 잘하는 게 아니라, 진료, 약 처방, 환자 상담까지 모두 잘하는 '슈퍼 의사'가 된 것입니다.

3. 🚀 결과: 어떻게 다른가요? (성능)

KARL 은 기존 최강의 AI 들 (Claude 4.6, GPT 5.2 등) 과 비교했을 때 압도적인 효율성을 보여줍니다.

**비용 **(Cost) 같은 품질의 답을 내는데, 비용은 훨씬 적게 듭니다. (비유: 고급 레스토랑에서 같은 요리를 먹는데, KARL 은 패스트푸드점 가격에 제공합니다.)
**속도 **(Latency) 답을 찾는 속도가 훨씬 빠릅니다.
정확도: 훈련받지 않은 새로운 유형의 문제 (Out-of-Distribution) 에서도 뛰어난 성능을 발휘합니다.

그림 1을 보면, KARL 은 가장 낮은 비용과 가장 빠른 속도로 가장 높은 점수를 받는 **'최적의 지점 **(Pareto Frontier)에 위치해 있습니다.

4. 🧩 재미있는 발견: '생각의 확장'

KARL 은 단순히 더 많이 '암기'한 것이 아니라, 문제를 해결하는 방식이 변했습니다.

기존 모델: 정보를 찾으면 바로 답을 내놓거나, 정보가 부족하면 포기합니다.
KARL: 정보를 찾은 후, "이 정보가 맞는지 다시 한번 확인해볼까?"(Verification)라는 행동을 합니다. 필요하면 여러 번 검색하고, 정보를 종합하여 더 정확한 답을 만듭니다.
**병렬 사고 **(Parallel Thinking) 한 번에 여러 가지 시나리오를 동시에 생각해보고, 그중 가장 좋은 답을 골라냅니다. 마치 탐정이 "A 가 범인일 수도 있고, B 일 수도 있으니 두 가지 시나리오를 모두 검토해보자"는 식입니다.

5. 💡 결론: 왜 이것이 중요한가요?

KARL 은 "인공지능이 단순히 지식을 말하는 것을 넘어, 실제로 문제를 해결하는 도구로 진화했다"는 것을 보여줍니다.

기업용: 회사의 방대한 문서, 회의록, 기술 매뉴얼에서 필요한 정보를 찾아내고 보고서까지 작성해줍니다.
비용 효율성: 비싼 AI 모델을 계속 쓸 필요 없이, KARL 같은 효율적인 에이전트로도 최고의 성능을 낼 수 있습니다.

한 줄 요약:

KARL 은 "검색하고, 추리하고, 검증하는" 능력을 스스로 배운 AI 탐정으로, 기존 AI 들보다 훨씬 저렴하고 빠르게 복잡한 현실 문제를 해결합니다.

이 기술은 앞으로 우리가 AI 와 함께 일하는 방식을 완전히 바꿀 수 있는 중요한 이정표가 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

현대 지식 에이전트는 방대한 데이터 컬렉션에서 정보를 반복적으로 조회, 검색, 추론해야 하는 'Grounded Reasoning (근거 기반 추론)' 작업을 수행합니다. 이는 금융, 법률, 의료 등 기업이 보유한 비공개 데이터를 기반으로 한 의사결정에 필수적입니다. 그러나 기존 연구들은 다음과 같은 한계가 있었습니다:

단일 작업 최적화: 특정 벤치마크 (예: 수학, 코딩, 일반 QA) 에 최적화된 모델은 복잡한 다단계 검색이나 문서 간 통합 추론에는 취약합니다.
데이터 부족: 검증하기 어려운 (Hard-to-verify) 복잡한 에이전트 작업을 위한 고품질 학습 데이터가 부족합니다.
비용과 효율성: 최신 폐쇄형 모델 (Claude, GPT 등) 은 성능은 좋지만 비용과 지연 시간이 매우 높습니다.
일반화 부재: 특정 도메인에 훈련된 에이전트가 다른 도메인 (Out-of-Distribution) 으로 확장될 때 성능이 급격히 떨어집니다.

2. 방법론 (Methodology)

KARL 은 네 가지 핵심 기술 스택을 결합하여 문제를 해결합니다.

2.1 KARLBench: 다기능 평가 벤치마크

기존 벤치마크의 한계를 극복하기 위해 6 가지 서로 다른 검색 regimes 를 포함하는 KARLBench를 제안했습니다.

구체적 작업: 제약 조건 기반 엔티티 검색, 문서 간 보고서 합성, 표 기반 수치 추론, 포괄적 엔티티 검색, 기술 문서에 대한 절차적 추론, 내부 기업 노트에 대한 사실 집계.
특징: 단일 도메인이 아닌 다양한 검색 행동 (Search Behaviors) 을 포괄하여 에이전트의 일반화 능력을 평가합니다.

2.2 에이전트 합성 파이프라인 (Agentic Synthesis)

고품질의 학습 데이터를 생성하기 위해 에이전트 기반 합성 파이프라인을 개발했습니다.

동적 데이터 생성: 에이전트가 벡터 검색 도구를 사용하여 코퍼스를 탐색하고, 검색된 증거에 기반한 질문 - 답변 쌍을 생성합니다.
반복적 부트스트래핑: 점점 더 능력이 향상된 모델을 사용하여 더 어려운 데이터를 생성하고, 이를 다시 학습에 활용하는 자기 개선 (Self-improvement) 루프를 구축했습니다.
품질 필터링: 모호하거나 사실 오류가 있는 데이터는 'Solver Agent'와 'Quality Filter Agent'를 통해 필터링하여 RL 학습 데이터의 품질을 보장합니다.

2.3 OAPL: 대규모 배치 오프-폴리시 강화 학습

기존의 온라인 RL (예: GRPO) 의 불안정성과 높은 비용을 해결하기 위해 **OAPL (Optimal Advantage-based Policy Optimization with Lagged Inference)**을 제안했습니다.

오프-폴리시 학습: 학습 데이터는 참조 모델 ( $\pi_{ref}$ ) 로 생성되지만, 목표 정책 ( $\pi$ ) 을 최적화합니다. 이는 trainer 와 inference engine 간의 불일치에 강인하며, importance weighting 같은 복잡한 휴리스틱 없이 대규모 MoE(Mixture-of-Experts) 모델 훈련을 가능하게 합니다.
반복적 학습: 여러 번의 오프라인 학습 반복을 통해 정책을 점진적으로 개선합니다.
멀티태스크 학습: 서로 다른 검색 행동 (예: 깊은 검색 vs 넓은 검색) 을 가진 여러 작업을 동시에 훈련하여 Out-of-Distribution 일반화를 달성합니다.

2.4 테스트 시간 계산 확장 (Test-Time Compute, TTC)

추론 시 계산 자원을 동적으로 할당하여 성능을 극대화합니다.

Parallel Thinking: 여러 개의 병렬 롤아웃 (rollout) 을 생성하고, 집계 에이전트가 이를 종합하여 최종 답변을 도출합니다.
Value-Guided Search (VGS): 가치 모델을 학습시켜 각 단계에서 가장 성공 확률이 높은 경로를 선택하는 트리 탐색을 수행합니다.

3. 주요 기여 (Key Contributions)

KARLBench 도입: 6 가지 다양한 검색 regimes 를 아우르는 포괄적인 평가_suite 를 구축하여 지식 에이전트의 능력을 정밀하게 측정합니다.
이질적 행동 훈련의 일반화 효과: 단일 벤치마크에 최적화된 모델보다 이질적인 검색 행동 (heterogeneous search behaviors) 을 모두 학습한 모델이 훨씬 뛰어난 일반화 성능을 보임을 입증했습니다.
고품질 합성 데이터 파이프라인: 장기적 추론과 도구 사용을 활용한 에이전트 합성 파이프라인을 통해 다양하고 근거 기반인 고품질 학습 데이터를 생성하는 방법을 제시했습니다.
새로운 RL 패러다임 (OAPL): 샘플 효율성이 높고, 멀티태스크 학습에 자연스럽게 확장되며, 인프라 복잡도를 줄인 오프-폴리시 RL 방법을 제안했습니다.

4. 실험 결과 (Results)

KARL 은 KARLBench에서 Claude 4.6, GPT 5.2 등 최신 폐쇄형 모델들과 비교하여 다음과 같은 결과를 달성했습니다.

파레토 최적 (Pareto-Optimal): 비용 - 품질 및 지연 시간 - 품질 트레이드오프 측면에서 기존 모델들보다 우월한 파레토 프론티어를 형성했습니다.
비용 효율성: 단일 호출 기준 KARL 은 쿼리당 $0.10 미만의 비용으로 55 점 이상의 성능을 내며, 이는 동급 모델 중 가장 저렴합니다. 병렬 샘플링 (Parallel 3) 을 사용하면 Sonnet 4.6 과 동급의 품질을 달성하면서도 비용을 약 33% 절감합니다.
지연 시간 효율성: 병렬 처리를 사용하지 않을 때 55 점 이상 모델 중 가장 빠른 응답 속도를 보이며, 10 개 병렬 트레일 (Parallel 10) 을 사용해도 Opus 4.6 과 동급의 품질을 약 47% 낮은 지연 시간으로 달성합니다.
일반화 능력: 훈련에 사용되지 않은 Out-of-Distribution (OOD) 작업에서도 일관된 성능 향상을 보였습니다. 이는 RL 이 특정 작업의 휴리스틱이 아닌 일반적인 검색 능력을 학습했음을 시사합니다.
RL 의 효과: RL 훈련은 모델이 기존에 풀지 못했던 문제를 해결할 수 있게 하며 (Max@K 향상), 불필요한 검색 단계를 줄여 효율성을 높였습니다.

5. 의의 및 결론 (Significance)

이 연구는 맞춤형 합성 데이터와 멀티태스크 강화 학습의 결합이 비용 효율적이고 고성능인 지식 에이전트를 구축하는 유효한 경로임을 입증했습니다.

실무 적용 가능성: 기업 내부 데이터에 기반한 복잡한 추론 작업에서 폐쇄형 상용 모델에 필적하거나 능가하는 성능을 오픈소스 기반의 효율적인 아키텍처로 달성할 수 있음을 보여줍니다.
기술적 진전: 온라인 RL 의 불안정성을 해결하고 대규모 MoE 모델에 적용 가능한 새로운 오프-폴리시 RL 방법론 (OAPL) 을 제시하여 에이전트 학습의 인프라 장벽을 낮췄습니다.
미래 방향: 현재 벡터 검색만 지원하지만, 이 훈련 레시피를 코드 실행, 구조화된 검색 등 다양한 도구로 확장하면 더욱 강력한 범용 에이전트 개발이 가능할 것으로 기대됩니다.

요약하자면, KARL 은 단순한 모델 크기 증가가 아닌, 데이터 생성, 학습 알고리즘, 추론 전략의 통합적 최적화를 통해 지식 에이전트의 새로운 성능 기준을 제시한 획기적인 연구입니다.

KARL: Knowledge Agents via Reinforcement Learning