KARL: Knowledge Agents via Reinforcement Learning

이 논문은 강화 학습과 맞춤형 합성 데이터를 결합하여 다양한 검색 작업에서 최첨단 성능을 달성하고 비용 대비 효율성이 뛰어난 기업용 지식 에이전트 'KARL'을 개발한 연구 결과를 제시합니다.

Jonathan D. Chang, Andrew Drozdov, Shubham Toshniwal, Owen Oertell, Alexander Trott, Jacob Portes, Abhay Gupta, Pallavi Koppol, Ashutosh Baheti, Sean Kulinski, Ivan Zhou, Irene Dea, Krista Opsahl-Ong, Simon Favreau-Lessard, Sean Owen, Jose Javier Gonzalez Ortiz, Arnav Singhvi, Xabi Andrade, Cindy Wang, Kartik Sreenivasan, Sam Havens, Jialu Liu, Peyton DeNiro, Wen Sun, Michael Bendersky, Jonathan Frankle

게시일 2026-03-06
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🧠 KARL: 지식을 찾아다니는 '초능력 탐정'을 만드는 방법

Databricks AI 연구팀이 발표한 KARL(Knowledge Agents via Reinforcement Learning)은 단순히 정보를 검색하는 것을 넘어, 복잡한 문제를 스스로 해결하는 **'지능형 지식 에이전트'**를 만드는 혁신적인 방법론을 소개합니다.

이 논문은 마치 어려운 미스터리 사건을 해결하는 탐정을 훈련시키는 과정과 비슷합니다. 기존 모델들이 단순히 책장을 넘기만 했다면, KARL은 사건 현장에 직접 가서 증거를 찾고, 추리하며, 최종적으로 정답을 찾아내는 법을 배웠습니다.


1. 🕵️‍♂️ 왜 'KARL'이 필요한가요? (배경)

지금까지의 AI 모델들은 주로 기억에 의존했습니다. 하지만 현실 세계의 기업 데이터나 최신 뉴스는 AI가 훈련할 때 알 수 없는 경우가 많습니다. 이를 'Grounded Reasoning(근거 기반 추론)이라고 합니다.

  • 기존 방식: "내 기억에 그런 게 있었나?" (잘못 기억하면 틀림)
  • KARL 의 방식: "자, 검색해서 증거를 찾아보자. 그리고 그 증거를 바탕으로 답을 도출하자."

하지만 이 방식은 매우 어렵습니다. 마치 미로를 헤매는 것과 같기 때문입니다. 너무 많은 정보를 찾으면 혼란스럽고, 너무 적으면 답을 못 찾습니다.

2. 🏋️‍♂️ KARL 을 어떻게 훈련시켰나요? (핵심 4 가지)

연구팀은 KARL 을 훈련시키기 위해 4 가지 독특한 방법을 사용했습니다.

KARLBench: 6 가지 다른 '미로' 테스트

단순히 한 가지 문제만 푸는 게 아니라, 6 가지 완전히 다른 유형의 미로에서 훈련시켰습니다.

  • 비유: 한 명에게 수학 문제, 요리 레시피, 법률 문서, 의료 기록, 기술 매뉴얼, 회사 내부 메모를 모두 분석하게 한 뒤, 어떤 상황에서도 답을 찾아내게 만든 것입니다.
  • 효과: 한 가지에만 특화된 '전문가'가 아니라, 어떤 상황에서도 대처할 수 있는 '만능 탐정'이 되었습니다.

스스로 문제를 만들어내는 '지능형 합성'

좋은 문제를 만들기 위해 사람이 일일이 질문을 만들지 않았습니다. 대신 KARL 이 스스로 질문을 만들고, 스스로 답을 찾아보고, 그 답이 맞는지 검증하는 과정을 반복했습니다.

  • 비유: 요리사가 스스로 새로운 레시피를 개발하고, 그 레시피로 요리를 해본 뒤, "이게 맛있는가?"를 스스로 평가하며 레시피를 고쳐나가는 것과 같습니다. 이렇게 만든 데이터는 훨씬 더 어렵고 현실적입니다.

③ **실수에서 배우는 '반복 훈련 **(RL)

기존에는 AI 가 한 번 실수하면 그 데이터를 버리거나, 실시간으로 계속 훈련해야 했습니다. 하지만 KARL 은 대량의 데이터를 한 번에 모아, 실수한 부분과 성공한 부분을 비교하며 효율적으로 학습합니다.

  • 비유: 축구 선수가 경기 영상을 수십 번 돌려보며 "여기서 패스를 잘못했다", "저기서 골을 넣었다"를 분석하고, 다음 경기에서 바로 적용하는 방식입니다.

여러 업무를 동시에 수행하는 '멀티태스킹'

특정 업무 (예: 의학 문서 검색) 만 잘하는 게 아니라, 여러 업무 (의학, 법률, 기술 등) 를 동시에 학습하게 했습니다.

  • 비유: 한 명의 의사가 수술만 잘하는 게 아니라, 진료, 약 처방, 환자 상담까지 모두 잘하는 '슈퍼 의사'가 된 것입니다.

3. 🚀 결과: 어떻게 다른가요? (성능)

KARL 은 기존 최강의 AI 들 (Claude 4.6, GPT 5.2 등) 과 비교했을 때 압도적인 효율성을 보여줍니다.

  • **비용 **(Cost) 같은 품질의 답을 내는데, 비용은 훨씬 적게 듭니다. (비유: 고급 레스토랑에서 같은 요리를 먹는데, KARL 은 패스트푸드점 가격에 제공합니다.)
  • **속도 **(Latency) 답을 찾는 속도가 훨씬 빠릅니다.
  • 정확도: 훈련받지 않은 새로운 유형의 문제 (Out-of-Distribution) 에서도 뛰어난 성능을 발휘합니다.

그림 1을 보면, KARL 은 가장 낮은 비용과 가장 빠른 속도로 가장 높은 점수를 받는 **'최적의 지점 **(Pareto Frontier)에 위치해 있습니다.

4. 🧩 재미있는 발견: '생각의 확장'

KARL 은 단순히 더 많이 '암기'한 것이 아니라, 문제를 해결하는 방식이 변했습니다.

  • 기존 모델: 정보를 찾으면 바로 답을 내놓거나, 정보가 부족하면 포기합니다.
  • KARL: 정보를 찾은 후, "이 정보가 맞는지 다시 한번 확인해볼까?"(Verification)라는 행동을 합니다. 필요하면 여러 번 검색하고, 정보를 종합하여 더 정확한 답을 만듭니다.
  • **병렬 사고 **(Parallel Thinking) 한 번에 여러 가지 시나리오를 동시에 생각해보고, 그중 가장 좋은 답을 골라냅니다. 마치 탐정이 "A 가 범인일 수도 있고, B 일 수도 있으니 두 가지 시나리오를 모두 검토해보자"는 식입니다.

5. 💡 결론: 왜 이것이 중요한가요?

KARL 은 "인공지능이 단순히 지식을 말하는 것을 넘어, 실제로 문제를 해결하는 도구로 진화했다"는 것을 보여줍니다.

  • 기업용: 회사의 방대한 문서, 회의록, 기술 매뉴얼에서 필요한 정보를 찾아내고 보고서까지 작성해줍니다.
  • 비용 효율성: 비싼 AI 모델을 계속 쓸 필요 없이, KARL 같은 효율적인 에이전트로도 최고의 성능을 낼 수 있습니다.

한 줄 요약:

KARL 은 "검색하고, 추리하고, 검증하는" 능력을 스스로 배운 AI 탐정으로, 기존 AI 들보다 훨씬 저렴하고 빠르게 복잡한 현실 문제를 해결합니다.

이 기술은 앞으로 우리가 AI 와 함께 일하는 방식을 완전히 바꿀 수 있는 중요한 이정표가 될 것입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →