Adaptation of Agentic AI: A Survey of Post-Training, Memory, and Skills

본 논문은 사전 학습 이후 에이전트와 도구의 적응을 포괄하는 4 가지 패러다임 (A1, A2, T1, T2) 프레임워크를 제시하며, 후학습, 메모리, 기술 시스템에 대한 연구 동향을 통합적으로 분석하고 평가 기준 및 향후 과제를 정리합니다.

Pengcheng Jiang, Jiacheng Lin, Zhiyi Shi, Zifeng Wang, Luxi He, Yichen Wu, Ming Zhong, Peiyang Song, Qizheng Zhang, Heng Wang, Xueqiang Xu, Hanwen Xu, Pengrui Han, Dylan Zhang, Jiashuo Sun, Chaoqi Yang, Kun Qian, Tian Wang, Changran Hu, Manling Li, Quanzheng Li, Hao Peng, Sheng Wang, Jingbo Shang, Chao Zhang, Jiaxuan You, Liyuan Liu, Pan Lu, Yu Zhang, Heng Ji, Yejin Choi, Dawn Song, Jimeng Sun, Jiawei Han

게시일 Tue, 10 Ma
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"인공지능 에이전트 **(AI 에이전트)에 대한 거대한 지도를 그려낸 연구입니다.

과거의 AI 는 단순히 "질문하면 답해주는" 챗봇 수준이었습니다. 하지만 요즘 AI 는 **도구를 사용하고, 기억을 더하며, 스스로 계획을 세워 복잡한 일을 해결하는 '에이전트'**로 진화하고 있습니다. 이 논문은 이런 AI 가 더 똑똑해지기 위해 어떤 방식을 취하는지 4 가지 유형으로 나누어 정리했습니다.

이 복잡한 내용을 **가상의 '요리사 **(AI)로 비유해서 쉽게 설명해 드릴게요.


🍳 핵심 비유: "요리사 (AI) 와 주방 도구들"

여기서 AI 에이전트는 요리를 하는 주방장이고, 도구는 칼, 냄비, 레시피 책, 냉장고 같은 주방 용품들입니다.
이제 이 주방장이 더 훌륭한 요리를 하려면 어떻게 해야 할까요? 두 가지 큰 길이 있습니다.

  1. **주방장 **(AI)
  2. **도구 **(Tool)

논문은 이 두 가지 길에서 신호 (피드백) 가 어디에서 오는지에 따라 4 가지 전략을 정의했습니다.


🧭 4 가지 적응 전략 (The 4 Paradigms)

1. A1: "칼질 실력"을 도구 결과로 배우기 (Tool Execution Signaled)

  • 상황: 주방장이 칼을 들고 채소를 썰어요.
  • 학습 방식: "아, 이 채소가 잘게 잘렸네! (도구 실행 성공)" 혹은 "아, 칼이 미끄러져서 손가락을 다쳤네 (실패)"라는 도구의 직접적인 결과를 보고 배우는 것입니다.
  • 예시: 코드를 짜서 실행했을 때 "오류가 없다"는 메시지가 나오면 "잘했다"고 배우는 방식입니다.
  • 장점: 매우 구체적이고 정확한 피드백을 받아 실력이 빠르게 늡니다.
  • 단점: 전체적인 요리 (문제 해결) 가 잘 됐는지보다는, 도구 사용법 (칼질) 에만 집중할 수 있습니다.

2. A2: "요리 완성도"로 배우기 (Agent Output Signaled)

  • 상황: 주방장이 모든 재료를 다 넣고 요리를 완성합니다.
  • 학습 방식: "음, 이 요리를 먹어보니 맛이 있네! (최종 결과 성공)" 혹은 "맛이 없네 (실패)"라는 최종 결과를 보고 배우는 것입니다.
  • 예시: 검색을 여러 번 하고 최종 답변을 냈을 때, 그 답변이 정답이면 "잘했다"고 배우는 방식입니다.
  • 장점: 도구 사용법뿐만 아니라 '언제 도구를 써야 할지', '어떻게 조합할지' 같은 **큰 그림 **(전략)을 배웁니다.
  • 단점: "왜 실패했지?"를 알기 어렵습니다. (칼질 실력 때문일까, 레시피 때문일까?) 학습에 많은 데이터와 시간이 필요합니다.

3. T1: "만능 도구"를 미리 준비하기 (Agent-Agnostic Tool Adaptation)

  • 상황: 주방장은 그대로 두고, 주방 용품 자체를 업그레이드합니다.
  • 학습 방식: 어떤 주방장이 쓰든 상관없이, 칼이 더 날카롭고 냄비가 더 잘 끓이도록 도구 자체를 훈련시킵니다.
  • 예시: "검색 엔진"이라는 도구를 AI 가 쓰든 사람이 쓰든 더 정확하게 정보를 찾아오도록 미리 훈련해 두는 것입니다.
  • 장점: 주방장 (AI) 을 바꿀 필요 없이 도구만 갈아끼면 되니 비용이 적게 듭니다.
  • 단점: 특정 주방장의 스타일에 맞춰진 것은 아닙니다.

4. T2: "주방장에게 맞춰진 도구"를 만들기 (Agent-Supervised Tool Adaptation)

  • 상황: 주방장은 그대로 두고, 그 주방장에게 딱 맞는 도구를 만듭니다.
  • 학습 방식: "이 주방장은 칼을 쓸 때 힘이 약하네, 그래서 이 칼을 더 가볍게 만들어야겠다"처럼, 고정된 주방장의 행동을 보고 도구를 최적화합니다.
  • 예시: AI 가 검색을 잘 못하면, AI 가 "이런 정보를 원해"라고 알려주는 신호를 받아 검색 엔진 (도구) 이 그 AI 에게 딱 맞는 결과를 찾도록 훈련시킵니다.
  • 장점: 데이터 효율이 매우 좋습니다. AI 전체를 다시 가르치지 않아도, 작은 도구만 훈련하면 AI 의 성능이 비약적으로 좋아집니다.
  • 단점: 그 도구로 다른 주방장 (다른 AI) 을 쓰면 효과가 떨어질 수 있습니다.

💡 이 논문이 우리에게 알려주는 중요한 점들

  1. 무엇을 고칠지 정하는 것이 중요해요:

    • "칼질 실력"이 부족하면 A1(도구 실행 신호)으로 훈련하세요.
    • "어떻게 요리할지 전략"이 부족하면 A2(최종 결과 신호)로 훈련하세요.
    • "도구 자체가 나빠서"라면 T1(만능 도구)을 쓰세요.
    • "내 AI 에게 딱 맞는 도구"가 필요하다면 T2(맞춤형 도구)가 가장 효율적입니다.
  2. T2 가 대세일 수 있어요:

    • AI 전체를 다시 훈련시키는 (A1/A2) 것은 비용이 너무 많이 듭니다.
    • 대신 **작은 도구 **(T2)만 훈련시켜서 AI 가 더 똑똑하게 일하게 하는 방식이 데이터도 적게 들고, 비용도 절약되면서 성능은 비슷하거나 더 좋습니다. (예: 검색 에이전트만 훈련시켜서 AI 의 검색 능력을 70 배 더 효율적으로 만든 사례)
  3. **기억과 기술 **(Skills)

    • AI 가 경험을 쌓아 '기억'을 만들거나, 반복되는 작업을 '기술 (Skill)'로 저장해 두는 것도 결국 T2(도구 적응)의 일종입니다. AI 는 변하지 않고, 그 기억과 기술만 업데이트되는 것이죠.
  4. 미래는 '함께 진화'하는 것:

    • 앞으로는 AI(주방장) 와 도구(주방용품) 가 서로를 보고 함께 진화하는 **공동 적응 **(Co-adaptation) 시대가 올 것입니다. 하지만 지금은 한쪽을 고정하고 다른 쪽을 훈련시키는 방식이 더 안전하고 효율적입니다.

🎯 한 줄 요약

"AI 를 더 똑똑하게 만들려면, AI 자체를 무식하게 훈련시키기보다, AI 가 쓰는 '도구'와 '기억'을 AI 에게 맞춰서 똑똑하게 만들어주는 것이 훨씬 빠르고 경제적이다."

이 논문은 바로 그 '도구와 기억을 어떻게 최적화할지'에 대한 최고의 가이드북입니다.