XSkill: Continual Learning from Experience and Skills in Multimodal Agents

이 논문은 멀티모달 에이전트가 매개변수 업데이트 없이 과거 경험을 바탕으로 지속적으로 학습할 수 있도록 시각적 관찰에 기반한 경험과 기술이라는 두 가지 상보적 지식 스트림을 통합한 'XSkill' 프레임워크를 제안하고, 다양한 벤치마크에서 기존 방법들을 크게 능가하는 성능을 입증합니다.

Guanyu Jiang (May), Zhaochen Su (May), Xiaoye Qu (May), Yi R. (May), Fung

게시일 2026-03-13
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

XSKILL: 멀티모달 에이전트의 '경험'과 '기술'을 배우는 혁신적인 방법

이 논문은 인공지능 에이전트 (특히 이미지와 텍스트를 모두 이해하는 AI) 가 어떻게 더 똑똑하고 유연하게 문제를 해결할 수 있는지에 대한 새로운 접근법을 소개합니다.

기존의 AI 는 매번 새로운 문제를 만나면 처음부터 다시 고민하거나, 단순히 도구 (이미지 편집, 검색 등) 만 나열하는 데 그쳤습니다. 하지만 XSKILL은 인간처럼 "과거의 실수와 성공에서 배우는" 방식을 도입했습니다.

이걸 쉽게 이해할 수 있도록 요리사요리 학교에 비유해 설명해 드릴게요.


🍳 비유: 요리사 (AI 에이전트) 와 요리 학교 (XSKILL)

상상해 보세요. 훌륭한 요리사 (AI) 가 있습니다. 하지만 이 요리사는 두 가지 큰 문제가 있습니다.

  1. 비효율적인 도구 사용: 간단한 요리를 하려고도 불을 너무 오래 켜거나, 재료를 잘못 고르는 실수를 합니다.
  2. 유연성 부족: 레시피가 조금만 바뀌어도 당황해서 요리를 망칩니다.

이제 XSKILL이라는 특별한 요리 학교가 이 요리사를 도와줍니다. 이 학교는 두 가지 종류의 지식을 저장합니다.

1. '기술 (Skills)' = 완성된 레시피북 📖

  • 무엇인가요? 특정 요리를 만드는 체계적인 절차입니다. 예를 들어, "생선 구이 만들기"라는 레시피북에는 생선을 손질하는 순서, 양념을 바르는 법, 굽는 시간 등이 단계별로 적혀 있습니다.
  • 역할: AI 가 복잡한 문제를 해결할 때, "어떤 순서로 도구를 써야 할지" 큰 그림을 잡아줍니다.
  • 예시: "이미지가 뒤집혀 있다면 먼저 회전시키고, 그다음 잘라내서 검색하라"는 **작업 흐름 (Workflow)**을 알려줍니다.

2. '경험 (Experiences)' = 요리사의 팁과 요령 💡

  • 무엇인가요? 레시피에는 없는 실전 꿀팁입니다. "생선 비늘을 벗길 때 칼을 너무 세게 대면 살이 찢어지니까 조심해라"거나, "이미지가 어두우면 밝기를 먼저 조절해야 잘 보인다" 같은 구체적인 상황별 조언입니다.
  • 역할: AI 가 실시간으로 결정을 내릴 때, "지금 이 상황에서 어떤 행동을 취해야 할지" 즉각적인 도움을 줍니다.
  • 예시: "검색 결과가 안 나오면, 원래 이미지를 바로 검색하지 말고 먼저 자른 부분을 검색해 봐라" 같은 전술적 지식입니다.

🔄 XSKILL 이 어떻게 작동할까요? (학습 사이클)

XSKILL 은 AI 가 문제를 풀 때마다 두 단계를 반복하며 지식을 쌓아갑니다.

1 단계: 지식 모으기 (축적 단계) 📚

AI 가 문제를 풀 때 여러 번 시도해 봅니다 (Rollout).

  • 성공한 경우: "어떻게 성공했지?"를 분석해 **레시피 (기술)**를 정리하고, **팁 (경험)**을 추출합니다.
  • 실패한 경우: "왜 실패했지?"를 분석합니다. "아, 이미지를 회전시키지 않아서 못 봤구나!"라는 실패 원인을 기록합니다.
  • 중요한 점: 이 모든 분석은 **이미지 (시각적 정보)**를 보고 이루어집니다. 단순히 글자만 읽는 게 아니라, "이미지가 어두워서 실패했다"는 것을 시각적으로 파악합니다.

2 단계: 문제 해결하기 (추론 단계) 🛠️

새로운 문제가 주어지면, AI 는 다음과 같이 행동합니다.

  1. 검색: 현재 문제와 비슷한 **레시피 (기술)**와 **팁 (경험)**을 찾아옵니다.
  2. 적응: 찾아온 지식을 현재 상황에 맞게 수정합니다. (예: "이 레시피는 일반적인 생선용인데, 지금 건어물이니 이 부분만 수정해야겠다.")
  3. 실행: 수정된 지식을 바탕으로 도구를 사용하고 문제를 해결합니다.
  4. 피드백: 이번 시도에서 무엇을 썼는지 기록해, 다음에 더 잘 쓸 수 있도록 지식창고를 업데이트합니다.

🌟 왜 이것이 중요한가요?

기존의 AI 는 "도구만 주면 스스로 잘할 거야"라고 믿고 있었지만, 실제로는 도구를 어떻게 쓸지 몰라 헤매거나 같은 실수를 반복했습니다.

XSKILL 의 핵심 성과는 다음과 같습니다:

  • 학습 없이도 성장: AI 의 두뇌 (모델 파라미터) 를 다시 훈련시킬 필요 없이, 지식창고만 업데이트하면 성능이 계속 좋아집니다.
  • 시각적 이해: 이미지 속의 작은 디테일 (어두운 그림자, 뒤집힌 글자 등) 을 보고 실수를 예방합니다.
  • 유연한 대응: 단순히 레시피를 따르는 게 아니라, 상황 (팁) 에 따라 유연하게 도구를 조합합니다.

📊 실제 결과

이 방법은 다양한 테스트 (이미지 분석, 웹 검색, 복잡한 추론 등) 에서 기존 최고의 AI 들보다 훨씬 더 높은 정확도를 보였습니다. 특히, 한 번 배운 지식을 다른 새로운 문제에도 잘 적용하는 범용성이 뛰어났습니다.

🎯 결론

XSKILL 은 AI 에게 **"단순히 도구를 주는 것"을 넘어, "도구를 어떻게 쓸지 가르치는 경험과 기술"**을 제공합니다. 마치 초보 요리사가 명품 요리사에게 레시피와 실전 팁을 모두 배워, 어떤 재료가 들어와도 완벽하게 요리를 해내는 것과 같습니다.

이 기술은 AI 가 인간처럼 경험에서 배우고, 실수를 반복하지 않으며, 더 유연하게 사고하는 진정한 '지능'을 갖는 중요한 디딤돌이 될 것입니다.