HiMAC: Hierarchical Macro-Micro Learning for Long-Horizon LLM Agents

이 논문은 장기적 작업에서 구조적 계획과 실행을 명확히 분리하고 계층적 상대적 이점 추정 및 공진화 학습 전략을 도입한 강화학습 프레임워크 'HiMAC'을 제안하여, 기존 평면적 접근법의 한계를 극복하고 다양한 환경에서 최첨단 성능과 높은 샘플 효율성을 달성했음을 보여줍니다.

Hongbo Jin, Rongpeng Zhu, Jiayu Ding, Wenhao Zhang, Ge Li

게시일 2026-03-03
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

HiMAC: 거인의 두뇌와 일꾼을 분리하다 (HiMAC: 거인의 두뇌와 일꾼을 분리하다)

안녕하세요! 오늘 소개해 드릴 논문은 **"HiMAC"**이라는 새로운 인공지능 기술을 다룹니다. 이 기술은 거대한 언어 모델 (LLM) 이 아주 길고 복잡한 일을 할 때, 실수를 줄이고 훨씬 똑똑하게 행동할 수 있게 해줍니다.

비유를 들어 쉽게 설명해 드릴게요.


1. 문제: "혼란스러운 한 명의 사령관"

기존의 인공지능 에이전트들은 한 명의 사령관이 모든 일을 혼자 하려고 했습니다.

  • 상황: "여행 계획을 세워줘. 항공권 예매하고, 호텔 예약하고, 현지 투어까지 다 해줘."
  • 기존 방식: 사령관이 머릿속으로 "일단 항공권부터..."라고 생각하다가, "아, 호텔도 봐야지"라고 생각하다가, "그런데 날씨가 어떨까?"라고 고민하다가, "아, 항공권 예매할 때 실수했네!"라고 깨닫습니다.
  • 결과: 생각 (고려) 과 행동 (실행) 이 한 번에 섞여 있으니까, 작은 실수 하나가 커다란 재앙으로 이어집니다. "항공권을 잘못 예매해서" 호텔 예약도 실패하고, 전체 여행 계획이 무너져 버리는 거죠. 이를 **'오류의 연쇄 반응'**이라고 합니다.

2. 해결책: HiMAC (거인의 두뇌 vs 일꾼)

HiMAC 는 이 문제를 해결하기 위해 역할을 명확히 나눕니다. 마치 거대한 건설 현장에서 **설계사 (Macro)**와 **현장 일꾼 (Micro)**을 따로 두는 것과 같습니다.

  • Macro (설계사/두뇌):

    • 역할: 거시적인 **청사진 (Blueprint)**을 그립니다.
    • 행동: "일단 항공권 예매하고, 다음에 호텔 예약하고, 그다음에 택시 잡기"처럼 큰 단계만 생각합니다. 구체적인 행동은 생각하지 않습니다.
    • 장점: 전체적인 방향을 잃지 않고, 큰 그림을 그릴 수 있습니다.
  • Micro (현장 일꾼/손):

    • 역할: 설계사가 준 작은 목표만 집중해서 실행합니다.
    • 행동: "항공권 예매"라는 지시를 받으면, 그 일만 끝낼 때까지 집중합니다. "호텔은 나중에 생각하자"라고 잊어버립니다.
    • 장점: 지금 당장의 일에만 집중하므로 실수가 적고, 한 단계가 끝나면 다음 단계로 넘어갑니다.

핵심 비유:
기존 방식은 한 사람이 "항공권 예매하러 가다가, 문 앞에서 멈춰서 '아, 호텔도 가야지'라고 생각하다가, 다시 돌아와서 '아, 항공권이 뭐였지?'라고 잊어버리는" 상황입니다.
HiMAC 는 한 사람은 "항공권 예매, 호텔, 택시"라는 메모지를 만들고, 다른 사람은 그 메모지를 하나씩 꺼내서 "항공권 예매"만 끝내고 메모지를 넘기는 방식입니다.

3. 어떻게 훈련시킬까? (스스로 배우는 파트너십)

이렇게 두 역할을 나누면 훈련이 어렵습니다. 설계사가 너무 어려운 일을 지시하면 일꾼이 못 하고, 일꾼이 못 하면 설계사가 자기가 잘못한 줄 알기 때문입니다.

HiMAC 는 이를 해결하기 위해 두 가지 똑똑한 훈련법을 사용합니다.

  1. 점수판 없는 경쟁 (Critic-Free):

    • 보통은 "이게 좋은 계획이다, 나쁜 계획이다"라고 점수를 매겨주는 심판 (Critic) 이 필요합니다. 하지만 언어는 점수를 매기기 어렵습니다.
    • HiMAC 는 여러 개의 계획 (Blueprint) 을 동시에 만들어서 서로 비교합니다. "A 계획이 B 계획보다 더 잘됐네?"라고 서로 비교해서 점수를 매깁니다. 심판 없이도 누가 더 잘했는지 알 수 있게 된 거죠.
  2. 함께 성장하는 훈련 (Co-Evolution):

    • 1 단계 (설계사 훈련): 일꾼은 고정된 상태로, 설계사만 "어떤 계획이 일꾼이 잘 수행할 수 있을까?"를 고민하게 합니다.
    • 2 단계 (일꾼 훈련): 설계사가 만든 가장 좋은 계획 하나를 고정해두고, 일꾼만 "이 계획을 어떻게 더 잘 수행할까?"를 훈련합니다.
    • 이 과정을 반복하면, 일꾼이 실력이 늘면 설계사는 더 복잡한 계획을 짜고, 설계사가 더 좋은 계획을 짜면 일꾼은 더 어려운 일을 해내는 선순환이 생깁니다.

4. 실제 성과: 무엇이 달라졌나요?

이 기술을 적용한 결과, 인공지능은 다음과 같은 놀라운 변화를 보였습니다.

  • 오류가 쌓이지 않음: 작은 실수가 전체를 망치는 일이 사라졌습니다.
  • 더 적은 노력으로 더 좋은 결과: 같은 일을 하더라도 훨씬 적은 데이터 (훈련 시간) 로 더 높은 성적을 냈습니다.
  • 스스로 점검하는 능력: 훈련이 끝난 후, 설계사는 스스로 "내가 이 계획을 제대로 세웠는지 확인해 봐야겠다"라고 생각하며 스스로 검증하는 행동을 보였습니다. (기존 방식에서는 전혀 없던 능력입니다.)

5. 결론: "크기"보다 "구조"가 중요하다

이 논문의 가장 중요한 메시지는 **"인공지능을 더 크게 만드는 것 (모델 크기 증가) 만으로는 부족하다"**는 것입니다.

오히려 **생각하는 방식 (구조)**을 바꾸는 것이 훨씬 중요합니다. 거대한 두뇌가 모든 것을 한 번에 처리하려 하지 말고, 큰 그림을 그리는 사람과 작은 일을 처리하는 사람을 나누는 것이, 인공지능이 복잡한 현실 세계의 문제를 해결하는 열쇠라는 것입니다.

한 줄 요약:

HiMAC 는 인공지능에게 "한 번에 다 하려 하지 말고, 큰 계획과 작은 실행을 나누어 생각하라"고 가르쳐서, 복잡한 길에서도 길을 잃지 않게 만든 똑똑한 훈련법입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →