Reinforcement Learning with Symbolic Reward Machines

이 논문은 환경의 표준 출력만 직접 처리하여 기존 보상 기계 (RMs) 의 수동 레이블링 의존성을 해결하고, 동시에 기존 방법과 동등한 성능과 해석 가능성을 제공하는 '상징적 보상 기계 (SRMs)'와 이를 학습하는 알고리즘을 제안합니다.

Thomas Krug, Daniel Neider

게시일 2026-03-04
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제 상황: "무슨 일이 일어났는지"를 모른 채 배우는 AI

기존의 AI(강화 학습) 는 마치 장난감 자동차처럼 생겼습니다.

  • 상황: 자동차가 벽에 부딪히면 "아프다 (보상 -1)"라고 하고, 길을 잘 가면 "좋다 (보상 +1)"라고 합니다.
  • 한계: 이 자동차는 지금 당장 부딪혔는지, 잘 갔는지만 봅니다. 과거의 기억을 가지고 있지 못합니다.
  • 실제 문제: 현실 세계는 훨씬 복잡합니다. 예를 들어, "나무를 베어서 (1 단계), 나무를 트럭에 싣고 (2 단계), 공장으로 가져가라 (3 단계)"라는 미션을 줬을 때, AI 는 1 단계에서 나무를 베는 것만 보고 보상을 받으면, 2, 3 단계를 어떻게 해야 할지 모릅니다. 과거의 순서 (기억) 를 알지 못하면 미션을 완수할 수 없습니다.

2. 기존 해결책: "수동 라벨링"이라는 귀찮은 작업

기존의 해결책 (Reward Machines) 은 AI 에게 비서를 붙여주는 방식이었습니다.

  • 비유: AI 가 "나무를 베었다"고 하면, 비서가 "아, 이건 1 단계 완료야!"라고 적어주면 AI 가 그걸 보고 다음 행동을 정합니다.
  • 문제점: 이 비서를 만들려면 사람이 직접 모든 상황을 일일이 정의해줘야 합니다. "나무를 베는 순간 A 라는 라벨을 붙여라", "트럭에 싣는 순간 B 라벨을 붙여라"라고 말입니다.
  • 결론: 환경이 조금만 바뀌어도 비서를 다시 만들어야 해서, 실제로 쓰기가 매우 번거롭고 비효율적이었습니다.

3. 이 논문의 혁신: "눈을 가진 AI" (Symbolic Reward Machines)

이 논문은 **"비서 없이도 AI 가 스스로 상황을 이해하게 하자"**는 아이디어를 제시합니다. 바로 **상징적 보상 기계 (SRM)**입니다.

🌟 핵심 비유: "수첩과 규칙"

기존 방식이 "사람이 말해주면 AI 가 따르는" 방식이었다면, 이 새로운 방식은 AI 가 스스로 수첩에 규칙을 적어두고 상황을 판단하는 방식입니다.

  • 기존 (Reward Machine): "나무를 베면 'A'라고 소리쳐라." (사람이 A 라는 라벨을 만들어줘야 함)
  • 새로운 방식 (SRM): "나무가 있는 좌표 (x, y) 가 5~10 사이면, '나무를 베었다'고 판단해라." (AI 가 환경의 숫자 자체를 보고 판단)

이 방식의 장점은 환경에 특별한 라벨을 붙일 필요가 없다는 것입니다. AI 는 환경이 주는 raw data(원시 데이터, 예: 좌표, 속도 등) 를 보고 **"이 숫자 범위에 들어오면 미션 1 단계 완료!"**라고 스스로 판단합니다.

4. 두 가지 새로운 학습 알고리즘

저자들은 이 SRM 을 활용하는 두 가지 방법을 개발했습니다.

① QSRM: "지도가 있는 여행"

  • 상황: 사용자가 미션의 규칙 (지도) 을 이미 알고 있을 때.
  • 방식: "나무를 베면 1 단계, 트럭에 싣면 2 단계"라는 규칙을 AI 에게 미리 알려줍니다. AI 는 이 규칙을 바탕으로 빠르게 미션을 완수합니다.
  • 효과: 기존 방식과 똑같은 성능을 내면서, 환경 설정을 바꿀 필요 없이 표준적인 환경에서도 바로 작동합니다.

② LSRM: "스스로 지도를 그리는 탐험가" (가장 혁신적인 부분)

  • 상황: 사용자가 미션의 규칙을 모를 때.
  • 방식: AI 가 미션을 수행하다가 "아, 내가 나무를 베고 트럭에 싣는 순서대로 했을 때 보상을 받네?"라고 스스로 깨닫습니다.
    • AI 는 실수 (보상을 못 받은 경우) 를 기록합니다.
    • 그 기록을 분석해서 **"아, 내가 틀렸구나. 나무를 베기 전에 트럭에 싣는 건 안 되는구나"**라는 규칙 (수학적 공식) 을 스스로 만들어냅니다.
  • 결과: 처음에는 아무것도 모르는 AI 가, 시행착오를 겪으며 미션의 숨겨진 규칙 (보상 구조) 을 스스로 찾아내고, 그 규칙을 사람에게도 보여줍니다.

5. 실험 결과: 얼마나 잘할까?

저자들은 '사무실 세계 (Office World)'와 '산차 (Mountain Car)' 같은 환경에서 실험했습니다.

  1. 기존 AI vs 새로운 AI: 기존 AI 는 복잡한 순서 미션에서 실패하거나 매우 느리게 배웠지만, 새로운 SRM 방식은 빠르고 정확하게 미션을 완수했습니다.
  2. 규칙 찾기 능력: LSRM 알고리즘은 사람이 규칙을 알려주지 않아도, **스스로 "나무를 먼저 베고 트럭에 싣자"는 논리 (규칙)**를 찾아냈습니다.
  3. 해석 가능성: AI 가 배운 규칙을 사람이 읽을 수 있는 형태로 보여줍니다. "왜 AI 가 저렇게 행동했지?"라고 궁금해할 때, AI 가 만든 규칙을 보면 **"아, 나무를 먼저 베야 보상을 받기 때문이구나"**라고 이해할 수 있습니다.

6. 요약: 왜 이 연구가 중요한가?

이 논문은 AI 가 복잡한 미션을 수행할 때, 사람이 일일이 "이건 A 라벨, 저건 B 라벨"이라고 가르쳐 줄 필요를 없앴습니다.

  • 기존: 사람이 AI 에게 "눈"을 만들어줘야 함 (귀찮고 비효율적).
  • 새로운 방식: AI 가 스스로 환경의 숫자를 보고 "이건 미션 1 단계야!"라고 스스로 판단하게 함.
  • 최고의 점: AI 가 스스로 미션의 규칙을 찾아내서 사람에게도 이해하기 쉬운 설명을 해줍니다.

마치 초보 운전자가 지도 없이도 길을 찾다가, 스스로 "이 길은 빨간불일 때 멈추고, 초록불일 때 가야 해"라는 규칙을 깨달아 운전 실력을 늘리는 것과 같습니다. 이제 AI 는 더 이상 사람의 손길을 덜 필요로 하고, 스스로 복잡한 일을 배울 수 있게 되었습니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →