Synthesizing Interpretable Control Policies through Large Language Model Guided Search

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"로봇을 어떻게 하면 사람이 이해하고 수정할 수 있는 '명확한' 방식으로 가르칠 수 있을까?"**라는 질문에 대한 새로운 해법을 제시합니다.

기존의 인공지능 (AI) 은 마치 마법상자와 같았습니다. 우리는 상자 안에 데이터를 넣고 로봇을 움직이게 했지만, 상자 안에서 무슨 일이 일어나는지 (왜 저렇게 움직이는지) 는 알 수 없었습니다. 이를 '블랙박스 (Black Box)'라고 부르죠.

이 논문은 그 마법상자를 깨고, 대신 **사람이 직접 읽고 수정할 수 있는 '명령서 (코드)'**를 만들어내는 방법을 제안합니다.

이 과정을 쉽게 이해할 수 있도록 **요리사 (AI)**와 **요리 레시피 (제어 정책)**에 비유해 설명해 드릴게요.

🍳 핵심 아이디어: "요리 레시피를 진화시키는 AI"

1. 문제: 마법 같은 요리사 (기존 AI)

기존의 AI 기반 로봇 제어는 완벽한 요리사를 고용하는 것과 비슷합니다. 이 요리사는 수만 번의 시도를 통해 최고의 요리를 만들어내지만, "왜 이 재료를 넣었는지", "왜 이 순서로 요리했는지"를 설명할 수 없습니다. 만약 요리에 문제가 생겼을 때, 우리는 "아, 그 요리사가 이상하네"라고만 생각할 뿐, 레시피를 고쳐서 다시 만들 수는 없습니다.

2. 해결책: "레시피를 직접 고쳐주는 AI" (이 논문의 방법)

이 연구는 AI 를 '요리사'가 아니라 **'레시피 작성 보조 도구'**로 바꿉니다.

목표: 로봇이 pendulum (진자) 을 일으키거나, 공을 컵에 넣는 등의 복잡한 작업을 하도록 **사람이 읽을 수 있는 레시피 (Python 코드)**를 만드는 것입니다.
방법: AI 가 처음에 엉뚱한 레시피를 여러 개 만들어냅니다. 그중에서 실제로 작동하는 레시피를 **시뮬레이션 (가상 실험)**으로 테스트해 봅니다.
진화: 잘 작동한 레시피들을 AI 에게 보여주고, "이걸 더 잘 고쳐봐"라고 요청합니다. AI 는 이전의 좋은 레시피들을 참고하여 더 나은 레시피를 만들어냅니다. 이 과정을 반복하면 점점 더 똑똑하고 명확한 레시피가 완성됩니다.

🔄 작동 원리: 4 단계 요리 대회

이 과정은 마치 요리 레시피 경연대회를 치르는 것과 같습니다.

초안 작성 (생성): AI 가 "진자를 일으키는 레시피"를 몇 개 만들어냅니다. (처음엔 엉망일 수도 있습니다.)
실전 테스트 (평가): 이 레시피들을 가상 세계 (시뮬레이션) 에서 실행해 봅니다. 진자가 잘 일어났나요? 공이 컵에 들어갔나요? 점수를 매깁니다.
선별과 피드백 (선택): 점수가 낮은 레시피는 폐기하고, 점수가 높은 레시피들을 모아 AI 에게 보여줍니다. "이 레시피들을 참고해서 더 좋은 걸 만들어줘"라고 말합니다.
반복 (진화): 이 과정을 수천 번 반복하면, AI 는 점점 더 효율적이고 사람이 이해할 수 있는 간결한 레시피를 찾아냅니다.

🌟 왜 이것이 특별한가요? (장점)

이 방법의 가장 큰 장점은 **투명성 (Transparency)**과 수정 가능성입니다.

이해할 수 있습니다: 완성된 레시피는 사람이 읽는 프로그래밍 언어 (Python) 로 되어 있습니다. "진자가 45 도 이하로 기울면 왼쪽으로 밀고, 그 이상이면 오른쪽으로 당겨라"처럼 논리가 명확하게 적혀 있습니다.
수정할 수 있습니다: 만약 로봇이 너무 급하게 움직인다면, 엔지니어는 AI 가 만든 레시피를 보고 "여기서 힘 조절 수치를 조금만 줄여라"라고 직접 수정할 수 있습니다. 마치 요리 레시피의 '소금 양'을 조절하듯이요.
안전합니다: 블랙박스 AI 는 예측 불가능한 실수를 할 수 있지만, 이 방식은 사람이 만든 레시피를 기반으로 하므로 실수가 발생했을 때 원인을 쉽게 파악하고 수정할 수 있습니다.

🎮 실제 사례: 진자 흔들기 & 공 잡기

논문에서는 두 가지 실험을 통해 이 방법을 증명했습니다.

진자 흔들기 (Pendulum Swing-up):
- 진자가 아래로 처져 있을 때, 위쪽으로 일으켜 세우는 작업입니다.
- AI 가 찾아낸 레시피는 매우 간단했습니다. "진자가 너무 기울어지면 힘껏 밀고, 거의 세워졌을 때는 부드럽게 조절해라"라는 두 가지 간단한 규칙으로 이루어져 있었습니다.
컵에 공 넣기 (Ball in Cup):
- 컵을 움직여서 공을 잡는 작업입니다.
- AI 가 만든 레시피를 사람이 직접 보고, "공이 컵 옆에 닿으면 살짝 아래로 내려가라"는 직관적인 수정을 추가했습니다. 그 결과, 공을 잡는 성공률이 훨씬 높아졌습니다.

💡 결론: AI 와 인간의 완벽한 파트너십

이 논문은 **"AI 가 아이디어를 내고, 인간이 그것을 검증하고 다듬는다"**는 새로운 패러다임을 보여줍니다.

기존의 AI 는 우리가 이해할 수 없는 '마법'을 부렸다면, 이 방법은 AI 를 가장 똑똑한 조수로 활용합니다. AI 가 수많은 레시피 후보를 만들어내고, 인간이 그중에서 가장 안전하고 논리적인 것을 선택하거나 직접 고쳐서 최종적인 로봇 제어 시스템을 만듭니다.

이처럼 **사람이 이해할 수 있는 언어 (코드)**로 로봇을 제어하면, 우리는 더 안전하고 신뢰할 수 있는 로봇을 우리 삶에 받아들일 수 있게 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

논문 요약: 대규모 언어 모델 (LLM) 기반 탐색을 통한 해석 가능한 제어 정책 합성

1. 문제 정의 (Problem)

제어 시스템과 인공지능 (AI) 의 통합은 실용적 가치가 크지만, 기존의 학습 기반 제어 기법 (특히 신경망 기반) 은 '블랙박스 (Black-box)' 특성으로 인해 투명성과 검증 가능성이 부족하다는 치명적인 한계가 있습니다. 안전이 필수적인 제어 응용 분야에서는 시스템의 실패 원인을 파악하고 논리를 이해할 수 있어야 하지만, 복잡한 가중치 행렬을 가진 신경망은 이를 어렵게 만듭니다. 또한, 기존 방법들은 주로 매개변수 공간 (예: 신경망 가중치) 에서 최적화를 수행하므로, 생성된 정책이 인간이 이해하거나 수정하기 어렵습니다.

이 논문은 **해석 가능성 (Interpretability)**과 **검증 가능성 (Verifiability)**을 보장하면서도 복잡한 동적 시스템에 대한 고성능 제어 정책을 자동으로 생성하는 새로운 방법을 제안합니다.

2. 방법론 (Methodology)

저자들은 제어 정책을 표준 프로그래밍 언어 (Python) 로 작성된 프로그램으로 표현하고, 이를 대규모 언어 모델 (LLM) 과 진화 알고리즘을 결합하여 최적화하는 프레임워크를 개발했습니다.

핵심 아이디어: 제어 정책 $u_t = h(x_t)$ 를 신경망이 아닌 Python 코드 (policy(xt)) 로 직접 표현합니다.
시스템 아키텍처 (Fig. 1 참조):
1. 명세 파일 (Specification): 작업 설명, 평가 함수 (시뮬레이션 기반 점수 부여), 초기 스타터 코드를 포함합니다.
2. 프롬프트 구성 (Prompt Construction): 현재까지 발견된 가장 성능이 좋은 프로그램들 (또는 초기 코드) 을 LLM 에게 입력하여 개선된 버전을 생성하도록 지시합니다.
3. 프로그램 생성 (Program Generation): 사전 훈련된 코드 생성 LLM (StarCoder2-Instruct) 이 프롬프트를 기반으로 새로운 제어 프로그램 후보를 생성합니다. 이는 진화 알고리즘의 '교차 (Crossover)'와 유사한 역할을 합니다.
4. 프로그램 평가 (Program Evaluation): 생성된 코드를 시뮬레이션 환경 (MuJoCo) 에서 실행하여 보상 (Reward) 을 계산합니다. 문법 오류가 있거나 성능이 낮은 코드는 폐기하고, 우수한 코드는 데이터베이스에 저장합니다.
5. 데이터베이스 및 반복 (Island Approach): 성능이 좋은 프로그램들을 데이터베이스에 저장하고, 이를 다음 라운드의 프롬프트에 포함시켜 점진적으로 진화시킵니다. 지역 최적점에 빠지는 것을 방지하기 위해 10 개의 독립적인 '섬 (Island)'을 병렬로 운영합니다.
LLM 의 역할: LLM 은 런타임 (실행 시) 에 작동하는 것이 아니라, 정책 설계 단계에서만 작동합니다. 따라서 최종 출력물은 인간이 읽고 수정할 수 있는 완전한 해석 가능한 코드입니다.

3. 주요 기여 (Key Contributions)

코드 기반 제어 정책 표현: 제어 정책을 블랙박스 신경망이 아닌 표준 프로그래밍 언어 (Python) 로 표현하여, 인간이 제어 로직을 직접 읽고, 이해하며, 전문가의 직관을 통해 수정할 수 있게 했습니다.
LLMguided 진화 탐색: LLM 의 코드 생성 능력과 시뮬레이션 기반 평가, 진화 알고리즘을 결합하여 복잡한 동적 시스템에 대한 최적 제어 정책을 자동으로 합성하는 새로운 프레임워크를 제시했습니다.
해석 가능성과 수정 용이성: 생성된 정책은 수학적 식이나 논리 흐름으로 명확히 드러나며, 사용자가 코드를 직접 수정하여 성능을 더 향상시킬 수 있는 '인간 - AI 협업' 구조를 가능하게 합니다.

4. 실험 결과 (Results)

논문은 두 가지 제어 태스크에서 제안된 방법의 유효성을 입증했습니다.

Pendulum Swing-up (진자 스윙업):
- 과제: 제한된 토크로 정지 상태의 진자를 수직 위치로 들어 올리는 작업.
- 결과: LLM 은 약 $10^4$개의 샘플 프로그램을 탐색하여 성공적인 정책을 찾았습니다. 생성된 정책은 매우 간결하며, 진자가 수직에서 일정 각도 이내일 때는 선형 피드백을, 그 외에는 '뱅 - 뱅 (Bang-bang)' 제어 (최대 토크 적용) 를 수행하는 로직으로 구성되었습니다.
- 해석성: 생성된 코드는 수식 (Eq. 9) 으로 쉽게 변환 가능하며, Lyapunov 안정성 분석도 용이했습니다.
Ball in Cup (컵 안의 공):
- 과제: 2 차원 평면에서 컵을 움직여 공을 잡는 작업.
- 결과: 8 차원 관측 벡터를 입력으로 받는 복잡한 정책을 생성했습니다.
- 사용자 개선 (Human-in-the-loop): 생성된 초기 코드는 다소 복잡했으나, 사용자가 코드를 분석하여 불필요한 조건문을 제거하고 직관적인 수정 (공이 컵보다 높을 때 컵을 약간 내리게 하는 로직 추가) 을 가했습니다.
- 성능 향상: 단순한 직관적 수정만으로도 공을 잡는 성공률이 크게 향상되었으며, 15 초 내 미성공 사례가 현저히 감소했습니다. 이는 인간이 생성된 코드를 이해하고 개선할 수 있음을 입증했습니다.

5. 의의 및 결론 (Significance & Conclusion)

안전하고 검증 가능한 AI 제어: 블랙박스 모델의 위험을 줄이고, 제어 시스템의 투명성을 확보하여 안전이 중요한 실제 응용 분야 (로봇, 자율주행 등) 에 학습 기반 제어 기술을 도입하는 길을 열었습니다.
인간과 AI 의 협업: LLM 이 초기 설계를 담당하고, 인간 엔지니어가 생성된 코드를 검증하고 미세 조정하는 새로운 협업 패러다임을 제시합니다.
한계 및 향후 과제: 현재 방법은 그래디언트 (Gradient) 가 없어 계산 비용이 높고 (GPU 1 개 기준 약 10 시간 소요), 보상 함수 설계에 민감합니다. 향후 그라디언트 기반 최적화를 루프에 통합하거나 분산 컴퓨팅을 통해 효율성을 높이는 것이 필요하다고 언급했습니다.

결론적으로, 이 연구는 LLM 을 제어 정책의 '생성자'로 활용하면서도 최종 산출물을 인간이 제어할 수 있는 '코드'로 남김으로써, 학습 기반 제어와 신뢰할 수 있는 실제 시스템 간의 격차를 해소하는 획기적인 접근법을 제시했습니다.