LaMoGen: Language to Motion Generation Through LLM-Guided Symbolic Inference

이 논문은 LLM 의 심볼릭 추론을 통해 해석 가능하고 제어 가능한 인간 동작을 생성하는 새로운 프레임워크인 LaMoGen 과 이를 위한 라바노테이션 기반 표현법인 LabanLite 를 제안하고, 기존 방법론보다 뛰어난 성능과 설명력을 입증합니다.

Junkun Jiang, Ho Yin Au, Jingyu Xiang, Jie Chen

게시일 2026-03-13
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎭 1. 문제점: "블랙박스"와 "막연한 지시"

기존의 기술들은 사람과 AI 가 대화할 때, 문자 (Text) 와 움직임 (Motion) 을 서로 다른 언어로 변환하는 과정을 거쳤습니다. 마치 AI 가 "앞으로 5 걸음 걸어"라는 말을 들었을 때, 그 의미를 완전히 이해하지 못하고 단순히 "앞으로 걷는 느낌"을 흉내 내는 것과 비슷합니다.

  • 비유: 요리사 (AI) 에게 "소금 5g, 설탕 3g 넣고 10 분 끓여"라고 말했는데, 요리사는 "소금과 설탕을 조금 넣고 10 분 정도 끓여"라고 대충 해치우는 꼴입니다.
  • 결과: "5 걸음"이라고 했을 때 실제로 5 걸음이 안 나오거나, "오른발부터"라고 했을 때 왼발부터 시작하는 등 정확한 타이밍과 순서가 무너지는 문제가 있었습니다.

📜 2. 해결책: '라바노테이션 (Labanotation)'이라는 레시피

이 연구팀은 100 년 전부터 무용가들이 사용해 온 **'라바노테이션'**이라는 기호 시스템을 차용했습니다. 이는 무용 동작을 기호로 기록하는 일종의 음악 악보와 같습니다.

  • 비유: 일반적인 AI 는 "맛있는 국을 끓여"라고 하면 대충 끓여내지만, 이 연구팀은 **"냄비 1 개, 물 2 리터, 소금 5g, 10 분 끓이기"**처럼 **정확한 레시피 (기호)**를 먼저 작성하게 합니다.

🚀 3. 핵심 기술 1: '라반라이트 (LabanLite)' - AI 가 읽기 쉬운 악보

기존의 라바노테이션은 사람이 보기에 좋지만, 컴퓨터가 직접 읽기엔 너무 복잡했습니다. 그래서 연구팀은 이를 **컴퓨터와 AI 가 이해하기 쉽게 다듬은 '라반라이트 (LabanLite)'**를 만들었습니다.

  • 라반라이트의 특징:
    • 분해: 복잡한 춤을 "왼발 앞으로 0.4 초", "오른팔 위로 0.3 초"처럼 작은 단위 (기호) 로 쪼개서 기록합니다.
    • 텍스트 연결: 각 기호마다 "오른발이 중간 높이로 앞으로 0.4 초 이동"이라는 명확한 문장을 붙입니다.
    • 효과: 이제 AI 는 추상적인 숫자 대신, 사람이 이해할 수 있는 문장과 기호의 조합으로 움직임을 계획할 수 있게 됩니다.

🤖 4. 핵심 기술 2: 'LaMoGen' - AI 지휘자가 악보를 작성하다

이제 이 시스템을 총괄하는 LaMoGen이라는 프레임워크가 등장합니다. 이 시스템은 두 단계로 움직임을 만듭니다.

  1. 1 단계: 지휘자 (LLM) 가 악보를 작성
    • 사용자가 "오른발로 5 걸음 앞으로, 그다음 3 걸음 뒤로"라고 말합니다.
    • 거대한 언어 모델 (LLM) 이 이 말을 듣고, 라반라이트 기호로 된 악보를 직접 작성합니다.
    • 비유: 지휘자가 악보에 "1 마디: 오른발 5 박자, 2 마디: 왼발 3 박자"라고 정확히 적어줍니다.
  2. 2 단계: 연주자 (모델) 가 악보를 실행
    • 작성된 기호 악보를 바탕으로, 실제 3D 캐릭터가 움직이는 구체적인 동작을 만들어냅니다.

✨ 5. 왜 이것이 특별한가요? (장점)

  • 🔍 설명 가능 (Interpretability):
    • 기존 AI 가 왜 그런 움직임을 했는지 알 수 없다면, 이 방법은 **"왜? 오른쪽 발이 먼저 움직였나? -> 악보에 그렇게 적혀있으니까"**라고 명확하게 설명해 줍니다.
  • ⏱️ 정밀한 타이밍 (Controllability):
    • "5 걸음"이라고 하면 정확히 5 걸음, "3 초"라고 하면 정확히 3 초를 유지합니다. 기호로 세세하게 통제하기 때문입니다.
  • 🧩 조합의 자유 (Compositionality):
    • "손 흔들기"와 "걷기"를 따로 배운 뒤, AI 가 "걸으면서 손 흔들기"를 새롭게 조합할 수 있습니다. 마치 레고 블록을 조립하듯 움직임을 만들 수 있습니다.

📊 6. 실험 결과: "정답"에 더 가까워짐

연구팀은 직접 만든 새로운 평가 기준 (라반 벤치마크) 으로 이 방법을 테스트했습니다.

  • 기존 방법들: "5 걸음"을 3 걸음 하거나, 순서가 뒤죽박죽인 경우가 많았습니다.
  • LaMoGen: 사용자의 지시를 정확하게 따르는 움직임을 만들어냈으며, 특히 시간과 순서를 지키는 데서 압도적인 성능을 보였습니다.

🎯 요약

이 논문은 **"AI 가 사람의 움직임을 만들 때, 막연한 감이 아니라 '정확한 악보 (기호)'를 먼저 작성하게 함으로써, 훨씬 더 똑똑하고 정확한 움직임을 만들어냈다"**는 이야기입니다.

앞으로 게임 캐릭터, 영화 특수효과, 혹은 재활 치료용 로봇 등이 사용자의 말대로 정확하고 자연스러운 동작을 수행하는 데 큰 도움이 될 것입니다.