"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

Each language version is independently generated for its own context, not a direct translation.

🤖 상황: 로봇 청소기가 "화장실의 불난 방"을 피해야 한다

상상해 보세요. 로봇 청소기가 집 안을 돌아다니고 있습니다. 주인이 이렇게 말합니다.

"화장실 벽난로 근처는 너무 뜨거우니까 절대 가까이 가지 마!"

하지만 로봇은 온도 센서가 없어요. 그냥 눈 (카메라) 만 있을 뿐입니다. 이걸 해결하는 두 가지 방식이 있습니다.

❌ 기존 방식 (LLM 이 직접 길을 찾음): "생각하는 로봇"

기존 방식은 로봇에게 "화장실 벽난로 근처에 가지 마"라고 말하면, 로봇이 머리 (대형 언어 모델, LLM) 로만 생각해서 "아, 그럼 이쪽으로 가자"라고 길을 직접 그립니다.

문제점: 로봇이 너무 똑똑한 척하다가 **환각 (Hallucination)**을 봅니다.
- "벽난로가 여기 있나? 아, 아니야. 그냥 지나가자." (실제로는 벽난로에 부딪힘)
- "동물이 있으면 주방에 가지 말아야지... 아, 지금 동물 없네? (실제로는 동물 있는데 무시하고 들어감)"
- 마치 수학 문제를 풀 때 답만 대충 외워서 적는 학생처럼, 논리적으로는 맞을 것 같지만 실제로는 틀린 길을 가는 경우가 많습니다.

✅ 새로운 방식 (STPR): "코딩하는 비서 + 수학 선생님"

이 논문이 제안한 STPR은 로봇이 직접 길을 찾는 대신, 두 단계로 나누어 일을 시킵니다.

1 단계: "코딩하는 비서" (LLM) 가 규칙을 코드로 만듭니다.
- 로봇은 "벽난로 근처에 가지 마"라는 말을 듣자마자, 길을 찾지 않고 파이썬 (Python) 코드를 작성합니다.
- "벽난로 좌표는 여기고, 반경 1 미터 안은 '위험 구역'으로 표시해라"라는 정확한 수학 함수를 만들어냅니다.
- 비유: 로봇이 "길을 찾아라"라고 외우는 게 아니라, **"위험한 곳은 빨간색으로 칠해라"라는 지도를 그리는 규칙 (코드)**을 먼저 만드는 것입니다.
2 단계: "수학 선생님" (전통적 알고리즘) 이 길을 찾습니다.
- 이제 로봇은 방금 만든 정확한 코드를 실행합니다. 이 코드는 "이 좌표는 위험하니 통과 불가"라고 딱 잘라 말합니다.
- 이 정보를 바탕으로 A 나 RRT 같은 전통적인 경로 탐색 알고리즘**이 "위험한 곳은 제외하고" 최단 경로를 계산합니다.
- 비유: 수학 선생님이 "위험한 구역은 이미 빨간색으로 칠해져 있으니, 그걸 피해서만 길을 찾아라"라고 말합니다. 수학 선생님은 절대 착각하지 않아요.

🌟 왜 이 방법이 더 좋은가요? (핵심 장점)

실수 (환각) 를 줄여줍니다:
- LLM 이 "길을 그리는" 실수를 하지 않습니다. LLM 은 오직 "규칙을 코드로 바꾸는" 일만 하니까요. 코드는 컴퓨터가 실행하므로 "아, 내가 착각했어"라는 실수가 발생하지 않습니다.
작은 로봇도 가능합니다:
- 이 방법은 거대한 AI 모델이 필요하지 않습니다. 작은 코드 전용 AI 모델만 있어도 규칙을 코드로 잘 변환합니다. 그래서 계산 비용이 적고 빠릅니다.
안전이 보장됩니다:
- 실험 결과, 로봇이 화재, 구멍, 보안 카메라 시야, 동물 등 다양한 상황에서 100% 규칙을 지켰습니다. 기존 방식은 규칙을 무시하고 길을 갔지만, STPR 은 "그 길은 위험하니 못 간다"라고 확실히 막아냈습니다.

📝 한 줄 요약

**"로봇이 길을 직접 그리는 대신, AI 가 '위험한 곳'을 코드로 정확히 표시해 주고, 그 코드를 믿고 수학 알고리즘이 안전한 길을 찾아주는 방식"**입니다.

이 기술은 로봇이 인간의 복잡한 지시 ("불난 곳 피하기", "동물 있으면 주방 금지" 등) 를 정확하고 안전하게 따르도록 만들어주는 획기적인 방법입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

배경:
최근 대규모 언어 모델 (LLM) 의 발전으로 로봇이 자연어 지시를 이해하고 복잡한 공간적, 수학적, 조건부 제약을 경로 계획에 반영하려는 시도가 늘고 있습니다. 예를 들어, "화재대 근처에 가지 마라" 또는 "동물이 있으면 부엌에 들어가지 마라"와 같은 비공식적이고 맥락 의존적인 지시를 로봇이 처리해야 합니다.

문제점:
기존의 순수 LLM 기반 계획 방식 (LLM 이 직접 경로 계획을 생성하는 방식) 은 다음과 같은 치명적인 단점이 있습니다.

할루시네이션 (Hallucination): 물리적 제약이나 실제 환경과 맞지 않는 그럴듯하지만 잘못된 경로를 생성합니다.
해석 불가능성 (Lack of Interpretability): 맥락적 제약 (위험 지역, 사회적 규범 등) 을 명확히 반영하기 어렵습니다.
불완전한 준수 (Partial Compliance): 조건부 제약 (예: "동물이 있으면 부엌 금지") 을 임의로 무시하거나 오해할 수 있습니다.
계산 비용: 고급 추론 모델 (Reasoning Models) 은 지연 시간과 계산 비용이 높아 실시간 배포에 부적합합니다.

목표:
자연어 지시 ("하지 말아야 할 일") 를 로봇이 엄격하게 준수할 수 있는 형식적인 제약 조건으로 변환하여, 기존 탐색 알고리즘 (Search Algorithms) 과 결합하는 효율적이고 안전한 프레임워크를 개발하는 것입니다.

2. 제안 방법론: STPR (Safe Trajectory Planning with Restrictions)

저자들은 STPR이라는 신경 - 심볼릭 (Neuro-Symbolic) 프레임워크를 제안합니다. 이는 LLM 을 직접적인 계획 생성기가 아닌, 제약 조건을 실행 가능한 코드로 변환하는 번역기로 활용합니다.

핵심 아키텍처

LLM 기반 제약 코드 생성 (Constraint Code Generation):
- 사용자가 입력한 자연어 제약 (예: "화재대의 열기로부터 안전 거리를 유지하라") 과 환경 매개변수 (좌표, 열 강도 등) 를 프롬프트 템플릿에 입력합니다.
- LLM 은 이를 **실행 가능한 Python 부울 함수 (Boolean Function)**로 변환합니다. 이 함수는 입력 좌표 $(x, y, z)$ 를 받아 해당 점이 금지 구역인지 True/False 로 반환합니다.
- 장점: LLM 의 강력한 코딩 능력을 활용하여 복잡한 수학적/공간적 추론을 텍스트가 아닌 구조화된 코드로 수행하므로 할루시네이션을 방지하고 해석 가능성을 확보합니다.
점 구름 (Point Cloud) 샘플링 및 공간 프루닝:
- 생성된 Python 함수를 사용하여 3D 환경에서 **거부 샘플링 (Rejection Sampling)**을 수행합니다.
- 금지 구역에 해당하는 점들을 점 구름 (Point Cloud) 으로 생성하여 이를 가상의 장애물로 간주합니다.
- 이 점 구름은 $k$ d-트리 (kd-tree) 구조로 저장되어 빠른 nearest-neighbor 조회가 가능하도록 합니다.
제약 준수 경로 계획 (Constrained Path Planning):
- 생성된 점 구름을 기반으로 기존 탐색 알고리즘 (A* 또는 RRT*) 을 실행합니다.
- 알고리즘은 점 구름 내의 점들과 충돌하는지 확인하며, 유효하지 않은 상태 (제약 위반) 는 탐색 공간에서 제외 (Pruning) 합니다.
- 이점: 경로 계획의 의사결정은 이론적 보장 (완전성, 최적성, 건전성) 이 있는 고전적 알고리즘이 담당하므로, LLM 의 오류가 최종 경로에 영향을 미치지 않습니다.

3. 주요 기여 (Key Contributions)

신경 - 심볼릭 접근법: LLM 의 자연어 이해 능력과 고전적 경로 계획 알고리즘의 엄밀한 수학적 보장을 결합하여, 자연어 지시를 실행 가능한 안전 제약으로 변환하는 새로운 프레임워크를 제시했습니다.
할루시네이션 방지 및 해석 가능성: LLM 이 직접 경로를 생성하는 대신, 검증 가능한 Python 함수를 생성하게 함으로써 할루시네이션을 제거하고 도메인 전문가가 제약을 직접 수정/감사할 수 있게 했습니다.
소규모 모델 호환성: 복잡한 추론 모델이 아닌, 상대적으로 작고 비용 효율적인 **코드 특화 LLM (Code LLM)**으로도 높은 성능을 발휘함을 입증했습니다.
광범위한 실험 검증: Gazebo 시뮬레이션 환경에서 다양한 시나리오와 6 가지 LLM 을 대상으로 한 철저한 평가를 수행했습니다.

4. 실험 결과 (Results)

실험 환경:

시나리오: 4 가지 도전적인 상황 (S1: 보안 카메라 시야 회피, S2: 보이지 않는 구덩이 회피, S3: 동물이 있을 때 부엌 금지, S4: 화재대 열기 회피).
비교 대상: 일반 A*/RRT*, Naive VLM(비전 - 언어 모델) 기반 계획, VoxPoser 등.
모델: Llama-3.1-70B, Granite-34B-Code, GPT-o1-pro 등 6 가지 LLM.

주요 성과:

완전한 준수 (Full Compliance): STPR 은 모든 시나리오에서 100% 성공률을 기록했습니다. 반면, 일반 A*/RRT*는 제약 조건을 무시하고 0% 성공률을 보였으며, VLM 기반 모델은 할루시네이션으로 인해 0~10% 의 낮은 성공률만 기록했습니다.
경로 품질 및 최적성: STPR-A*는 최적 경로를, STPR-RRT*는 점근적 최적성을 보장합니다. VLM 이 생성한 경로는 제약 위반 시 길이가 짧거나, 제약만 준수하려 할 때 비효율적으로 길어지는 등 일관성이 없었습니다.
실행 시간:
- STPR 의 전체 실행 시간 (프롬프팅 + 샘플링 + 계획) 은 약 12~18 초로, 실시간 적용에 무리가 없는 수준입니다.
- 특히 **작은 코드 LLM (예: Granite-34B)**을 사용해도 큰 모델과 유사한 정확도를 보여주어, 추론 비용을 크게 절감할 수 있음을 증명했습니다.
모델 민감도: Llama-3.1-1B 와 같은 매우 작은 모델은 논리/공간 추론 실패로 인해 제약 생성에 실패했으나, 중간 규모 이상의 코드 모델은 일관된 성능을 보였습니다.

5. 의의 및 결론 (Significance)

이 논문은 LLM 을 로봇 제어의 "의사결정자"가 아닌 "지시 변환기"로 활용함으로써, 로봇의 안전성과 신뢰성을 획기적으로 높이는 패러다임을 제시합니다.

실용성: 복잡한 물리 법칙이나 조건부 규칙을 자연어로 입력하면, 이를 즉시 실행 가능한 안전 코드로 변환하여 로봇이 즉시 적용할 수 있습니다.
확장성: 센서 데이터가 부족하거나 (예: 온도 센서 없음), 비정형적인 지시가 필요한 상황에서도 사용자 지시를 통해 로봇의 행동을 안전하게 제어할 수 있습니다.
미래 방향: 이 접근법은 실시간 로봇 배포에 있어 LLM 의 불확실성을 제거하면서도 자연어 인터페이스의 유연성을 유지하는 핵심 기술로 평가받습니다.

결론적으로, STPR 은 LLM 의 강점 (자연어 이해, 코딩) 과 고전적 알고리즘의 강점 (수학적 보장) 을 결합하여, **"하지 말아야 할 일 (Don't do that)"**을 명확히 정의하고 준수하는 자율 로봇 시스템의 새로운 표준을 제시합니다.

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

🤖 상황: 로봇 청소기가 "화장실의 불난 방"을 피해야 한다

❌ 기존 방식 (LLM 이 직접 길을 찾음): "생각하는 로봇"

✅ 새로운 방식 (STPR): "코딩하는 비서 + 수학 선생님"

🌟 왜 이 방법이 더 좋은가요? (핵심 장점)

📝 한 줄 요약

1. 연구 배경 및 문제 정의 (Problem)

2. 제안 방법론: STPR (Safe Trajectory Planning with Restrictions)

핵심 아키텍처

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks

A Survey on 3D Gaussian Splatting