Altered Thoughts, Altered Actions: Probing Chain-of-Thought Vulnerabilities in VLA Robotic Manipulation

본 논문은 비전 - 언어 - 행동 (VLA) 로봇에서 물리적 작업 수행에 대한 내적 추론 과정의 개입이 없어도, 추론 텍스트 내의 객체 이름만 조작하면 로봇의 성공률이 급격히 하락한다는 사실을 규명하여, 추론 모델의 중간 계획 단계가 기존 입력 검증 방어로는 막을 수 없는 새로운 취약점임을 밝혔습니다.

Tuan Duong Trinh, Naveed Akhtar, Basim Azam

게시일 2026-03-16
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"로봇이 생각할 때, 그 '생각의 과정'을 속이면 로봇이 얼마나 엉뚱한 행동을 할까?"**라는 아주 흥미로운 질문에서 시작합니다.

최근 로봇 기술은 눈 (비전), 귀 (언어 이해), 손 (행동) 을 모두 갖춘 'VLA(시각 - 언어 - 행동)' 모델로 발전했습니다. 특히 최신 로봇들은 행동을 하기 전에 **"일단 생각해보자"**는 방식 (Chain-of-Thought, CoT) 을 도입했습니다. 예를 들어, "와인 병을 집어서 선반에 올려야지"라고 말로 생각한 뒤, 그 생각에 맞춰 팔을 움직이는 식이죠.

이 논문은 바로 그 '생각하는 과정 (텍스트)'과 '행동하는 뇌 (액션 디코더)' 사이의 연결고리가 얼마나 약한지, 그리고 해커가 그 사이를 살짝 건드리면 로봇이 얼마나 큰 실수를 저지를 수 있는지 실험했습니다.


🕵️‍♂️ 핵심 비유: "요리사의 메모와 요리사"

이 실험을 이해하기 위해 **요리사 (로봇)**와 **메모장 (생각 과정)**을 비유로 들어보겠습니다.

  1. 상황: 요리사 (로봇) 는 고객 (명령) 의 주문을 듣고, 먼저 메모장에 요리 순서를 적고 (생각 과정), 그 메모를 보고 재료를 손질하고 요리합니다 (행동).
  2. 공격: 해커는 요리사가 메모를 적는 순간, 그 메모장 내용을 살짝 바꿔치기합니다.
    • 요리사의 눈 (카메라) 과 고객의 주문 (명령) 은 그대로 깨끗합니다.
    • 오직 메모장 내용만 해커가 고칩니다.

🔍 실험 결과: "무엇을 바꾸면 로봇이 망할까?"

연구진은 메모장 내용을 7 가지 방식으로 바꿔보며 로봇의 실수율을 측정했습니다. 결과는 놀라웠습니다.

1. 🚫 "물건 이름"만 바꾸면 로봇이 완전히 미친다 (가장 치명적)

  • 상황: 메모장에 적힌 **"와인 병"**을 **"초콜릿 푸딩"**으로, **"선반"**을 **"샐러드 드레싱"**으로 바꿔치기했습니다.
  • 결과: 로봇은 와인 병이 아니라 초콜릿 푸딩을 집으려다 실패하거나 엉뚱한 곳으로 갔습니다. 성공률이 약 19%~45%나 급락했습니다.
  • 이유: 로봇은 "무엇을 (What)"을 할지 정하는 물건 이름에 절대적으로 의존합니다. 이름이 틀리면 로봇은 그 물건을 찾을 수 없게 됩니다.

2. 🤷‍♂️ "문장 순서"나 "방향"을 바꿔도 로봇은 잘한다 (거의 영향 없음)

  • 상황: 메모장의 문장 순서를 뒤죽박죽 섞거나, "왼쪽"을 "오른쪽"으로, "위"를 "아래"로 바꿔도 로봇은 크게 흔들리지 않았습니다.
  • 결과: 성공률은 거의 변하지 않았습니다.
  • 이유: 로봇은 "어떻게 (How)"나 "어디로 (Where)" 같은 방향이나 순서보다는, **눈으로 보는 실제 장면 (시각 정보)**을 더 믿습니다. 메모에 "왼쪽"이라고 적혀 있어도 눈으로 보면 "아, 오른쪽에 있네?" 하고 스스로 고쳐서 행동합니다.

3. 🤖 "고급 AI 가 쓴 엉뚱한 메모"보다 "단순한 이름 바꾸기"가 더 효과적?

  • 상황: 700 억 개의 파라미터를 가진 똑똑한 AI 가 "그럴듯하지만 틀린" 메모를 작성해 넣었습니다. (예: "와인 병을 집으세요" 대신 "와인 병을 집어서 선반에 올려주세요"라고 논리적으로 말하지만, 실제로는 다른 물건을 가리키는 식).
  • 결과: 이 고급 AI 의 메모는 단순히 물건 이름만 바꿔치기한 것보다 효과가 훨씬 적었습니다.
  • 이유: 고급 AI 는 문장을 그럴듯하게 쓰려고 하다 보니, 물건 이름 (엔티티) 은 원래대로 유지하는 경우가 많았기 때문입니다. 로봇은 이름만 맞으면 그걸 믿고 행동하기 때문입니다. 즉, 복잡한 해킹보다 단순한 이름 바꾸기가 더 위험하다는 역설이 나왔습니다.

💡 이 연구가 우리에게 주는 교훈

  1. 로봇의 '생각'은 약한 고리입니다:
    기존에는 로봇을 해킹하려면 카메라 영상을 조작하거나 (눈을 가리는), 명령어를 해킹해야 한다고 생각했습니다. 하지만 이 연구는 **"로봇이 스스로 생각한 메모장 (Chain-of-Thought) 만을 살짝 건드려도 로봇이 망할 수 있다"**는 것을 증명했습니다.

  2. 보안 방어는 '눈'이 아니라 '귀'를 막아야 합니다:
    해커가 로봇의 입력 (눈과 귀) 을 깨끗하게 유지하면서, 로봇이 **스스로 생각한 내용 (메모장)**만 바꿔치기하면, 기존의 보안 시스템은 이를 전혀 눈치채지 못합니다. 마치 요리사가 메모장을 훔쳐본 해커가 메모 내용만 바꿔도 요리사가 엉뚱한 요리를 해버리는 것과 같습니다.

  3. 가장 중요한 것은 '무엇 (What)'입니다:
    로봇이 행동을 결정할 때 문장 순서나 방향보다는 **'무엇을 다룰 것인가 (물건 이름)'**가 가장 중요합니다. 따라서 로봇을 보호하려면, 로봇이 생각한 메모장에 적힌 물건 이름이 실제 환경과 일치하는지만이라도 빠르게 확인하는 시스템이 필요합니다.

🎯 결론

이 논문은 **"로봇이 생각하는 과정 (Chain-of-Thought) 은 생각보다 취약하며, 특히 '물건 이름'이 바뀌면 로봇은 완전히 엉뚱한 행동을 한다"**는 사실을 밝혀냈습니다.

앞으로 로봇이 우리 생활에 더 많이 들어오면, 단순히 로봇의 눈을 가리는 것뿐만 아니라, 로봇이 스스로 생각한 '메모장'을 해커가 조작하지 못하도록 보호하는 것이 로봇 안전의 새로운 핵심 과제가 될 것입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →