Evolution 6.0: Robot Evolution through Generative Design

이 논문은 비전 - 언어 모델, 비전 - 언어 - 행동 모델, 텍스트 - 3D 생성 모델을 활용하여 로봇이 필요한 도구를 스스로 설계하고 제작한 뒤 이를 활용해 작업을 수행하는 '진화 6.0'이라는 새로운 자율 로봇 시스템을 제안하고 그 성능을 평가한 내용을 담고 있습니다.

Muhammad Haris Khan, Artyom Myshlyaev, Artem Lykov, Miguel Altamirano Cabrera, Dzmitry Tsetserukou

게시일 2026-03-05
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🤖 진화 6.0: 로봇이 스스로 도구를 만들어 문제를 해결하는 방법

이 논문은 "로봇이 인간에게서 도구를 빌려받는 시대"를 끝내고, "로봇이 스스로 도구를 발명하고 사용하는 시대"를 여는 새로운 개념을 소개합니다. 이를 **'진화 6.0 (Evolution 6.0)'**이라고 부릅니다.

이 복잡한 기술을 일상적인 비유로 쉽게 설명해 드릴게요.


🌟 핵심 아이디어: "요리사가 식재료를 보고 스스로 칼을 만든다"

기존의 로봇은 인간이 "이걸 자르라", "저걸 들어라"라고 명령하고, 미리 정해진 이나 집게를 들고 작업을 했습니다. 만약 로봇에게 필요한 도구가 없다면? 그 로봇은 멈춰버렸죠.

하지만 진화 6.0은 다릅니다.

"어? 이걸 자르려면 평범한 칼로는 안 되겠는데? 내가 지금 당장 이걸로 쓸 수 있는 '새로운 칼'을 만들어야겠다!"

로봇이 상황을 보고, 필요한 도구를 스스로 디자인해서 3D 프린터로 찍어내고, 그 도구를 어떻게 쓸지 스스로 배워 작업을 완료합니다. 마치 요리를 하다가 식재료가 없으면, 냉장고에 있는 다른 재료로 대체 요리를 하거나, 필요한 그릇을 직접 만들어내는 천재 요리사와 같습니다.


🛠️ 이 시스템은 어떻게 작동할까요? (두 명의 마법사)

이 로봇 시스템은 두 가지 핵심 '마법사' (AI 모델) 가 팀을 이뤄 작동합니다.

1. 도구를 만드는 마법사 (Tool Generation Module)

  • 역할: "무엇이 필요한지"를 파악하고 3D 도구를 설계합니다.
  • 비유: 이 마법사는 건축가이자 예술가입니다.
    • 로봇이 카메라로 주변을 보면, 이 마법사가 "아, 저기 나사못이 있네? 그런데 일반 드라이버로는 안 돌아가는 모양이야. 그럼 이 나사못에 딱 맞는 '특수 드라이버'를 만들어야겠다!"라고 생각합니다.
    • QwenVLM이라는 AI 가 주변을 보고 상황을 설명하면, Llama-Mesh라는 AI 가 그 설명을 듣고 3D 모델 (도면) 을 그립니다.
    • 그 도면은 바로 3D 프린터로 출력되어 실제 도구가 됩니다. (약 10 초 만에 완료!)

2. 행동을 계획하는 마법사 (Action Generation Module)

  • 역할: "만든 도구로 무엇을 할지"를 결정하고 로봇 팔을 움직입니다.
  • 비유: 이 마법사는 숙련된 요리사운동선수입니다.
    • "케이크를 자르라"는 말을 듣고, 방금 만든 도구를 집어 들고 정확히 케이크를 잘라냅니다.
    • OpenVLA라는 AI 가 "눈 (카메라) 으로 보고, 귀 (말) 으로 듣고, 손 (로봇 팔) 을 움직이는" 방법을 실시간으로 계산합니다.
    • 도구가 조금씩 움직이거나 위치가 바뀌어도, 즉석에서 적응하며 작업을 계속합니다.

📊 실제로 얼마나 잘할까요? (실험 결과)

연구진들은 이 로봇을 시험해 보았습니다. 결과는 다음과 같습니다.

  • 도구 만들기: 10 번 중 9 번 (90%) 성공!
    • "나사못을 돌리는 도구"를 만들어내는 데 평균 10 초밖에 걸리지 않았습니다.
    • 다만, 아주 복잡하게 구부러진 모양을 만드는 데는 아직 약간의 실수가 있었습니다.
  • 작업 수행:
    • 물체 크기나 색깔이 바뀌어도 (물리적 일반화): 83.5% 성공. (예: 큰 케이크든 작은 케이크든 잘 자름)
    • 장소가 바뀌어도 (시각적 일반화): 83.5% 성공.
    • 물체 위치가 바뀌어도 (운동 일반화): 70% 성공.
    • 새로운 지시를 받으면 (의미론적 일반화): 37% 성공. (예: "케이크를 자르라"는 말은 잘 알아듣지만, 갑자기 "바나나를 자르라"고 하면 혼란을 겪음)

🚀 왜 이것이 중요한가요? (미래의 로봇)

지금까지의 로봇은 공장처럼 정해진 환경에서만 일했습니다. 하지만 화성이나 재난 현장처럼 예측 불가능한 곳에서는 미리 준비된 도구만으로는 부족합니다.

진화 6.0은 이런 곳에서 빛을 발합니다.

  • 화성 탐사 로봇: 망가진 장비를 고르려면 특수 렌치가 필요할 때, 로봇이 그 렌치를 직접 설계해서 3D 프린터로 찍어내고 고칠 수 있습니다.
  • 재난 구조: 막힌 문을 열려면 특수 도구가 필요할 때, 로봇이 그 도구를 만들어 문을 엽니다.

💡 결론

이 연구는 로봇이 단순히 명령을 따르는 기계에서, 문제를 해결하는 창의적인 파트너로 진화하고 있음을 보여줍니다. 비록 아직 완벽하지는 않지만 (특히 새로운 지시를 이해하는 능력은 더 발전해야 함), 로봇이 스스로 도구를 만들어내는 이 기술은 앞으로 우리가 상상하지 못했던 자율적인 로봇의 시대를 열 것입니다.

한 줄 요약: "로봇이 "도구가 없어!"라고 불평하는 대신, "내가 만들게!"라고 말하며 3D 프린터로 도구를 만들어 문제를 해결하는 시대가 왔습니다."