TIGeR: Tool-Integrated Geometric Reasoning in Vision-Language Models for Robotics

이 논문은 비전 - 언어 모델이 외부 도구를 활용해 정밀한 기하학적 계산을 수행할 수 있도록 하는 TIGeR 프레임워크와 대규모 데이터셋을 제안하여 로봇 조작 작업에서 센티미터 단위의 정밀도를 달성했다고 요약할 수 있습니다.

Yi Han, Enshen Zhou, Shanyu Rong, Jingkun An, Pengwei Wang, Zhongyuan Wang, Cheng Chi, Lu Sheng, Shanghang Zhang

게시일 2026-03-05
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🤖 TIGeR: 로봇을 위한 '수학 천재'와 '도구 상자'의 만남

이 논문은 **"로봇이 세상을 정말로 이해하고 정밀하게 움직이게 하려면, AI 에게 수학을 직접 가르치는 게 아니라, 계산기를 쥐여주는 것이 더 낫다"**는 놀라운 아이디어를 제시합니다.

이걸 좀 더 쉽고 재미있게 비유해서 설명해 드릴게요.


1. 문제: "눈은 좋지만, 손은 서투른" 기존 AI

지금까지의 로봇용 AI(시각 - 언어 모델) 는 마치 **"눈이 매우 밝지만, 눈금자가 없는 자를 가진 장인"**과 같습니다.

  • 무엇을 잘하나요? "저기 식물이 있네", "컵이 왼쪽에 있네"처럼 대략적인 위치관계를 말해줍니다. (예: "컵이 식물의 왼쪽에 있어요.")
  • 무엇을 못하나요? "식물에서 정확히 5cm 위"나 "컵과 병 사이의 정확한 거리"를 계산하는 것은 매우 어렵습니다. AI 는 숫자를 직접 계산하는 게 아니라, 과거에 본 패턴을 기억해서 "대충 이렇게 보일 거야"라고 추측할 뿐이죠.
  • 결과: 로봇이 물건을 잡으려 할 때 "아, 대략 여기겠지?"라고 생각하다 보면, 센티미터 단위의 오차 때문에 물건을 떨어뜨리거나 부딪히게 됩니다.

2. 해결책: TIGeR (도구 통합 기하학적 추론)

이 연구팀은 AI 에게 "수학을 외우게" 하는 대신, "계산 도구 (코드와 라이브러리) 를 직접 쓰게" 했습니다.

🌟 핵심 비유: "수학 천재"가 "계산기"를 꺼내다

기존 AI 는 머릿속으로 모든 계산을 하려다 틀리는 계산 실수 많은 학생이었습니다.
하지만 TIGeR은 문제를 풀 때, "이건 내가 머리로만 풀기엔 너무 복잡하네"라고 생각하면 바로 **계산기 (외부 도구)**를 꺼내서 정확한 답을 구하는 현명한 학생입니다.

TIGeR 이 어떻게 작동하나요?

  1. 문제 인식: 로봇이 "식물 위 5cm 에 있는 물에 물을 주세요"라고 말하면, TIGeR 은 "아, 이건 눈으로만 볼 게 아니라 정밀한 거리 계산이 필요해!"라고 깨닫습니다.
  2. 코드 작성: TIGeR 은 직접 숫자를 맞추는 대신, **"이 계산을 해주는 파이썬 코드를 써줘"**라고 요청합니다.
  3. 도구 실행: 카메라의 깊이 정보, 중력 방향, 물체의 3D 크기 같은 정확한 데이터를 도구에게 넘겨주면, 코드가 **정확한 3D 좌표 (x, y, z)**를 계산해 줍니다.
  4. 정밀 실행: 로봇은 이 계산된 좌표대로 팔을 움직여, 센티미터 단위의 오차 없이 물을 부을 수 있게 됩니다.

3. 준비물: TIGeR-300K (수천 개의 연습 문제)

이 AI 가 도구 쓰는 법을 배우기 위해, 연구팀은 TIGeR-300K라는 거대한 연습장을 만들었습니다.

  • 내용: "물체 A 와 B 사이의 거리 구하기", "3D 공간에서 장애물 피해서 이동 경로 찾기" 같은 30 만 개의 문제입니다.
  • 특징: 단순히 정답만 있는 게 아니라, **"어떤 도구를 썼고, 어떤 코드를 짰으며, 중간 계산 과정은 어땠는지"**까지 모두 기록되어 있습니다. 마치 수학 문제집에 풀이 과정이 상세히 적혀 있는 것과 같습니다.

4. 훈련 방법: 두 단계로 완성하는 훈련

이 AI 를 가르치는 방법은 두 단계로 나뉩니다.

  1. 1 단계 (SFT - 지도 학습): "이런 문제엔 이 도구를 쓰고, 이런 코드를 짜면 돼"라고 정답을 보여주며 가르칩니다. (도구 쓰는 법을 익힘)
  2. 2 단계 (RFT - 강화 학습): AI 가 문제를 풀면, "도구를 잘 썼니?", "계산 결과가 정확한가?", "코드가 실행 가능한가?"를 단계별로 점수를 매겨줍니다.
    • 비유: 요리사에게 "재료 (도구) 를 잘 고르고, 레시피 (코드) 를 정확히 따라 요리하면 점수를 준다"는 식입니다. 특히 **중간 과정 (계산 과정)**이 정확해야 높은 점수를 받도록 설계했습니다.

5. 실제 성과: 로봇이 '미세 조정'을 해냅니다!

이 기술을 실제 로봇에 적용해 보니 놀라운 결과가 나왔습니다.

  • 시뮬레이션 & 실물 실험: 로봇이 "식물 뒤쪽에 있는 물건을 잡으라"거나 "컵에서 10cm 오른쪽에 놓으라"는 명령을 받았을 때, 기존 로봇들은 실패하거나 엉뚱한 곳에 놓았지만, TIGeR 을 쓴 로봇은 55~70% 의 성공률로 정밀하게 작업을 수행했습니다.
  • 가려진 물체도 파악: 카메라에 보이지 않는 물체의 '뒤쪽'이나 '아래쪽' 위치를 기하학적 계산으로 정확히 찾아내어, 가려진 물체도 안전하게 다룰 수 있게 되었습니다.

📝 한 줄 요약

"로봇 AI 에게 '눈썰미'만 믿게 하지 말고, '정밀한 계산 도구'를 쥐여주면, 로봇은 이제 공장에서나 우리 집에서도 센티미터 단위로 정교하게 일할 수 있게 됩니다!"

이 연구는 AI 가 단순히 "보는 것"을 넘어, "계산하고 행동하는" 진정한 로봇의 핵심 기술로 도약하는 중요한 발걸음입니다.