ReTac-ACT: A State-Gated Vision-Tactile Fusion Transformer for Precision Assembly

Each language version is independently generated for its own context, not a direct translation.

🧩 문제 상황: "눈이 가려진 마지막 1 밀리미터"

상상해 보세요. 여러분이 아주 작은 구멍에 못을 끼워 넣으려고 합니다.

시작 단계: 못과 구멍이 멀리 떨어져 있을 때는 눈 (시각) 으로만 보면 됩니다. "저기 못이 있네, 저기 구멍이 있네"라고 대략적으로 위치를 잡죠.
마지막 단계: 못이 구멍 입구에 닿는 순간, 시각은 무용지물이 됩니다. 못이 구멍을 가려서 (가려진 상태, Occlusion) 눈으로는 못이 구멍 안으로 제대로 들어가고 있는지, 아니면 비스듬히 걸려 있는지 알 수 없기 때문입니다.

기존의 로봇들은 '눈'만 믿고 작업하느라, 이 마지막 1 밀리미터의 미세한 조정에서 계속 실패했습니다. 마치 눈을 가리고 바늘구멍에 실을 꿰는 것과 비슷하죠.

💡 해결책: ReTac-ACT (로봇의 '눈'과 '촉각'을 하나로 묶은 마법)

이 연구팀은 로봇에게 눈 (카메라) 과 촉각 (손끝의 고감도 센서) 을 동시에 쓰게 하는 새로운 인공지능 'ReTac-ACT'를 만들었습니다. 이 로봇은 마치 유능한 장인처럼 행동합니다.

1. 상황 판단형 스위치 (State-Gated Gating)

이 로봇은 상황에 따라 '눈'과 '촉각'의 중요도를 자동으로 조절합니다.

멀리 있을 때: "아직 닿지 않았으니 눈으로만 집중하자!" (시각 중심)
닿는 순간: "이제 눈으로는 안 보이네! 손끝 감각으로 미세하게 조정하자!" (촉각 중심)
이처럼 로봇이 스스로 "지금 어떤 감각이 더 필요한가?"를 판단하여 두 감각을 자연스럽게 섞어줍니다.

2. 서로를 돕는 대화 (Bidirectional Cross-Attention)

기존 방식은 눈과 손끝 감각을 그냥 나란히 나열하는 정도였는데, ReTac-ACT 는 두 감각이 서로 대화하게 합니다.

눈이 손끝에게: "손끝이 느끼는 진동은 여기가 맞는데, 내 눈으로 보니 저기 구멍이 있네. 같이 확인해보자!"
손끝이 눈에게: "내 감각으로는 여기가 살짝 걸려 있어. 네가 그 부분을 더 자세히 봐줘!"
이렇게 서로 정보를 주고받으니, 로봇은 훨씬 더 정확하게 작업을 수행할 수 있습니다.

3. 손끝 감각을 '학습'시키는 훈련 (Tactile Reconstruction)

로봇이 손끝 센서에서 들어오는 복잡한 데이터를 제대로 이해하도록 돕는 훈련 방법입니다.

마치 눈을 감고 물체의 모양을 손으로만 그려보게 하는 훈련을 시킵니다.
로봇이 손끝으로 감지한 데이터를 다시 원래 이미지로 복원해보게 함으로써, 로봇은 "단순한 질감이 아니라, 구멍과 못이 어떻게 맞물리는지"라는 정밀한 기하학적 정보를 배우게 됩니다.

🏆 놀라운 성과: "0.1 밀리미터의 정밀도"

이 로봇을 실제 실험 (NIST 표준 테스트) 에 넣어봤더니 결과가 놀라웠습니다.

기존 로봇 (눈만 쓰는 경우): 구멍이 3mm 정도 넓을 때는 40% 만 성공했고, 구멍이 0.1mm (머리카락보다 얇은 수준) 로 좁아지면 완전 실패 (0%~15%) 했습니다.
ReTac-ACT (눈 + 촉각):
- 3mm 구멍: 90% 성공
- 0.1mm 구멍 (산업용 초정밀): 80% 성공

마치 눈을 가린 상태에서 촉각만으로 바늘구멍에 실을 꿸 수 있는 수준으로 발전한 것입니다.

🚀 결론

이 연구는 로봇이 인간의 손처럼 눈과 손끝 감각을 동시에 활용할 때만, 아주 정밀하고 복잡한 조립 작업을 할 수 있음을 증명했습니다.

핵심 메시지: 로봇이 더 똑똑해지려면 '눈'만 더 좋은 카메라로 바꾸는 게 아니라, '손끝 감각'을 제대로 느끼고 상황에 따라 눈과 손끝을 적절히 섞어 쓰는 능력이 필요합니다.

이 기술은 앞으로 자동차 부품 조립, 반도체 제작, 혹은 정밀한 수술 로봇 등 눈으로 볼 수 없는 미세한 부분까지 정밀하게 다뤄야 하는 모든 분야에 큰 도움을 줄 것으로 기대됩니다.

Each language version is independently generated for its own context, not a direct translation.

논문 요약: ReTac-ACT (정밀 조립을 위한 상태 게이트 비전 - 촉각 융합 트랜스포머)

1. 문제 정의 (Problem)

정밀 조립의 한계: 로봇의 정밀 조립 (예: 핀 - 구멍 삽입) 작업은 "마지막 밀리미터" 구간에서 접촉이 빈번하게 발생하며, 이때 엔드 이펙터와 작업물로 인한 **시각적 가림 (Occlusion)**으로 인해 시각 피드백이 무력화됩니다.
기존 방법의 결함: 기존의 비전 기반 모방 학습 (Imitation Learning, IL) 방법들 (ACT, Diffusion Policy 등) 은 시각 정보에 과도하게 의존합니다. 이로 인해 접촉 단계에서 중요한 촉각 정보가 누락되어, 시각이 가려지거나 기하학적 모호성이 있는 환경에서 실패율이 매우 높습니다.
필요성: 고해상도 촉각 센서 기술의 발전에도 불구하고, 이를 기존 비전 중심의 트랜스포머 아키텍처에 효과적으로 통합하여 동적으로 융합하는 메커니즘이 부족했습니다.

2. 제안 방법론 (Methodology)

저자들은 **ReTac-ACT (Reconstruction-enhanced Tactile ACT)**를 제안했습니다. 이는 기존 ACT(Action Chunking with Transformers) 아키텍처를 확장하여 촉각 피드백을 원천적으로 처리할 수 있도록 설계된 비전 - 촉각 융합 정책입니다.

핵심 아키텍처 구성:
1. 멀티모달 인코더 (Multi-Modal Encoders):
  - 비전 인코더: 3 개의 RGB 카메라 입력을 ResNet-18 기반으로 처리.
  - 촉각 인코더: GelSight/Xense와 같은 광학 촉각 센서 (손가락 4 개) 의 고해상도 이미지를 처리하기 위해 자연어 이미지 (ImageNet) 가 아닌 전용 5 층 CNN을 사용.
2. 양방향 교차 주의 (Bidirectional Cross-Attention):
  - 시각 및 촉각 토큰이 서로를 강화할 수 있도록 상호 주의 메커니즘을 도입합니다. 이는 시각이 촉각을 정제하고, 촉각이 시각적 위치를 보정하는 상호 보완적 관계를 형성합니다.
3. 상태 게이트 동적 융합 (State-Gated Dynamic Fusion):
  - 로봇의 고유감각 (Proprioception) 상태에 기반한 게이트 네트워크 (MLP) 를 통해 시각과 촉각의 가중치를 동적으로 조절합니다.
  - 자유 공간 접근 단계: 시각 정보가 우세하게 작용.
  - 접촉 및 삽입 단계: 시각이 가려지면 게이트가 자동으로 촉각 정보의 비중을 높여 정밀한 보정을 수행합니다.
4. 촉각 재구성 보조 목적 함수 (Tactile Reconstruction Objective):
  - 촉각 인코더가 단순한 질감이 아닌 **고주파수 접촉 기하학 (Contact Geometry)**을 학습하도록 강제하기 위해, 학습 중 원본 촉각 이미지를 재구성하는 보조 손실 함수를 사용합니다. 이는 특징 붕괴 (Feature Collapse) 를 방지하고 미세한 접촉 변형을 포착하게 합니다.
손실 함수: 행동 예측 손실 ( $L_{l1}$ ), VAE KL 발산 ( $L_{KL}$ ), 촉각 재구성 손실 ( $L_{rec}$ ), 그리고 시각 - 촉각 정렬을 위한 대비 손실 (Contrastive Loss, $L_{con}$ ) 을 결합하여 학습합니다.

3. 주요 기여 (Key Contributions)

ReTac-ACT 프레임워크: 고유감각 조건부 게이트 메커니즘과 양방향 교차 주의를 통해 ACT 를 촉각 입력에 호환되도록 확장한 최초의 프레임워크 중 하나입니다.
촉각 표현 학습 기법: 보조 재구성 목적 함수를 통해 촉각 인코더가 작업 관련 접촉 기하학을 명시적으로 학습하도록 유도하여, 서브-밀리미터 단위의 편차에 대한 민감도를 극대화했습니다.
대규모 데이터셋 및 오픈소스: NIST ATB M1 벤치마크 기반의 5,000 개 이상의 전문가 데모 트래젝토리를 포함하는 비전 - 촉각 핀 - 구멍 조립 데이터셋과 전체 코드베이스를 공개합니다.

4. 실험 결과 (Results)

실험은 NIST Assembly Task Board (ATB) M1 벤치마크에서 수행되었으며, 3mm, 1mm, 0.1mm 의 간극 (Clearance) 수준에서 평가되었습니다.

성능 비교 (3mm 간극):
- ReTac-ACT: 핀 - 구멍 삽입 성공률 90% (그립 실패율 0%).
- 기존 ACT: 40% 성공.
- Diffusion Policy: 20% 성공.
- pi05 (일반적 VLA 모델): 20% 성공.
극한 정밀도 (0.1mm 간극):
- ReTac-ACT 는 **80%**의 성공률을 유지한 반면, 기존 ACT 는 15% 로 급락하고 Diffusion Policy 는 0% 로 완전히 실패했습니다. 이는 시각적 가림이 심한 환경에서 촉각의 결정적 역할을 입증합니다.
Ablation Study (성분 분석):
- 모든 구성 요소 (양방향 주의, 상태 게이트, 촉각 재구성) 가 필수적임을 확인했습니다. 특히 상태 게이트를 제거하면 성공률이 90% 에서 35% 로 떨어졌으며, 촉각 재구성을 제거하면 15% 로 하락했습니다.
시각화 분석:
- ReTac-ACT 는 접촉 순간 시각적 주의를 배경에서 작업 객체 (핀과 구멍) 로 즉시 전환하며, 비전 - 촉각 교차 주의를 통해 노이즈를 효과적으로 억제하는 것을 확인했습니다.

5. 의의 및 결론 (Significance)

산업적 적용 가능성: 0.1mm 간극 (ISO IT6–IT7 등급에 근접) 에서 80% 의 성공률을 달성함으로써, 기존 비전 기반 로봇이 수행하기 어려웠던 초정밀 산업 조립 작업에 대한 실용적인 솔루션을 제시했습니다.
모달리티 불균형 해결: 시각 정보가 우세한 환경과 촉각 정보가 필수적인 환경을 동적으로 전환하는 '상태 게이트' 메커니즘을 통해, 두 모달리티의 불균형 문제를 해결하고 상호 보완적 이점을 극대화했습니다.
연구 커뮤니티 기여: 표준화된 벤치마크와 대규모 데이터셋을 공개함으로써, 향후 정밀 조립 및 비전 - 촉각 융합 연구의 재현성과 발전에 기여할 것으로 기대됩니다.

이 논문은 로봇이 인간의 '시각과 촉각의 시너지'를 모방하여, 시각 정보가 실패하는 마지막 밀리미터 구간에서도 정밀한 작업을 수행할 수 있는 새로운 패러다임을 제시합니다.