Each language version is independently generated for its own context, not a direct translation.

🤖 로봇의 딜레마: "눈만 믿을지, 손끝을 믿을지?"

상상해 보세요. 로봇이 전선 꽂기나 서랍 열기 같은 일을 하고 있습니다.

**눈 (카메라)**은 멀리서 보는 거예요. "아, 구멍이 저기 있네!"라고 알려주지만, 구멍에 꽂히는 순간의 미세한 '끼임'이나 '미끄러짐'은 눈으로 구별하기 어렵습니다.
**손끝 (힘/토크 센서)**은 아주 민감하게 반응합니다. "아, 너무 세게 밀고 있네!" 혹은 "아, 살짝 비틀렸네!"라고 즉각 알려주죠.

기존의 로봇들은 **눈 (시각)**에만 너무 의존하거나, 힘 센서 데이터를 처리하는 속도가 너무 느려서 "아, 끼였네!"라고 깨닫는 순간 이미 늦어버리는 경우가 많았습니다. 마치 운전하면서 앞만 보고 핸들을 돌리는 것과 같아서, 갑자기 튀어나온 장애물을 피할 때 반응이 늦는 셈이죠.

💡 PhaForce 의 해결책: "느린 계획가"와 "빠른 수리공"의 팀워크

PhaForce 는 이 문제를 해결하기 위해 로봇에게 두 명의 전문가를 배치했습니다.

1. 느린 계획가 (Slow Planner) - "지도 보는 전략가"

역할: 로봇의 전체적인 움직임을 미리 계획합니다. (예: "일단 서랍 쪽으로 가자.")
특징: 생각할 시간이 좀 걸리지만 (6Hz), **눈 (시각)**을 주력으로 삼습니다. 하지만 힘 센서 데이터도 "어떤 단계에 있는지"를 고려해서 아주 조심스럽게 참고합니다.
비유: 여행을 계획하는 여행사 대표입니다. "오늘은 산을 오를 거야"라고 큰 그림을 그립니다. 하지만 등산 중 돌이 튀어나오면 바로 발을 떼는 건 아니죠.

2. 빠른 수리공 (Fast Corrector) - "즉각 반응하는 수리공"

역할: 계획된 움직임이 틀어지면 순간순간 바로 고쳐줍니다. (예: "아, 너무 세게 밀고 있네! 살짝 빼자.")
특징: 매우 빠릅니다 (24Hz). 눈은 보지 않고 손끝의 힘에만 집중해서 미세한 조정을 합니다.
비유: 운전 중 핸들을 미세하게 조작하는 운전사입니다. "아, 차가 살짝 미끄러지네?" 하면 즉시 핸들을 돌려 길을 잡죠.

🔑 핵심 기술: "상황에 맞는 지시" (Phase-Scheduled)

이 두 전문가가 서로 싸우지 않고 잘 협력하게 만드는 것이 이 기술의 핵심입니다. 바로 "상황 (Phase)"을 아는 것입니다.

상황 1: 구멍 찾기 (Search)
- 로봇이 구멍을 찾을 때는 **좌우 (X, Y)**로 살짝 움직여야 합니다. 이때는 힘 센서가 "여기 맞았어!"라고 알려주면 바로 반응해야 합니다.
상황 2: 꽂기 (Insert)
- 구멍에 꽂을 때는 **아래 (Z)**로 힘을 주면서 밀어야 합니다. 이때 좌우로 움직이면 오히려 끼일 수 있습니다.

PhaForce 의 마법:
로봇은 **"지금 내가 어떤 단계인가?"**를 스스로 판단합니다.

"아, 이제 구멍 찾기 단계구나!" → 빠른 수리공이 "좌우로 움직여라"라고 지시합니다.
"아, 이제 꽂기 단계구나!" → 빠른 수리공이 "아래로만 밀어라"라고 지시합니다.

만약 이 지시가 없다면, 로봇이 꽂는 단계에서도 좌우로 흔들다가 구멍에 끼여버리는 (Jamming) 실수를 저지를 수 있습니다. PhaForce 는 이 단계별 지시를 통해 로봇이 언제, 어디에 힘을 써야 할지 정확히 알려줍니다.

🏆 실제 성과: 얼마나 잘할까요?

이 기술을 실제 로봇에 적용해 보니 놀라운 결과가 나왔습니다.

성공률 대폭 상승: 기존 로봇들이 60% 정도 성공하던 일을, 이 기술은 **86%**까지 성공률을 높였습니다. (약 40% 포인트 향상!)
예상치 못한 상황에도 강함: 실험실에서는 책상 높이가 10cm 였는데, 실제 사용 시 13cm 로 바뀌어도 (OOD 상황) 로봇이 힘 센서를 이용해 "아, 높이가 다르네? 힘을 조절해서 맞춰야지"라고 스스로 적응했습니다. 기존 로봇들은 이때 완전히 멈춰버리거나 벽을 밀어대서 실패했습니다.
부드러운 작업: 서랍을 열거나 닦을 때, 너무 세게 누르거나 너무 약해서 떨어지는 일이 거의 없었습니다. 마치 숙련된 장인이 작업하는 것처럼 부드럽습니다.

📝 한 줄 요약

PhaForce는 로봇에게 "눈으로 큰 그림을 그리되 (Slow), 손끝의 느낌을 통해 순간순간 미세하게 수정하는 (Fast)" 능력을赋予了, 특히 단계별로 힘의 쓰임새를 지능적으로 조절하게 함으로써, 복잡한 물체 조작 (전선 꽂기, 서랍 열기 등) 에서 인간처럼 유연하고 정확한 작업을 가능하게 만든 기술입니다.

마치 숙련된 요리사가 큰 칼질 (계획) 은 눈으로 하지만, 소금 간을 맞추거나 재료를 다질 때는 손끝의 감각 (힘) 을 이용해 즉각적으로 조절하는 것과 같은 원리입니다.

Each language version is independently generated for its own context, not a direct translation.

PhaForce: 접촉이 풍부한 조작을 위한 위상 계획 (Phase-Scheduled) 비전 - 힘 정책 학습

이 논문은 PhaForce라는 새로운 프레임워크를 제안합니다. 이는 접촉이 풍부한 (contact-rich) 로봇 조작 작업에서 비전 (시각) 정보와 힘/토크 (Force/Torque, F/T) 센서 데이터를 효과적으로 통합하여, 저주파수 계획과 고주파수 보정을 조율하는 정책 학습 방법론입니다.

1. 문제 정의 (Problem)

접촉이 풍부한 작업 (예: 플러그 꽂기, 서랍 열기, 닦기 등) 은 단순히 기하학적 정렬뿐만 아니라 마찰, 끼임 (jamming), 충격과 같은 상호작용 역학에 크게 의존합니다. 기존 연구들은 다음과 같은 한계를 가집니다:

시간 척도 불일치 (Gap-1): 힘/토크 (F/T) 신호는 밀리초 단위의 폐루프 보정이 필요하지만, 생성형 비전 - 모션 정책 (Diffusion Policy 등) 은 추론 지연과 액션 청킹 (action chunking) 으로 인해 저주파수 (예: 6Hz) 로만 업데이트됩니다. 이로 인해 짧은 시간 동안 발생하는 접촉 이벤트 (예: 스틱 - 슬립, 미세 충격) 에 대한 즉각적인 반응이 부족합니다.
명시적 위상 스케줄링 부재 (Gap-2): 기존 힘 인지 방법들은 힘을 지속적으로 무차별적으로 주입하는 경향이 있습니다. 그러나 접촉이 풍부한 작업은 작업 단계 (예: 접근, 검색, 삽입, 복구) 에 따라 서로 다른 힘의 활용과 교정 하위 공간 (corrective subspaces) 이 필요합니다. 언제, 얼마나, 어디에 힘을 적용해야 하는지에 대한 명시적인 계획이 없으면 불필요한 보정이 발생하여 정렬을 해치거나 끼임을 유발할 수 있습니다.

2. 방법론 (Methodology)

PhaForce 는 **저속 계획 (Slow Planning)**과 **고속 보정 (Fast Correction)**을 통합한 위상 계획 (Phase-Scheduled) Slow-Fast 아키텍처를 사용합니다.

2.1. 구성 요소

접촉 인지 위상 예측기 (Contact-Aware Phase Predictor, CAP):
- 입력: 멀티뷰 RGB 이미지, 힘/토크 히스토리, 프로프리오셉션.
- 출력: **연속적인 접촉 확률 ( $p_c$ )**과 위상 신념 분포 ( $p_t$ ).
- 역할: 미래의 접촉 발생을 예측하고 현재 작업이 어떤 위상 (예: 검색, 삽입, 복구) 에 있는지 판단하여, 힘 데이터의 활용 시기와 강도를 스케줄링하는 신호를 제공합니다.
저속 확산 계획기 (Slow Diffusion Planner):
- 동작: 저주파수 (예: 6Hz) 로 실행되어 전체 액션 청크 (action chunk) 를 생성합니다.
- 이중 게이트 퓨전 (Dual-Gated Fusion): 비전과 힘을 융합할 때, 접촉 확률 ( $p_c$ ) 로 전체 힘 주입 강도를 조절하고, 위상 신념 ( $p_t$ ) 으로 각 헤드의 주의를 조절합니다.
- 직교 잔차 주입 (Orthogonal Residual Injection, ORI): 힘 정보가 비전 기반의 작업 의미 (task semantics) 를 훼손하지 않도록, 힘 정보를 비전 토큰에 직교하는 성분으로만 잔차 (residual) 형태로 주입합니다. 이는 비전이 지배적인 의미 체계를 유지하면서 힘에 기반한 조건부 학습을 가능하게 합니다.
고속 잔차 보정기 (Fast Residual Corrector):
- 동작: 고주파수 (예: 24Hz) 로 실행되어 청크 내에서의 미세 조정을 수행합니다.
- 위상 라우팅 교정 하위 공간 (Phase-Routed Corrective Subspaces): CAP 에서 예측된 위상 신념을 기반으로, 현재 위상에 적합한 교정 채널 (예: 검색 위상에서는 $x, y, yaw$ , 삽입 위상에서는 $z, yaw$ ) 만 활성화합니다.
- 물리 기반 감독 (Physical-Prior Supervision): 명시적인 목표 포즈를 추정하는 대신, 힘 피드백을 통해 유도된 물리적 우선순위 (예: 접착력 완화, 수직 힘 유지) 를 기반으로 잔차 보정 목표를 생성하여 학습합니다.

2.2. 실행 흐름

최종 제어 명령은 Slow Planner 가 생성한 기본 액션 (Nominal Action) 에 Fast Corrector 가 계산한 잔차 보정 (Residual Correction) 을 SE(3) 공간에서 합성하여 얻어집니다.

3. 주요 기여 (Key Contributions)

PhaForce 프레임워크 제안: 힘 인지 청크 수준의 생성적 계획과 제어 주기의 잔차 보정을 통합한 위상 계획 Slow-Fast 정책을 최초로 제안했습니다.
명시적 스케줄링 신호: 접촉 확률과 위상 신념을 사용하여 "언제/얼마나 힘을 사용할지 (계획 단계)"와 "어디를 보정할지 (실행 단계)"를 결정하는 해석 가능한 메커니즘을 도입했습니다.
성능 검증: 다양한 실제 로봇 작업 (플러그 꽂기, 서랍 열기, 닦기 등) 에서 기존 최강 베이스라인 대비 평균 성공률 40%p 향상 및 OOD(분포 외) 환경에서의 강력한 적응력을 입증했습니다.

4. 실험 결과 (Results)

실험 설정: Flexiv Rizon 4s 로봇 팔, 6 축 힘/토크 센서, 멀티뷰 카메라를 사용하여 5 가지 접촉이 풍부한 작업 (충전기 꽂기, USB 꽂기, 서랍 열기, 닦기 (ID/OOD)) 을 수행했습니다.
성능 비교:
- 평균 성공률 (SR): PhaForce 는 **86%**의 성공률을 기록하여, 기존 방법 (DP, DP+Force, RDP) 보다 평균 40%p 높은 성능을 보였습니다.
- 플러그 꽂기 작업: 미세한 정렬 오류와 끼임 상황에서 기존 방법들이 실패하는 경우 (정지, 부분 삽입, 미끄러짐) 를 위상 예측을 통한 '후퇴 및 재시도' 전략과 정확한 하위 공간 보정으로 해결했습니다.
- OOD (닦기 작업): 훈련 데이터와 다른 높이 (3cm 차이) 에서 기존 방법들은 실패하거나 과도한 압력을 가했으나, PhaForce 는 힘 피드백을 통해 높이를 보상하고 안정적인 닦기 작업을 수행했습니다.
- 접촉 품질: 닦기 작업에서 과도한 압력 (Over-pressure) 과 접촉 손실 (Under-pressure) 비율을 크게 줄여 작업의 효율성을 높였습니다.

5. 의의 및 결론 (Significance)

PhaForce 는 접촉이 풍부한 로봇 조작에서 비전의 의미적 이해와 힘의 실시간 반응성 사이의 간극을 해결합니다.

해석 가능성: 위상별 교정 하위 공간을 명시적으로 정의하여 로봇이 언제 어떤 방향으로 힘을 보정해야 하는지 해석 가능하게 만듭니다.
강건성: 환경 변화 (OOD) 에 대해 힘 피드백을 활용한 적응적 보정 메커니즘을 통해 기존 생성형 정책의 한계를 극복했습니다.
미래 방향: 강화 학습을 통한 보정기 학습 및 다양한 기술과 신체 구조에 일반화되는 VLA(Vision-Language-Action) 모델로 확장 가능성을 제시합니다.

요약하자면, PhaForce 는 "느리게 생각하지만 빠르게 반응하는" 로봇 제어 패러다임을 정립하여, 복잡한 물리적 상호작용이 필요한 실제 로봇 작업의 성공率和 안정성을 획기적으로 향상시킨 연구입니다.

PhaForce: Phase-Scheduled Visual-Force Policy Learning with Slow Planning and Fast Correction for Contact-Rich Manipulation