Viewpoint-Agnostic Grasp Pipeline using VLM and Partial Observations

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"시야가 가려진 복잡한 환경에서도 로봇이 자연스럽게 물건을 집을 수 있게 해주는 새로운 방법"**을 소개합니다.

기존의 로봇들은 물체가 가려지거나 (occlusion), 시야가 좁을 때 "어디에 손이 닿을지"를 정확히 예측하지 못해 실패하거나, 벽에 부딪히기 일쑤였습니다. 이 연구는 **거대 언어 모델 (VLM)**과 3D 지각 기술을 결합하여, 로봇이 마치 "눈이 가려진 상태에서도 물체의 전체 모양을 상상해내고, 안전하게 다가가서 잡는" 능력을 갖게 했습니다.

이 복잡한 기술을 일상적인 비유로 쉽게 설명해 드리겠습니다.

🤖 1. 상황: "눈이 가려진 복잡한 창고"

상상해 보세요. 로봇이 복잡한 창고 (책상 위) 에 있습니다. 여기저기 박스와 물건들이 널려 있고, 로봇이 잡으려는 **'파란색 병'**은 다른 물건 뒤에 반쯤 숨겨져 있습니다.

기존 로봇 (Baseline): "보이는 부분만 보고 잡으려 한다." → "아, 여기 손이 닿는구나!"라고 생각하며 다가가는데, 실제로는 뒤에 박스가 있어서 팔이 부딪히거나, 가려진 부분을 잘못 판단해 물건을 떨어뜨립니다.
이 논문의 로봇 (Proposed Method): "보이는 부분만 보고 끝내지 않는다." → "이건 파란 병이구나. 가려진 부분도 내가 상상해서 전체 모양을 그려내고, 가장 안전한 길로 다가가서 잡겠다."라고 생각합니다.

🧩 2. 어떻게 작동할까? (3 단계 프로세스)

이 시스템은 크게 세 가지 단계를 거칩니다.

1 단계: "스마트한 눈"으로 물건 찾기 (언어 기반 탐지)

비유: 사람이 "저기 있는 빨간 사과를 줘"라고 말하면, 로봇은 카메라로 주변을 훑으며 "아, 빨간 사과가 있네!"라고 찾아냅니다.
기술: 로봇은 사람의 말 (예: "파란 병") 을 이해하고, 복잡한 배경에서도 그 물체를 정확히 찾아냅니다. 이때 Grounding DINO와 SAM 2라는 AI 모델을 써서, 가려진 부분까지 정확히 윤곽을 그립니다.

2 단계: "상상력"으로 가려진 부분 채우기 (3D 지각 완성)

비유: 조각난 퍼즐 조각만 가지고 있어도, "이건 아마도 이런 모양일 거야"라고 상상력을 발휘해 퍼즐을 완성하는 것과 같습니다.
기술: 로봇 카메라로 보이는 부분만으로는 3D 모양이 불완전합니다. 그래서 MGPC와 PoinTr이라는 AI 를 이용해, 가려진 뒷면이나 구석진 부분의 모양을 상상해서 채워 넣습니다. 마치 안개 낀 날에 앞만 보고 운전하다가, AI 가 뒷모습까지 그려주어 전체 차체를 인식하는 것과 같습니다. 이렇게 하면 로봇은 물체의 '진짜 3D 모양'을 완벽하게 이해하게 됩니다.

3 단계: "안전한 길" 찾아서 잡기 (실행 계획)

비유: 물건을 잡으러 갈 때, "가장 짧은 길"만 고집하지 않고, "벽에 부딪히지 않는 가장 안전한 길"을 찾아갑니다.
기술: 로봇은 완성된 3D 모양을 보고 1,000 가지 이상의 잡는 방법 (그립) 을 시뮬레이션합니다. 그중에서 팔이 부딪히지 않고, 로봇 몸체가 닿지 않으며, 가장 안정적으로 잡을 수 있는 방법 하나를 골라냅니다. 만약 현재 위치에서 잡기 어렵다면, 로봇이 스스로 발을 옮겨 (기동) 더 좋은 위치로 이동한 후 잡습니다.

🏆 3. 실험 결과: "완벽한 승리"

연구진은 실제 로봇 (Boston Dynamics 의 Spot, 4 발 로봇에 팔이 달린 형태) 을 이용해 실험했습니다.

상황: 책상 위에 박스와 물건들이 뒤죽박죽 섞여 있고, 목표물은 가려져 있습니다.
결과:
- 기존 방식 (보이는 것만 보고 잡기): 10 번 중 3 번만 성공. 나머지는 팔이 부딪히거나 잡을 수 없는 위치를 선택해 실패했습니다.
- 이 논문의 방식 (상상력 + 안전 계획): 10 번 중 9 번 성공!
- 핵심: 가려진 부분을 AI 가 상상해 채워주고, 로봇이 스스로 위치를 조정하면서 잡으니 실패율이 확 줄었습니다.

💡 4. 왜 이 연구가 중요한가?

이 기술은 로봇이 **실제 세상 (Unstructured Environment)**에서 일할 수 있는 핵심 열쇠입니다.

기존: 로봇은 "완벽하게 보이는 환경"에서만 일할 수 있었습니다.
이제: 로봇은 "가려진 환경"에서도 "보이지 않는 부분을 상상하고, 안전하게 다가가서" 일을 할 수 있게 되었습니다.

📝 요약

이 논문은 로봇에게 **"눈이 가려져도 상상력으로 전체를 보고, 부딪히지 않는 안전한 길을 찾아서 물건을 잡는 능력"**을 심어주었습니다. 마치 안개 낀 밤에 운전할 때, 앞만 보지 않고 주변을 상상하며 안전하게 목적지에 도달하는 숙련된 운전자처럼 말이죠.

이 기술이 발전하면, 재난 현장이나 복잡한 창고에서 로봇이 사람 대신 안전하게 물건을 옮기거나 수리하는 일을 훨씬 더 잘해낼 수 있을 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

배경: 비정형 환경 (Inspection, Field Operations 등) 에서 로봇은 가려진 물체, 제한된 시점, 불완전한 깊이 (Depth) 정보와 같은 부분적 관측 조건 하에서 물체를 조작해야 합니다.
도전 과제:
- 기존 그립 알고리즘은 가시적인 표면만 기반으로 기하학적 유효성을 예측하지만, 숨겨진 기하학적 구조나 접근 경로상의 장애물을 고려하지 않아 실제 실행 시 충돌이나 불안정성이 발생할 수 있습니다.
- 시각 - 언어 모델 (VLM) 을 통한 의미론적 타겟 지정 (Semantic Targeting) 과 3D 그립 실행 사이의 간극을 메우는 통합 파이프라인이 부재했습니다.
- 이동형 플랫폼 (Quadruped 등) 에서는 기저 (Base) 의 재배치와 암 (Arm) 의 가동 범위 (Reachability) 를 동시에 고려해야 하는 복잡성이 존재합니다.

2. 제안된 방법론 (Methodology)

제안된 파이프라인은 자연어 명령에서부터 실제 로봇 실행까지의 End-to-End 프로세스를 4 단계 모듈로 구성합니다.

A. 탐지 및 분할 (Detection and Segmentation)

자연어 기반 타겟 지정: 운영자가 "파란 병 (blue bottle)"과 같은 자연어 명령을 입력합니다.
오픈 보카불러리 탐지: Grounding DINO 를 사용하여 텍스트 쿼리에 해당하는 물체의 바운딩 박스를 탐지합니다.
인스턴스 분할: 탐지된 박스를 프롬프트로 사용하여 SAM 2 (Segment Anything Model 2) 를 통해 픽셀 단위의 정밀한 물체 마스크 (Instance Mask) 를 생성합니다.
트래킹: 실행 중 마스크가 손실되면 탐지를 재개하고, 그렇지 않으면 SAM 2 를 통해 연속적인 트래킹을 유지합니다.

B. 포인트 클라우드 생성 및 추정 (Point Cloud Generation & Estimation)

부분 관측 하에서 물체의 3D 기하학을 복원하는 핵심 단계입니다.

물체 중심 포인트 클라우드 추출: RGB-D 카메라 데이터를 기반으로 Isaac ROS Nvblox 를 사용하여 깊이 이미지를 역투영 (Back-projection) 하고, 생성된 마스크를 적용하여 물체 중심의 부분 포인트 클라우드 ( $P_{partial}$ ) 를 추출합니다.
깊이 보상 (Depth Compensation): 깊이 데이터의 결손 (Holes) 과 노이즈를 보정하기 위해 이미지 평면의 국소 이웃 일관성을 활용하여 깊이 보상을 수행합니다.
부분 관측 기반 완성 (Completion):
- MGPC: 멀티모달 컨텍스트 (프롬프트, RGB, 부분 포인트 클라우드) 를 활용하여 누락된 기하학을 추정합니다.
- PoinTr: MGPC 를 거친 데이터를 고정된 크기의 로컬 패치로 분할하여 PoinTr 모델을 통해 추가적으로 밀도 (Densification) 를 높이고 표면 구조를 정제합니다.
- 이를 통해 가려진 부분까지 포함한 완성된 포인트 클라우드 ( $P_{complete}$ ) 를 생성합니다.

C. 그립 포즈 생성 및 선택 (Grasp Pose Generation & Selection)

후보 생성: 완성된 포인트 클라우드를 기반으로 Grasp Pose Generator (GPG) 를 사용하여 1,000 개의 6-DoF 그립 후보를 샘플링합니다.
충돌 필터링: 생성된 후보들을 주변 장면 포인트 클라우드와 비교하여 충돌이 발생하는 것을 제거합니다.
휴리스틱 순위 매기기 (Heuristic Ranking): 충돌이 없는 후보들 중에서 다음 요소들을 고려하여 최적의 그립 ( $g^*$ $g^{*}$ ) 을 선택합니다.
- 정렬 (Alignment): 로봇 기저 방향과 그립 접근 방향의 각도 차이 최소화.
- 접근 편향 (Approach Bias): 아래쪽 접근 등 기구학적으로 제한된 방향에 대한 패널티 부과.
- 중심성 (Centrality): 물체 중심과의 거리 고려 (불완전한 기하학에 대한 민감도 감소).
- 가동 범위 제약 (Reachability): 로봇 기저로부터의 최대 도달 거리 ( $r_{max}$ ) 를 초과하는 경우 패널티 부과.

D. 실행 및 모션 제어 (Execution & Motion Control)

상태 머신 기반 제어: 선택된 그립이 현재 자세에서 도달 불가능한 경우, 로봇 기저 (Base) 를 그립 접근 방향으로 재배치하여 가동 범위와 여유 공간 (Clearance) 을 확보합니다.
접근 및 폐쇄: 안전 거리 ( $\delta$ ) 만큼 이격된 프리 - 그립 포즈 (Pre-grasp pose) 로 접근한 후, 최종 포즈로 삽입하고 그리퍼를 닫습니다.

3. 주요 기여 (Key Contributions)

통합 End-to-End 프레임워크: 자연어 기반 타겟 지정부터 실행 가능한 그립까지를 연결하는 통합 파이프라인을 제시했습니다.
실행 인식형 그립 선택 (Execution-Aware Selection): 충돌, 접근 가능성, 기구학적 제한을 고려하여 실제 실행 가능성을 보장하는 휴리스틱 선택 전략을 도입했습니다.
가려짐에 강한 기하학 추정: 마스크 기반 RGB-D 관측에서 깊이 보상과 MGPC/PoinTr 기반의 2 단계 포인트 클라우드 완성을 통해 심각한 부분 관측 상황에서도 안정적인 3D 형상을 복원했습니다.
모바일 로코매니퓰레이션 (Locomanipulation): 그립 계획과 기저 재배치를 연동하여 혼잡한 환경에서의 접근성과 신뢰성을 향상시켰습니다.
실제 환경 검증: Boston Dynamics Spot 로봇 (4 발 보행 로봇 + 암) 을 사용하여 실제 혼잡한 환경에서 실험을 수행하고 검증했습니다.

4. 실험 결과 (Results)

실험 설정: Boston Dynamics Spot 로봇을 사용하여 두 가지 혼잡한 테이블탑 시나리오 (드릴, 파란 병) 에서 수행되었습니다.
비교 대상: 제안된 방법 (Viewpoint-Agnostic, 완성 및 이동 기반) vs. 기존 방법 (View-Dependent, 단일 관측 및 고정 위치).
성공률:
- 제안 방법: 총 10 회 중 9 회 성공 (90%).
- 기존 방법 (Baseline): 총 10 회 중 3 회 성공 (30%).
실패 모드 분석:
- 기존 방법은 주로 접근 경로상의 충돌 (Clutter collision) 로 실패했습니다.
- 제안 방법은 가려짐을 보완한 기하학 추정과 기저 재배치로 인해 충돌 실패가 크게 감소했으며, 실패 사례 1 건은 주로 도달 범위 (Reachability) 문제였습니다.

5. 의의 및 결론 (Significance & Conclusion)

이 연구는 부분 관측과 가려짐이 심한 비정형 환경에서 로봇이 자연어 명령을 받아 안전하게 물체를 그립할 수 있는 가능성을 입증했습니다.

핵심 통찰: 단순히 기하학적 그립을 예측하는 것을 넘어, 시맨틱 (Semantic) 타겟 지정 → 불완전한 3D 기하학 복원 → 실행 제약 조건을 고려한 그립 선택이라는 통합 흐름이 실제 로봇의 성공률을 획기적으로 높인다는 것을 보여줍니다.
한계 및 향후 과제: VLM 기반의 타겟 식별 신뢰성, 저해상도/노이즈가 심한 깊이 센서의 한계, 그리고 외부 컴퓨팅 의존도를 줄이기 위한 온보드 (Onboard) 최적화 등이 향후 과제로 남았습니다.

이 논문은 이동형 로봇이 복잡한 현실 세계에서 자율적으로 작업을 수행하기 위해 필요한 지각 (Perception) - 계획 (Planning) - 실행 (Execution) 의 통합적 접근의 중요성을 강조합니다.