See, Act, Adapt: Active Perception for Unsupervised Cross-Domain Visual Adaptation via Personalized VLM-Guided Agent

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"보이는 것만 믿지 말고, 직접 움직여서 더 잘 보이게 하라"**는 아주 실용적인 아이디어를 담고 있습니다.

기존의 인공지능(AI) 카메라는 인터넷에서 수많은 사진을 보고 학습했지만, 실제 우리 집 안처럼 복잡한 환경에 들어가면 엉뚱한 것을 보거나 못 찾는 경우가 많습니다. 보통은 이 문제를 해결하기 위해 AI 모델을 다시 학습시키는데, 이는 비용도 많이 들고 기존 지식을 잊어버리는 '망각' 문제도 있습니다.

이 논문은 **"모델을 고치는 게 아니라, 모델을 쓰는 '사람'을 똑똑하게 만들자"**는 새로운 접근법을 제시합니다. 이를 Sea2(See, Act, Adapt: 보고, 행동하고, 적응하다) 라고 부릅니다.

이 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

🕵️‍♂️ 비유: "눈이 나쁜 탐정"과 "똑똑한 조수"

상상해 보세요. AI 모델은 눈이 나쁜 탐정입니다. 이 탐정은 인터넷에서 수많은 사진을 봐서 '의자'나 '냉장고'를 잘 알아보는 능력은 있지만, 실제 집 안으로 들어가면 어둡거나 가려져서 잘 못 봅니다.

기존 방식은 이 탐정에게 "너 눈이 나쁘니까 안경(모델) 을 새로 만들어줘"라고 하는 것이었습니다. 하지만 이 논문은 **"안경을 고치지 말고, 탐정을 도와주는 똑똑한 조수 (에이전트) 를 붙이자"**고 제안합니다.

1. 문제 상황: "눈이 나쁜 탐정"

상황: 탐정 (AI) 이 방에 들어갔는데, 소파가 책상 뒤에 가려져 있습니다.
결과: 탐정은 "소파가 없어!"라고 외치거나 엉뚱한 것을 잡습니다.
기존 해결책: 탐정에게 다시 수업을 시키거나 (학습), 소파의 정확한 위치를 알려주는 지도 (레이블) 를 사야 합니다. 하지만 지도는 비싸고, 수업을 시키면 탐정이 예전에 배운 다른 지식을 잊어버릴 수도 있습니다.

2. Sea2 의 해결책: "똑똑한 조수"

이 논문은 탐정 (AI) 은 그대로 두고, **VLM(시각 - 언어 모델) 이라는 '똑똑한 조수'**를 붙입니다. 이 조수의 임무는 탐정이 잘 볼 수 있도록 카메라 (눈) 의 위치를 조정하는 것입니다.

See (보고): 조수는 탐정이 지금 무엇을 보고 있는지, 그리고 탐정이 "이게 뭐야?"라고 얼마나 자신 있게 말해주는지 확인합니다.
Act (행동): 만약 탐정이 소파를 못 보거나 가려져 있다면, 조수는 "조금 더 앞으로 가자", "왼쪽으로 살짝 돌아보자"라고 지시합니다.
Adapt (적응): 조수는 탐정이 "아, 이제 소파가 더 잘 보이네!"라고 자신감 있게 말할 때 (점수가 오를 때) "잘했어, 이 방향으로 계속 가자"라고 보상합니다.

핵심: 이 조수는 탐정 (AI 모델) 의 두뇌를 건드리지 않습니다. 오직 **"어디로 움직여야 탐정이 더 잘 보일까?"**만 학습합니다.

🚀 어떻게 작동할까요? (두 단계 훈련)

이 똑똑한 조수를 훈련시키는 데는 두 가지 단계가 있습니다.

1 단계: 규칙 배우기 (초보 조수)
- 조수에게 "물건을 찾으려면 먼저 주변을 빙글빙글 돌고, 물체가 화면 중앙에 오게 하고, 가까이 다가가라"라는 기본 규칙을 가르칩니다.
- 마치 운전 면허를 딸 때 교습소 선생님에게 "일단 핸들을 이렇게 잡아라"라고 배우는 것과 같습니다.
2 단계: 실전 훈련 (고수 조수)
- 이제 실제 집 안으로 들어갑니다. 지도 (정답) 는 없습니다.
- 대신, 탐정이 물체를 찾을 때 **"얼마나 자신 있게 찾았는지 (신뢰도)"**와 **"물체가 화면에 얼마나 잘 잡혔는지 (기하학적 위치)"**를 점수로 줍니다.
- 조수는 이 점수를 보고 "아, 내가 앞으로 한 걸음 더 갔을 때 점수가 올랐네? 다음엔 그렇게 하자"라고 스스로 학습합니다. (강화 학습)

🌟 왜 이 방법이 대단한가요?

지도가 필요 없습니다: "이게 소파다"라고 알려주는 정답 (레이블) 이 전혀 필요 없습니다. AI 가 스스로 "오, 내가 잘 봤네!"라고 느끼는 것만으로도 학습합니다.
기존 AI 를 망가뜨리지 않습니다: 이미 잘 만든 AI 모델 (눈이 나쁜 탐정) 을 건드리지 않으므로, 원래 배운 지식을 잊어버리는 일이 없습니다.
누구나 쓸 수 있습니다: 어떤 AI 모델을 쓰든 상관없이, 이 '조수'만 붙이면 바로 작동합니다. (플러그 앤 플레이)

📊 실제 성과

이 방법을 실험해 보니, 소파 찾기 (분할), 물건 위치 찾기 (바운딩 박스), 3D 공간 파악 등 다양한 작업에서 기존보다 13%~27% 까지 성능이 크게 향상되었습니다. 특히 3D 공간 파악에서는 거의 3 배에 가까운 성능 향상을 보였습니다.

💡 결론

이 논문은 "AI 가 똑똑해지는 방법"을 "모델을 더 많이 학습시키는 것"에서 "AI 가 보는 시점을 똑똑하게 조절하는 것"으로 바꿉니다.

마치 사진을 찍을 때, 카메라를 움직여서 가장 좋은 각도를 찾는 것처럼, AI 도 스스로 움직여서 가장 잘 보이는 위치를 찾게 함으로써, 별도의 학습 없이도 새로운 환경에서 뛰어난 성능을 발휘하게 만든 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

기존 대규모 시각 모델 (Pre-trained perception models) 은 인터넷 규모의 이미지 데이터로 학습되어 일반 도메인에서는 뛰어난 성능을 보이지만, 실내 환경과 같은 새로운 물리적 (Embodied) 환경으로 배포될 때 성능이 급격히 저하됩니다. 이는 시점 분포 (viewpoint distribution), 가림 (occlusion), 공간적 의미 (spatial semantics) 의 차이로 인한 도메인 간극 (Domain Gap) 때문입니다.

기존의 해결책인 하류 데이터 (downstream data) 에 대한 미세 조정 (Fine-tuning) 은 두 가지 치명적인 한계가 있습니다:

카타스트릭 포기 (Catastrophic Forgetting): 사전 학습된 지식이 손실됩니다.
높은 비용: 장면별 어노테이션 (픽셀 마스크, 3D 박스 등) 을 수집하는 데 막대한 비용과 노력이 듭니다.

따라서, 모델 자체를 수정하거나 하류 레이블 없이 새로운 도메인에 적응할 수 있는 새로운 패러다임이 필요합니다.

2. 제안 방법: Sea2 (See, Act, Adapt)

저자들은 모델의 인식 모듈 (Perception Modules) 을 수정하는 대신, 그 모듈을 어떻게 배치 (Deployment) 할지를 적응시키는 패러다임 전환을 제안합니다. 핵심 아이디어는 "관측 시점 (Viewpoint) 의 정보성 (Informativeness)"이 모델 성능에 결정적이라는 점입니다.

핵심 구성 요소

고정된 인식 모듈 (Frozen Perception Modules): 모든 인식 모델 (Grounding, Segmentation, 3D Box 등) 은 학습 중에도 고정됩니다. 따라서 하류 레이블이 필요 없으며 기존 지식의 손실이 없습니다.
VLM 기반 에이전트: 비전 - 언어 모델 (VLM) 을 저수준 포즈 컨트롤러 (Pose Controller) 로 변환하여 에이전트가 정보 풍부한 시점을 찾도록 안내합니다.
스칼라 피드백 (Scalar Feedback): 에이전트의 학습은 오직 고정된 인식 모듈이 출력하는 스칼라 값 (신뢰도, IoU 등) 에만 의존합니다.

두 단계 학습 파이프라인

지도 미세 조정 (Supervised Fine-Tuning, SFT):
- 규칙 기반 휴리스틱 탐색 궤적 (Object Search, Viewpoint Centering, Proximity Adjustment) 을 사용하여 VLM 을 공간 추론 및 제어 형식에 정렬합니다.
- 이는 RL 학습의 탐색 변동을 줄이고 안정적인 초기화를 제공합니다.
비지도 강화 학습 (Unsupervised Reinforcement Learning, RL):
- GRPO (Group Relative Policy Optimization) 알고리즘을 사용합니다.
- 보상 함수 (Reward Function):
  - 형식 보상 ( $r_f$ ): 모델 출력 구조의 정확성.
  - 신뢰도 보상 ( $r_c$ ): 전 단계 대비 인식 모듈의 신뢰도 변화 ( $c_t - c_{t-1}$ ).
  - 기하학적 보상 ( $r_g$ ): 예측 영역의 이미지 내 면적 비율과 중심 정렬도.
- 이 보상들은 하류 어노테이션 없이 고정된 모듈의 출력만으로 계산되므로, 오픈 월드 환경에서도 적용 가능합니다.

3. 주요 기여 (Key Contributions)

플러그 앤 플레이 VLM 기반 활성 인식 프레임워크: 다양한 오프 - 더 - 쉘 (Off-the-shelf) 인식 모델과 호환되며, 재학습이나 하류 레이블 없이 스칼라 출력만으로 통합됩니다.
인식 기반 보상을 이용한 비지도 RL 파이프라인: 픽셀 단위 마스크나 3D 박스 같은 밀집 어노테이션이 없는 환경에서도 효과적인 정책 학습을 가능하게 합니다.
다양한 시각 작업에서의 검증: 시각 그라운딩, 분할, 3D 박스 추정 등 3 가지 주요 작업에서 도메인 간극을 효과적으로 해결함을 입증했습니다.

4. 실험 결과 (Results)

ReplicaCAD 및 HM3D 데이터셋의 Habitat 시뮬레이션 환경에서 실험을 수행했습니다.

성능 향상 (ReplicaCAD 기준):
- 시각 그라운딩 (Visual Grounding): mAP 평균 13.54% 향상.
- 분할 (Segmentation): IoU 15.92%, Dice 13.59% 향상.
- 3D 박스 추정 (3D Box Estimation): IoU 27.68%, Center Score 25.35% 향상.
비교 분석:
- 단순 이동 (Forward/Random) 이나 휴리스틱 방법보다 훨씬 우수한 성능을 보였습니다.
- 정답 위치를 알고 있는 최단 경로 (Shortest Path) 기반 방법보다도 성능이 뛰어났으며, 이는 단순히 대상에 도달하는 것보다 시각적 정보의 질을 극대화하는 시점 선택이 중요함을 시사합니다.
- 직접 VLM 을 프롬프트로만 사용한 경우 (재학습 없이) 는 성능이 오히려 저하되어, 체계적인 학습 파이프라인의 필요성을 입증했습니다.

5. 의의 및 결론 (Significance)

이 논문은 Sea2를 통해 embodied AI 분야에서 레이블 효율적인 도메인 적응의 새로운 방향을 제시합니다.

모델 수정 없이 적응: 기존 모델의 파라미터를 변경하지 않고도 에이전트의 행동 전략을 변경하여 새로운 환경에 적응함으로써, catastrophic forgetting 문제를 완전히 해결합니다.
비용 절감: 고비용의 장면별 어노테이션 없이도 스칼라 피드백만으로 학습이 가능하여, 실제 로봇 적용 시 데이터 수집 비용을 획기적으로 줄일 수 있습니다.
범용성: 특정 작업에 종속되지 않고 다양한 인식 백본 (Backbone) 과 자연어 기반의 개방형 작업 (Open-ended tasks) 에 적용 가능합니다.

결론적으로, Sea2 는 모델의 능력을 높이는 대신 모델이 볼 수 있는 시점 (Viewpoint) 을 지능적으로 제어함으로써 도메인 간극을 극복하는 효율적이고 강력한 솔루션을 제시합니다.