See, Act, Adapt: Active Perception for Unsupervised Cross-Domain Visual Adaptation via Personalized VLM-Guided Agent

이 논문은 하류 데이터의 주석 없이도 사전 훈련된 지각 모듈을 재학습하지 않고, 개인화된 VLM 기반 에이전트가 스칼라 지각 피드백을 통해 유익한 시점을 탐색하도록 함으로써 새로운 환경에서의 비지도 크로스 도메인 지각 성능을 획기적으로 개선하는 'Sea²' 프레임워크를 제안합니다.

Tianci Tang, Tielong Cai, Hongwei Wang, Gaoang Wang

게시일 2026-03-02
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"보이는 것만 믿지 말고, 직접 움직여서 더 잘 보이게 하라"**는 아주 실용적인 아이디어를 담고 있습니다.

기존의 인공지능(AI) 카메라는 인터넷에서 수많은 사진을 보고 학습했지만, 실제 우리 집 안처럼 복잡한 환경에 들어가면 엉뚱한 것을 보거나 못 찾는 경우가 많습니다. 보통은 이 문제를 해결하기 위해 AI 모델을 다시 학습시키는데, 이는 비용도 많이 들고 기존 지식을 잊어버리는 '망각' 문제도 있습니다.

이 논문은 **"모델을 고치는 게 아니라, 모델을 쓰는 '사람'을 똑똑하게 만들자"**는 새로운 접근법을 제시합니다. 이를 Sea2(See, Act, Adapt: 보고, 행동하고, 적응하다) 라고 부릅니다.

이 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


🕵️‍♂️ 비유: "눈이 나쁜 탐정"과 "똑똑한 조수"

상상해 보세요. AI 모델은 눈이 나쁜 탐정입니다. 이 탐정은 인터넷에서 수많은 사진을 봐서 '의자'나 '냉장고'를 잘 알아보는 능력은 있지만, 실제 집 안으로 들어가면 어둡거나 가려져서 잘 못 봅니다.

기존 방식은 이 탐정에게 "너 눈이 나쁘니까 안경(모델) 을 새로 만들어줘"라고 하는 것이었습니다. 하지만 이 논문은 **"안경을 고치지 말고, 탐정을 도와주는 똑똑한 조수 (에이전트) 를 붙이자"**고 제안합니다.

1. 문제 상황: "눈이 나쁜 탐정"

  • 상황: 탐정 (AI) 이 방에 들어갔는데, 소파가 책상 뒤에 가려져 있습니다.
  • 결과: 탐정은 "소파가 없어!"라고 외치거나 엉뚱한 것을 잡습니다.
  • 기존 해결책: 탐정에게 다시 수업을 시키거나 (학습), 소파의 정확한 위치를 알려주는 지도 (레이블) 를 사야 합니다. 하지만 지도는 비싸고, 수업을 시키면 탐정이 예전에 배운 다른 지식을 잊어버릴 수도 있습니다.

2. Sea2 의 해결책: "똑똑한 조수"

이 논문은 탐정 (AI) 은 그대로 두고, **VLM(시각 - 언어 모델) 이라는 '똑똑한 조수'**를 붙입니다. 이 조수의 임무는 탐정이 잘 볼 수 있도록 카메라 (눈) 의 위치를 조정하는 것입니다.

  • See (보고): 조수는 탐정이 지금 무엇을 보고 있는지, 그리고 탐정이 "이게 뭐야?"라고 얼마나 자신 있게 말해주는지 확인합니다.
  • Act (행동): 만약 탐정이 소파를 못 보거나 가려져 있다면, 조수는 "조금 더 앞으로 가자", "왼쪽으로 살짝 돌아보자"라고 지시합니다.
  • Adapt (적응): 조수는 탐정이 "아, 이제 소파가 더 잘 보이네!"라고 자신감 있게 말할 때 (점수가 오를 때) "잘했어, 이 방향으로 계속 가자"라고 보상합니다.

핵심: 이 조수는 탐정 (AI 모델) 의 두뇌를 건드리지 않습니다. 오직 **"어디로 움직여야 탐정이 더 잘 보일까?"**만 학습합니다.


🚀 어떻게 작동할까요? (두 단계 훈련)

이 똑똑한 조수를 훈련시키는 데는 두 가지 단계가 있습니다.

  1. 1 단계: 규칙 배우기 (초보 조수)

    • 조수에게 "물건을 찾으려면 먼저 주변을 빙글빙글 돌고, 물체가 화면 중앙에 오게 하고, 가까이 다가가라"라는 기본 규칙을 가르칩니다.
    • 마치 운전 면허를 딸 때 교습소 선생님에게 "일단 핸들을 이렇게 잡아라"라고 배우는 것과 같습니다.
  2. 2 단계: 실전 훈련 (고수 조수)

    • 이제 실제 집 안으로 들어갑니다. 지도 (정답) 는 없습니다.
    • 대신, 탐정이 물체를 찾을 때 **"얼마나 자신 있게 찾았는지 (신뢰도)"**와 **"물체가 화면에 얼마나 잘 잡혔는지 (기하학적 위치)"**를 점수로 줍니다.
    • 조수는 이 점수를 보고 "아, 내가 앞으로 한 걸음 더 갔을 때 점수가 올랐네? 다음엔 그렇게 하자"라고 스스로 학습합니다. (강화 학습)

🌟 왜 이 방법이 대단한가요?

  1. 지도가 필요 없습니다: "이게 소파다"라고 알려주는 정답 (레이블) 이 전혀 필요 없습니다. AI 가 스스로 "오, 내가 잘 봤네!"라고 느끼는 것만으로도 학습합니다.
  2. 기존 AI 를 망가뜨리지 않습니다: 이미 잘 만든 AI 모델 (눈이 나쁜 탐정) 을 건드리지 않으므로, 원래 배운 지식을 잊어버리는 일이 없습니다.
  3. 누구나 쓸 수 있습니다: 어떤 AI 모델을 쓰든 상관없이, 이 '조수'만 붙이면 바로 작동합니다. (플러그 앤 플레이)

📊 실제 성과

이 방법을 실험해 보니, 소파 찾기 (분할), 물건 위치 찾기 (바운딩 박스), 3D 공간 파악 등 다양한 작업에서 기존보다 13%~27% 까지 성능이 크게 향상되었습니다. 특히 3D 공간 파악에서는 거의 3 배에 가까운 성능 향상을 보였습니다.

💡 결론

이 논문은 "AI 가 똑똑해지는 방법"을 "모델을 더 많이 학습시키는 것"에서 "AI 가 보는 시점을 똑똑하게 조절하는 것"으로 바꿉니다.

마치 사진을 찍을 때, 카메라를 움직여서 가장 좋은 각도를 찾는 것처럼, AI 도 스스로 움직여서 가장 잘 보이는 위치를 찾게 함으로써, 별도의 학습 없이도 새로운 환경에서 뛰어난 성능을 발휘하게 만든 것입니다.