Context-Dependent Affordance Computation in Vision-Language Models

본 논문은 대규모 계산을 통해 비전 - 언어 모델 (VLM) 이 다양한 에이전트 페르소나와 상황적 프라임에 따라 물체의 affordance(행동 가능성) 를 계산할 때 어휘적 및 의미적 수준에서 현저한 편차를 보이며, 이는 고정된 세계 모델링이 아닌 동적이고 질의에 의존적인 온톨로지 투영 (JIT Ontology) 이 로봇 공학 연구에 필요함을 시사한다고 주장합니다.

Murad Farzulla

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"로봇이나 AI 가 세상을 볼 때, 우리가 생각하는 것보다 훨씬 더 '상황'에 따라 다르게 본다"**는 놀라운 사실을 밝혀낸 연구입니다.

기존의 컴퓨터 비전 (이미지 인식 기술) 은 "먼저 사물의 모양과 위치를 정확히 파악한 뒤, 그다음에 그 사물이 무엇을 할 수 있는지 생각한다"고 믿어왔습니다. 마치 건축가가 먼저 건물의 구조를 완벽하게 그린 뒤, "아, 이 방은 거실로 쓰자"라고 생각하듯 말이죠.

하지만 이 논문은 **"아니요, AI 는 먼저 '누가 보고 있는지 (상황)'를 파악한 뒤, 그 상황에 맞춰 사물의 모양과 의미를 재구성한다"**고 주장합니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 핵심 비유: 같은 '부엌', 다른 '세상'

상상해 보세요. 여러분 앞에 부엌이 있습니다. 식탁, 칼, 냄비, 냉장고가 놓여 있죠.

  • 요리사 (Chef) 가 이 부엌을 보면:

    • 식탁은 "요리할 공간"으로 보입니다.
    • 칼은 "재료를 자르는 도구"로 보입니다.
    • 냉장고는 "재료를 보관하는 곳"으로 보입니다.
    • 결과: 이 부엌은 **'요리하는 공간'**입니다.
  • 치안 요원 (Security) 이 같은 부엌을 보면:

    • 식탁은 "은신처가 될 수 있는 공간"으로 보입니다.
    • 칼은 "위협이 되는 무기"로 보입니다.
    • 냉장고는 "숨겨진 물건을 감출 수 있는 곳"으로 보입니다.
    • 결과: 이 부엌은 **'잠재적 위험이 있는 공간'**입니다.
  • 휠체어 사용자 (Mobility) 가 보면:

    • 식탁은 "통행로를 막는 장애물"로 보입니다.
    • 칼은 "관심 밖의 사물"로 보입니다.
    • 결과: 이 부엌은 **'이동하기 어려운 공간'**입니다.

이 논문의 놀라운 발견은 이렇습니다: AI 가 이 부엌 사진을 볼 때, 요리사 모드와 치안 요원 모드에서 보는 '부엌'의 모습이 90% 이상 완전히 달라진다는 것입니다.

단순히 설명하는 말만 바뀌는 게 아니라, AI 가 인식하는 사물의 기능과 의미 자체가 완전히 바뀐 것입니다. 마치 요리사가 볼 때엔 '칼'이 보이지만, 치안 요원이 볼 땐 '무기'가 보일 정도로 인식의 세계가 달라진다는 뜻입니다.

2. 기존 생각 vs 새로운 발견

  • 기존 생각 (고정된 지도):

    • AI 는 먼저 "저건 식탁, 저건 칼"이라고 고정된 지도를 그립니다. 그다음에 "아, 요리사라면 이걸로 요리를 하겠구나"라고 덧붙입니다.
    • 비유: 같은 지도를 들고 가는데, 여행자가 누구냐에 따라 '맛집'이나 '위험 지역'을 마킹하는 정도만 다릅니다.
  • 이 논문의 발견 (생각의 변신):

    • AI 는 "누가 보느냐"에 따라 지도 자체를 처음부터 다시 그립니다.
    • 비유: 요리사가 보기에 부엌은 '요리실'이지만, 치안 요원이 보기에 그 부엌은 '작전 지휘소'가 됩니다. 지도의 기초 구조부터 달라지는 것입니다.

3. 연구는 어떻게 진행되었나요?

연구진은 AI 에게 같은 사진 500 장을 보여주고, 7 가지 다른 '역할극'을 시켰습니다.

  • "평범한 관찰자", "요리사", "치안 요원", "4 세 아이", "휠체어 사용자", "긴급 구조대원", "휴식 취하는 사람" 등.

그리고 AI 가 각 역할에서 어떤 사물을 보고, 무엇을 할 수 있다고 생각했는지 비교했습니다.

결과:

  • 90% 이상의 내용이 역할에 따라 완전히 달랐습니다. (예: 요리사에게는 '냄비'가 중요하지만, 아이에게는 '장난감'이 더 중요하게 인식됨)
  • 이는 AI 가 단순히 우연히 다른 말을 한 것이 아니라, 상황에 따라 세상을 해석하는 방식이 근본적으로 다르기 때문임을 증명했습니다.

4. 이 발견이 왜 중요할까요? (로봇에게 주는 교훈)

이 연구는 로봇 공학자들에게 큰 충격을 줍니다.

  • 기존 방식: 로봇이 세상을 이해하려면 "세상의 모든 사물과 그 기능을 미리 완벽하게 외워야 한다"는 고정된 '세계 모델'을 만들려고 노력해 왔습니다.
  • 새로운 제안 (JIT Ontology): 하지만 이 논문은 **"세상은 고정된 것이 아니라, 로봇이 '지금 무엇을 하려고 하는지'에 따라 실시간으로 변한다"**고 말합니다.
    • 마치 주문형 (Just-In-Time) 요리처럼, 로봇이 "지금 요리할 거야"라고 말하면 그 순간에 필요한 사물들의 의미만 쏙쏙 뽑아내어 세상을 이해해야 한다는 것입니다.
    • 미리 모든 것을 다 외워두는 건 비효율적이고, 오히려 중요한 것을 놓칠 수 있습니다.

5. 요약: 한 마디로 정리하면?

"AI 는 카메라처럼 객관적인 사진을 찍는 게 아니라, '누가 보고 무엇을 하려는가'에 따라 세상을 실시간으로 재창조하는 예술가입니다."

이 논문의 결론은, 앞으로의 AI 와 로봇은 고정된 규칙보다는 상황에 맞춰 유연하게 변하는 생각을 해야 더 똑똑하고 인간처럼 행동할 수 있다는 것입니다.