Decision-Aware Uncertainty Evaluation of Vision-Language Model-Based Early Action Anticipation for Human-Robot Interaction

Each language version is independently generated for its own context, not a direct translation.

이 논문은 로봇이 사람과 함께 일할 때, "무엇을 할지"를 너무 일찍 확신하지 않고 얼마나 조심스럽게 판단해야 하는지에 대한 연구입니다.

비유하자면, 이 논문은 **"로봇의 '예측 능력'이 아니라, 로봇의 '자신감 (확신)'을 어떻게 측정하고 믿을지"**를 다룹니다.

다음은 이 복잡한 연구 내용을 일상적인 언어와 비유로 쉽게 설명한 것입니다.

🤖 1. 문제 상황: "반만 본 요리사"와 로봇

상상해 보세요. 로봇이 주방에서 당신과 함께 요리를 하고 있습니다.
당신이 냉장고 문을 살짝 열기만 했을 때, 로봇은 무엇을 할까요?

과도하게 확신하는 로봇: "아, 냉장고 열었네! 냉장고에 있는 우유를 꺼내야지!"라고 바로 행동합니다. 하지만 사실 당신은 우유가 아니라 과일을 꺼내려던 중일 수도 있습니다. 로봇이 너무 일찍 확신하면 실수를 하고, 위험하거나 귀찮은 상황을 만들 수 있습니다.
현명한 로봇: "냉장고를 열었는데, 우유를 꺼낼 수도 있고, 과일일 수도 있고, 그냥 물건을 정리할 수도 있겠네. 확신이 서지 않으니, '무엇을 꺼내시겠어요?'라고 물어보자."

이 논문은 **비전 - 언어 모델 (VLM)**이라는 최신 AI 가 이런 '반만 본 상황'에서 얼마나 정확한지보다, 자신의 확신 (신뢰도) 을 얼마나 올바르게 표현하는지를 평가하는 방법을 제시합니다.

🔍 2. 연구의 핵심: "여러 번 물어보는 것"이 답이다

AI 는 보통 한 번만 보고 답을 내놓습니다. 하지만 이 연구팀은 **"만약 같은 장면을 10 번, 20 번 다르게 물어본다면 AI 는 어떻게 답할까?"**라고 생각했습니다.

비유: 친구에게 "오늘 점심 뭐 먹지?"라고 물었을 때, 친구가 매번 똑같은 답을 한다면 그 친구는 확신이 있는 것입니다. 하지만 친구가 "오늘은 피자일 수도 있고, 치킨일 수도 있고, 뭐든 좋아"라고 매번 다른 답을 한다면, 그 친구는 자신이 무엇을 먹을지 확신이 없는 상태인 것입니다.

연구팀은 AI 에게 같은 영상을 반복해서 보여주고 (확률적으로 샘플링), 매번 나오는 답변들을 모아서 AI 의 '자신감'을 계산했습니다.

🛠️ 3. 세 가지 '결정 방식' (Aggregation Strategies)

AI 가 여러 번의 답변을 모았을 때, 어떻게 최종 결정을 내릴지 세 가지 방법을 비교했습니다.

일치하는 답만 고르기 (Consistency): "여러 번 물어봤을 때, 가장 많이 나온 답을 고른다."
- 비유: 친구들에게 투표하게 해서 다수결로 정하는 방식.
AI 가 스스로 말한 '자신감'을 더하기 (Confidence-Weighted): "AI 가 '내가 90% 확신해'라고 말한 답에 더 무게를 둔다."
- 비유: 친구가 "나는 90% 확신해!"라고 외치는 친구의 말을 더 귀하게 여기는 방식.
전체 순위를 재배열하기 (PairRank): "A 가 B 보다 더 자주 나왔으니, A 가 더 중요하다고 본다."
- 비유: 모든 친구의 의견을 종합해서 전체적인 순위표를 다시 만드는 방식.

📊 4. 놀라운 발견: "정답을 맞추는 것"과 "자신감을 표현하는 것"은 다릅니다

연구 결과는 매우 흥미롭습니다.

기존의 생각: "정답을 가장 많이 맞추는 (Accuracy) AI 가 가장 좋은 AI 다."
이 연구의 발견: "정답을 많이 맞춘다고 해서, 그 AI 가 **언제 멈추고 언제 물어봐야 할지 (자신감)**를 잘 아는 것은 아니다."
비유: 시험을 볼 때, 정답을 100% 맞추는 학생이 있을 수도 있지만, 자신의 실력을 정확히 파악해서 "이건 모르니까 답안지 비워둘게"라고 하는 학생이 더 현명할 수 있습니다.
- 어떤 방법 (PairRank) 은 정답을 맞추는 능력은 비슷하지만, "이건 확실해!"라고 외칠 때 정말 확실한 경우를 잘 구분해 냅니다.
- 반면, 어떤 방법은 정답은 잘 맞추지만, 실제로는 모호한 상황에서도 "100% 확신해!"라고 과신하는 경향이 있었습니다.

🤝 5. 로봇에게 왜 이것이 중요한가? (안전과 신뢰)

로봇이 사람과 함께 일할 때, 정답을 맞추는 것보다 '언제 멈출지' 아는 것이 더 안전할 수 있습니다.

과신 (Overconfidence): 로봇이 "냉장고에 우유가 있다!"라고 90% 확신했는데, 사실은 사과였다면? 로봇이 우유를 꺼내려다 사과를 떨어뜨릴 수 있습니다.
현명한 불확실성: 로봇이 "냉장고에 뭐가 있을지 50% 우유, 50% 사과야. 확인해 볼까요?"라고 말하면, 사람은 "아, 사과야!"라고 바로 알려줄 수 있습니다.

이 논문은 로봇이 **"내가 모르면 멈추고 물어보는 것"**이 얼마나 중요한지, 그리고 AI 가 그 '모르는 상태'를 얼마나 정확하게 표현하는지 평가하는 새로운 기준을 만들었습니다.

💡 요약

이 논문은 **"로봇이 미래를 예측할 때, 정답을 맞추는 능력보다 '자신의 예측이 얼마나 불확실한지'를 솔직하게 표현하는 능력"**이 사람과 로봇이 함께 일할 때 훨씬 더 중요하다는 것을 증명했습니다.

마치 운전사가 "도로가 막혔다"는 사실을 아는 것보다, **"도로가 막혔을 때 언제 멈출지, 언제 우회할지 판단하는 능력"**이 더 안전하고 효율적인 운전과 같다고 할 수 있습니다. 이 연구는 바로 그 '판단 기준'을 마련해 준 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

배경: 공유 작업 공간에서 로봇은 인간의 행동을 부분적이고 모호한 관찰 (예: 시점 변화, 가림 현상, 초기 동작만 관찰) 을 바탕으로 해석해야 합니다. 특히 인간 - 로봇 상호작용 (HRI) 에서 로봇은 행동을 예측하고 적시에 대응해야 합니다.
문제점:
- 과신 (Overconfidence): 초기 관찰 단계에서 비전 - 언어 모델 (VLM) 이 특정 행동에 대해 과도하게 확신하는 (high confidence) 예측을 할 경우, 로봇은 안전하지 않거나 방해가 되는 행동을 취할 수 있습니다.
- 불확실성 평가의 부재: 기존 VLM 기반 초기 행동 예측 연구는 주로 Top-1 또는 Top-K 정확도 (Ranking Accuracy) 에만 초점을 맞추었습니다. 그러나 HRI 시스템은 단순히 "어떤 행동이 가장 높은 점수인가"뿐만 아니라, "부분적 관찰 하에서 이 예측이 얼마나 신뢰할 수 있는가 (불확실성)"에 대한 신호가 필요합니다.
- 시점의 한계: 1 인칭 시점 (Egocentric view) 은 가시성이 제한되어 모호성이 증가하므로, 모델의 불확실성 추정 신뢰도가 더욱 중요합니다.

2. 제안 방법론 (Methodology)

이 논문은 VLM 기반의 초기 행동 예측에서 불확실성을 체계적으로 평가하기 위한 새로운 프레임워크를 제안합니다.

A. 불확실성 생성: 확률적 다중 실행 샘플링 (Stochastic Multi-Run Sampling)

VLM 은 내부 로짓 (logits) 을 직접 제공하지 않는 블랙박스 모델인 경우가 많습니다.
이를 해결하기 위해 동일한 입력과 프롬프트에 대해 **M 번의 독립적인 확률적 디코딩 (Temperature-based sampling)**을 수행합니다.
각 실행 (Run) 은 Top-K 행동 예측 집합을 생성하며, 이 예측들 간의 변동성 (Variability) 을 모델의 불확실성 지표로 활용합니다.

B. 예측 집계 전략 (Aggregation Strategies)

생성된 다중 실행 결과를 단일 신뢰도 분포로 집계하는 세 가지 전략을 비교 분석합니다:

일관성 기반 (Consistency-Based): 각 순위 위치에서 다수결 투표 (Majority Voting) 를 통해 행동을 결정하고, 투표 비율을 신뢰도로 사용합니다.
신뢰도 가중치 기반 (Confidence-Weighted): 모델이 출력하는 텍스트 기반 신뢰도 (Verbalized Confidence) 를 가중치로 활용하여 투표합니다.
쌍대 순위 집계 (PairRank): 각 실행 간의 행동 쌍별 선호도 (Pairwise Preference) 를 수집하여 Bradley-Terry 모델을 통해 전역적인 순위 구조와 잠재적 유틸리티 점수를 추정합니다.

C. 의사결정 인식 평가 프레임워크 (Decision-Aware Evaluation Protocol)

단순 정확도가 아닌 HRI 에 적합한 4 가지 차원에서 평가합니다:

정확성 (Correctness): Top-1 정확도 및 Recall@K (정답이 Top-K 집합에 포함되는지).
불확실성 신뢰도 (Uncertainty Reliability):
- Top-1 ECE: 최고 순위 예측의 신뢰도와 실제 정답률의 일치도.
- Set-ECE: Top-K 집합 전체의 평균 신뢰도와 집합 내 정답 포함 여부의 일치도 (HRI 에 더 적합).
선택적 의사결정 유틸리티 (Selective Decision Utility): 신뢰도 임계값 ( $\tau$ ) 을 기반으로 예측을 실행, 유보 (Deferral), 또는 재확인 (Clarification) 하는 정책의 효과 (Coverage-Accuracy Trade-off).
신뢰도 기하학 (Confidence Geometry): Top-K 내 신뢰도 분포의 엔트로피와 구조 (단일 의도 vs 다중 의도 모호성 반영).

3. 주요 기여 (Key Contributions)

문제 재정의: Top-K 초기 행동 예측을 단순한 순위 문제 (Ranking Problem) 가 아닌 **신뢰성 문제 (Reliability Problem)**로 재정의하고, HRI 환경에서의 불확실성 평가 필요성을 강조했습니다.
평가 프레임워크 도입: Top-K 출력에 대한 의사결정 인식 평가 프레임워크를 제시했습니다. 이는 정확성, 신뢰도, 선택적 유틸리티, 신뢰도 기하학을 포함하며, VLM 예측이 HRI 제어 모듈에 입력되기 전에 적합성을 판단하는 도구를 제공합니다.
실증적 발견: 집계 전략이 불확실성의 기하학적 구조를 근본적으로 재구성함을 밝혔습니다. 특히, 순위 성능 (Ranking Performance) 의 향상이 반드시 불확실성 신뢰도 (Uncertainty Reliability) 의 향상으로 이어지지 않는다는 것을 증명했습니다.

4. 실험 결과 및 논의 (Results & Discussion)

데이터셋: EGTEA Gaze+ 및 EPIC-KITCHENS-100 (1 인칭 시점 행동 예측 벤치마크).
모델: Gemini 2.5 Flash-lite (블랙박스 VLM).
주요 발견:
- 정확성: 집계 전략 간 Top-1 정확도나 Recall@K 차이는 미미했습니다.
- 신뢰도 (Calibration):
  - 단일 실행 (Single-run) 이 Top-1 ECE 에서 가장 낮은 오차를 보였습니다.
  - PairRank는 Top-1 ECE 는 높았으나, Set-ECE (Top-K 집합 전체의 신뢰도) 는 K 가 증가함에 따라 급격히 개선되었습니다. 이는 HRI 에서 여러 후보를 고려할 때 PairRank 가 유리할 수 있음을 시사합니다.
- 선택적 유틸리티: PairRank 는 높은 신뢰도 임계값에서 정확도를 유지하면서 커버리지를 급격히 줄이는 **뚜렷한 분리 효과 (Separability)**를 보였습니다. 이는 안전이 중요한 HRI 에서 모호한 예측을 과감히 유보 (Abstention) 하는 데 유리합니다.
- 기하학적 구조: PairRank 는 상위 순위 예측에 신뢰도를 집중시키는 **낮은 엔트로피 (Sharp Distribution)**를 보였으며, 일관성 기반 방법은 더 **부드러운 분포 (High Entropy)**를 보였습니다.
- 상호작용 함의:
  - Sharp Distribution (PairRank): 효율적인 확인이 가능하지만, 틀렸을 때 과신으로 인한 치명적 오류 위험이 큽니다.
  - Smooth Distribution (Consistency): 후보 공간을 넓혀 견고성을 높이지만, 시간 민감도가 높은 상호작용에서 과도한 확인 (Clarification) 오버헤드를 초래할 수 있습니다.

5. 의의 및 결론 (Significance & Conclusion)

의의: 이 연구는 VLM 기반 예측을 HRI 시스템에 통합할 때, 단순한 정확도 지표만으로는 부족하며 불확실성 신호의 신뢰성과 구조가 결정적임을 입증했습니다.
결론:
- 집계 전략 (Aggregation Strategy) 의 선택은 예측의 정확성뿐만 아니라 신뢰도 - 효율성 트레이드오프와 상호작용 복잡성을 결정합니다.
- HRI 시스템의 운영 맥락 (안전 우선 vs 속도 우선) 에 따라 적절한 집계 전략과 임계값을 선택해야 합니다.
- 본 논문은 초기 행동 예측에서 **의사결정 인식 불확실성 평가 (Decision-Aware Uncertainty Evaluation)**의 중요성을 강조하며, 안전하고 신뢰할 수 있는 인간 - 로봇 협업을 위한 필수적인 기초를 제공합니다.

이 논문은 로봇이 불완전한 정보를 바탕으로 인간과 상호작용할 때, "무엇을 할지"뿐만 아니라 "얼마나 확신하는지"를 정량화하고 이를 의사결정에 활용하는 체계적인 방법론을 제시했다는 점에서 의의가 큽니다.