Sticky-Glance: Robust Intent Recognition for Human Robot Collaboration via Single-Glance

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"로봇이 사람의 눈빛을 읽어서, 아주 짧은 시선으로도 무엇을 원하는지 정확히 알아채고, 말로 명령을 내리면 바로 실행하는 시스템"**을 소개합니다.

손이나 팔을 움직이기 힘든 분들에게 로봇은 큰 도움이 되지만, 기존 기술은 눈이 너무 오래 머물러야 하거나 (지루함), 눈이 살짝 떨릴 때마다 로봇이 헷갈려서 (오작동) 문제가 많았습니다. 이 연구는 그 문제를 **'점착성 시선 (Sticky-Glance)'**이라는 새로운 아이디어로 해결했습니다.

이 시스템을 일상적인 비유로 설명해 드릴게요.

1. 핵심 아이디어: "눈빛은 끈적한 점착 테이프다" (Sticky-Glance)

기존 방식의 문제점:
기존에는 로봇이 "아, 저 사람이 저 물건을 보고 있구나"라고 판단하려면, 눈이 물건 위에 최소 0.5 초~1 초 이상 멈춰 있어야 (Fixation) 했습니다. 마치 "눈으로 누르는 버튼"을 누르는 것과 같죠.
하지만 우리 눈은 미세하게 떨립니다 (미세 안구 운동). 이 떨림 때문에 눈이 물건에서 살짝 벗어나면 로봇은 "아, 저 사람이 다른 걸 보네?"라고 착각해서 명령을 취소하거나 엉뚱한 걸 잡으려 했습니다.

이 연구의 해결책 (Sticky-Glance):
이 시스템은 눈빛을 끈적끈적한 점착 테이프처럼 생각합니다.

원리: 사용자가 물건을 보자마자, 로봇은 눈빛이 그 물건을 향해 "가까워지고 있는가?"와 "거리가 줄어드는가?"를 계산합니다.
효과: 눈이 물건을 딱 0.1 초만 스쳐 지나가도 (짧은 눈길), 로봇은 "아, 이 사람은 저걸 보려고 했구나!"라고 눈빛을 그 물건에 '붙여' 둡니다.
비유: 마치 젖은 손으로 유리창을 스치면 물방울이 유리창에 달라붙는 것처럼, 눈빛이 물건을 스치기만 해도 로봇은 그 의도를 "끈적하게" 잡아챕니다. 그래서 눈이 살짝 떨려도 로봇은 흔들리지 않고 목표물을 계속 따라갑니다.

2. 로봇의 행동: "준비된 마라톤 선수" (Continuous Shared Control)

기존 방식:
사용자가 눈을 멈추고 "이거 잡아줘"라고 말해야만 로봇이 제자리에서 멈춰 있다가 천천히 움직이기 시작했습니다. 마치 신호를 기다리는 신호등처럼요.

이 연구의 방식:
로봇은 사용자가 무엇을 보는지 감지하는 순간부터 미리 움직이기 시작합니다.

원리: 사용자가 A 물건을 보다가 B 물건을 보려고 눈이 움직이면, 로봇은 A 에서 B 로 부드럽게 이동하며 "준비" 상태를 유지합니다.
비유: 마치 마라톤 선수가 출발 신호를 기다리는 게 아니라, 달리는 도중에도 방향을 살짝 틀어 목표 지점에 미리 다가가는 것과 같습니다.
결과: 사용자가 "잡아줘"라고 말했을 때, 로봇은 이미 목표물 근처에 와 있어서 작업 시간을 약 10% 단축시킵니다.

3. 상호작용: "눈으로 가리키고, 입으로 지시하기" (Glance-Say)

이 시스템은 두 가지 감각을 합칩니다.

눈 (Glance): "어디에?" (물건 선택)
입 (Say): "무엇을?" (작업 지시)

비유: 식당에서 웨이터에게 손가락으로 메뉴를 가리키고 (눈), "이거 주세요 (말)"라고 하는 것과 같습니다.
장점: 눈으로 가리키는 것만으로는 "잡아줘", "옮겨줘", "부어줘" 같은 세부 명령을 내리기 어렵습니다. 반대로 말로만 "세 번째 줄, 두 번째 칸의 빨간 블록을 잡아줘"라고 하면 기억하기 힘들고 헷갈립니다. 하지만 눈으로 대상을 잡고, 말로 행동을 지정하면 훨씬 빠르고 정확합니다.

4. 실험 결과: "사람들이 더 편해졌다"

연구진은 16 명의 참가자 (상지 장애가 있는 분들 포함) 와 함께 실험을 했습니다.

정확도: 움직이는 물건을 따라갈 때 94%, 정지한 물건을 고를 때 98% 의 높은 정확도를 보였습니다.
피로도: 기존 방식에 비해 사용자의 정신적 피로 (인지 부하) 가 크게 줄었습니다. (별점 5 만점에 4.5 점 이상을 받음)
편의성: "눈을 오래 멈추지 않아도 되니"와 "로봇이 미리 움직여주니" 사용자들이 훨씬 자연스럽다고 느꼈습니다.

요약

이 논문은 **"로봇이 사람의 눈빛을 너무 예민하게 반응하지 않고, 오히려 그 의도를 끈적하게 붙잡아주는 기술"**을 개발했습니다.

이전: "눈을 1 초 이상 멈춰야 로봇이 알아듣는다." (피곤하고 느림)
이제: "눈을 스치듯 보이면 로봇이 알아듣고 미리 움직인다." (편하고 빠름)

이 기술은 손이 불편한 분들이 로봇과 대화할 때, 마치 마음만 먹으면 로봇이 알아서 움직이는 것처럼 자연스러운 경험을 만들어 줄 것입니다. 마치 마법처럼요! 🪄🤖

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Definition)

배경: 시선 (Gaze) 은 운동 장애가 있는 사용자에게 로봇을 제어할 수 있는 직접적이고 저부하의 입력 수단입니다. 특히 상지 장애가 있거나 인지 능력은 유지된 사용자에게 필수적입니다.
핵심 과제: 다중 객체 환경에서 시선을 기반으로 한 의도 (Intent) 인식은 다음과 같은 요인으로 인해 매우 어렵습니다.
- 시선 노이즈: 미세 안구 운동 (Micro-saccades), 자연스러운 시선 떨림.
- 동적 환경: 객체의 이동, 사용자의 헤드/눈 움직임, 시점 변화.
- 기존 방법의 한계:
  - 고정점 (Fixation) 기반: 안정성을 위해 긴 시선 고정 시간을 요구하여 반응성이 떨어지고, 미세 안구 운동에 취약함.
  - 확률론적/학습 기반: 복잡한 파라미터 튜닝이 필요하거나, 대량의 레이블 데이터가 필요하며, 사용자나 환경이 변할 때 일반화 성능이 떨어짐.
  - 이산적 제어: 의도 확인 후 로봇이 움직이는 방식은 피드백이 지연되어 상호작용의 질이 낮음.
목표: 짧은 한 번의 눈길 (Single-Glance, 최소 3 개의 샘플) 로도 노이즈와 동적 조건에서도 강인하게 객체 기반 의도를 인식하고, 이를 통해 연속적이고 안전한 로봇 제어를 가능하게 하는 시스템 개발.

2. 방법론 (Methodology)

이 시스템은 사용자 시선 (Human Perspective) 과 로봇 시선 (Robot Perspective) 을 통합하여 작동합니다.

A. Sticky-Glance 의도 예측 알고리즘 (핵심)

기존의 시선 공간에서의 통계적 평활화가 아닌, 객체 중심 (Object-centric) 기하학적 공간에서 의도를 안정화하는 알고리즘입니다.

개념: 시선이 객체 영역에 "붙어" (Sticky) 있도록 하여, 짧은 눈길이나 미세한 떨림에도 의도가 유지되도록 합니다.
동작 원리:
1. 기하학적 거리 증거 ( $e_{dist}$ ): 시선 점과 객체 중심 간의 거리를 계산합니다. 객체 내부에 있으면 신뢰도가 1 이 되고, 멀어지면 감소합니다.
2. 방향성 추세 증거 ( $e_{dir}$ ): 시선의 이동 벡터가 객체 쪽으로 향하는지 (접선 원뿔 내) 아니면 멀어지는지를 기하학적으로 판단합니다.
3. 신뢰도 통합: 거리와 방향 증거를 결합하여 각 객체에 대한 신뢰도 (Confidence) 를 시간에 따라 누적 (Integral update) 합니다.
4. 결과: 임계값을 넘으면 객체가 선택되며, 이 과정은 고정점 (Fixation) 없이도 3 개의 시선 샘플만으로 가능합니다.

B. 다중 관점 정렬 (Multi-Perspective Alignment)

사용자 (안경) 와 로봇 (카메라) 이 서로 다른 시점에서 바라보는 객체를 매칭합니다.

문제: 기존 ArUco 마커나 특징점 매칭은 거리나 각도가 변하면 실패합니다.
해결: LightGlue 를 이용한 특징 매칭과 PnP(Perspective-n-Point) 를 통해 사용자 시점의 카메라 포즈를 추정합니다. 이후 로봇이 구축한 3D 객체 포인트 클라우드를 사용자 시점 이미지로 투영하여, 탐지된 2D 박스와 정렬 (Hungarian algorithm) 합니다. 이는 객체 인식의 불일치를 해결합니다.

C. 연속적 공유 제어 (Continuous Shared Control)

의도 확인 전에도 로봇이 반응하여 상호작용의 자연스러움을 높입니다.

Pre-command Mode (대기 모드): 사용자가 명확한 명령을 내리기 전, 신뢰도가 높은 가상 목표점 (Virtual Target) 으로 로봇이 천천히 이동합니다. 신뢰도가 높을수록 속도가 빨라지고, 목표에 가까워지면 감속합니다.
Post-command Mode (실행 모드): 음성 명령 (Speech) 이 들어오면 특정 객체로 확정되어 최대 속도로 이동합니다.
안전 장치: 로봇이 목표에 도달하면 정지하고, 사용자의 음성 확인을 받습니다. 오인식 시 사용자가 거절하면 다음 후보로 이동하거나 초기화합니다.

D. 상호작용 프로토콜 ("Glance-Say")

시선 (Glance): 객체 선택 (Grounding) 용도.
음성 (Say): 행동 지시 (Action Specification, 예: "들기", "놓기") 용도.
이 이모달 (Multi-modal) 접근법은 모호성을 줄이고 인지 부하를 낮춥니다.

3. 주요 기여 (Key Contributions)

Sticky-Glance 알고리즘: 노이즈가 많은 시선을 객체 중심 의도로 매핑하여, 고정점 없이도 3 개의 샘플만으로 동적/정적 객체 추적 (0.94) 및 선택 정확도 (0.98) 를 달성했습니다.
연속적 공유 제어 전략: 의도 형성 단계에서도 로봇이 미리 움직이게 하여 작업 시간을 약 10% 단축하고 예측 가능성을 높였습니다.
Glance-Say 상호작용 프로토콜: 시선으로 객체를 지정하고 음성으로 행동을 지시하는 안전 확인 단계를 포함한 프로토콜을 제안했습니다.
광범위한 실험 검증: 동적 추적, 다중 관점 정렬, 사용자 연구 (16 명), 애블레이션 연구를 통해 기존 방법 (kNN, HMM, LSTM, 고정점 기반 등) 대비 우수한 성능을 입증했습니다.

4. 실험 결과 (Results)

지표	결과 및 비교
의도 인식 정확도	동적 추적률: 0.92 (기존 최상위 방법 대비 우위), 정적 선택 정확도: 0.98. 최소 샘플 수 3 개로 달성.
다중 관점 정렬	80cm 거리 및 다양한 각도 (0~180 도) 에서 0.84 이상의 정렬 정확도 유지 (기존 ArUco/특징점 매칭은 거리 증가 시 급감).
작업 완료 시간	기존 방법 대비 약 10% 단축 (예: FAM-HRI 대비 29.5s vs 32.4s). 연속 제어로 인한 효율성 증대.
성공률	복잡한 중첩 객체 시나리오 (S4) 에서 0.96의 최고 성공률 달성.
사용자 연구 (NASA-TLX)	인지 부하 (Cognitive Load): 25.57 (기존 방법 중 가장 낮음). 고정점 불필요와 음성 확인이 부하 감소에 기여.
사용성 (SUS)	86.42 (가장 높은 점수). 학습 노력 감소 및 작업 성공률 향상으로 사용자 선호도 높음.

5. 의의 및 결론 (Significance & Conclusion)

기술적 의의: 시선 기반 HRI(Human-Robot Interaction) 에서 "고정점"이라는 비효율적인 제약을 제거하고, 기하학적 증거를 활용한 "Sticky" 메커니즘을 통해 단순한 눈길 (Single-Glance) 로도 안정적인 제어가 가능함을 증명했습니다.
실용적 가치: 운동 장애가 있는 사용자를 위한 보조 로봇 시스템의 반응성과 안전성을 동시에 개선했습니다. 특히 연속적인 공유 제어와 음성 확인을 결합하여, 로봇이 사용자의 의도를 예측하고 미리 움직이면서도 실수를 방지하는 고-readiness 시스템을 구현했습니다.
향후 과제: 현재 시스템은 일부 수동 설계 (Handcrafted) 요소에 의존하므로, 향후 엔드 - 투 - 엔드 (End-to-End) 멀티모달 모델을 통해 더 복잡한 비정형 환경에서의 일반화 능력을 향상시킬 예정입니다.

이 논문은 시선 기반 로봇 제어의 정확성, 반응성, 사용자 경험을 모두 향상시킨 새로운 패러다임을 제시했다는 점에서 중요한 의미를 가집니다.