IRIS: Intent Resolution via Inference-time Saccades for Open-Ended VQA in Large Vision-Language Models

이 논문은 실시간 안구 추적 데이터를 활용하여 모호한 시각적 질문 응답 (VQA) 의 정확성을 두 배 이상 향상시키는 새로운 훈련 없는 방법론인 IRIS 를 제안하고, 500 개의 이미지 - 질문 쌍을 포함한 사용자 연구를 통해 그 유효성을 입증합니다.

Parsa Madinei, Srijita Karmakar, Russell Cohen Hoffing, Felix Gervitz, Miguel P. Eckstein

게시일 2026-02-19
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **'IRIS(아이리스)'**라는 새로운 기술을 소개합니다. 이 기술은 인공지능(AI)이 사람의 눈을 보고 "무엇을 물어보는 건지" 정확히 알아내어, 헷갈리는 질문에 답을 잘 하도록 도와줍니다.

마치 인간과 AI 가 대화할 때, AI 가 사람의 '시선'을 읽는 능력을 얻은 것과 같습니다.

이 내용을 일상적인 비유와 함께 쉽게 설명해 드릴게요.


🧐 문제: "저거 뭐야?"라고 물으면 AI 는 당황합니다

우리가 사진을 보고 "저거 뭐야?"라고 물으면, AI 는 보통 "저게 뭐지?"라고 생각합니다.
예를 들어, 사진에 빨간 사과 두 개가 있는데, 하나를 가리키며 "이거 빨간색이야?"라고 물으면, AI 는 "어느 사과를 말하는 거지?"라고 헷갈려합니다.

기존의 AI 는 사람의 **말 (음성)**만 듣고 답을 하기 때문에, 어떤 사과를 가리키는지 알 수 없으면 엉뚱한 사과에 대해 설명하거나 "모르겠다"고 답할 가능성이 높습니다.

👁️ 해결책: IRIS 는 "눈이 말하는 말"을 듣습니다

이 연구팀이 개발한 IRIS는 사람의 **눈동자 움직임 (시선)**을 실시간으로 추적합니다.

비유: "손가락 대신 눈동자가 가리키는 것"

우리가 친구에게 "저기 있는 저거 줘"라고 말하며 손을 뻗으면, 친구는 손가락이 가리키는 곳을 봅니다.
하지만 IRIS 는 손가락이 아니라 '눈'이 가리키는 곳을 봅니다.

사람이 "이 사과 빨간색이야?"라고 입을 열기 바로 직전, 눈이 자연스럽게 그 사과를 응시합니다. IRIS 는 이 눈의 움직임을 AI 에게 "이 사과를 보고 있어!"라고 알려주는 신호로 사용합니다.

🚀 IRIS 가 어떻게 작동하나요? (3 단계)

  1. 눈을 추적합니다: 사람이 사진을 보며 질문을 준비할 때, 눈이 어디에 머물렀는지 기록합니다.
  2. 가장 중요한 순간을 잡습니다: 연구 결과, 사람이 **말을 시작하기 직전 (약 1 초 전후)**에 눈이 머문 곳이 가장 중요합니다. 이때의 시선이 "내가 지금 이거에 대해 물어보고 있어"라는 신호를 가장 명확하게 보냅니다.
  3. AI 에게 힌트를 줍니다: AI 에게 질문과 사진을 보여줄 때, **눈이 머물렀던 곳에 하얀 십자 표시 (✖️)**를 그려서 보여줍니다. 마치 "여기 봐!"라고 알려주는 것과 같습니다.

📊 결과는 어땠나요?

실험 결과, IRIS 를 쓰지 않았을 때 AI 는 헷갈리는 질문에 **35%**만 정확히 답했습니다. 하지만 IRIS 를 도입하자 이 수치가 **77%**로 두 배 이상 뛰었습니다!

  • 헷갈리는 질문 (Ambiguous): 눈의 힌트 덕분에 정확도가 폭발적으로 증가했습니다.
  • 분명한 질문 (Unambiguous): 이미 답이 명확한 질문에는 눈의 힌트가 크게 영향을 주지 않았습니다 (이미 잘 맞추기 때문).

💡 왜 이것이 중요할까요?

이 기술은 AI 모델을 처음부터 다시 가르칠 필요 (재학습) 없이, 이미 있는 AI 에게 바로 적용할 수 있습니다.

  • 미래의 AR/VR: 안경을 쓰고 쇼핑을 할 때, "이 신발 사이즈는?"이라고 말하면 AI 는 당신이 보고 있는 신발을 정확히 인식해줍니다.
  • 자연스러운 대화: 우리는 말로만 설명하기 어려운 복잡한 상황에서도, 눈으로만 가리키면 AI 가 이해할 수 있게 됩니다.

🎯 한 줄 요약

"IRIS 는 AI 가 사람의 눈을 읽게 만들어, '저기 있는 그거'라고 말할 때 정확히 무엇을 가리키는지 알아내게 해주는 기술입니다."

이처럼 사람의 자연스러운 행동 (눈동자) 을 활용하면, AI 와의 소통이 훨씬 더 직관적이고 정확해질 수 있다는 것을 보여준 획기적인 연구입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →