Egocentric Co-Pilot: Web-Native Smart-Glasses Agents for Assistive Egocentric AI

이 논문은 스마트 안경용 웹 네이티브 신경-상징 프레임워크인 'Egocentric Co-Pilot'을 제안하여, 시계열 추론과 계층적 컨텍스트 압축을 통해 장기간의 1 인칭 비디오 기반 질문 답변 및 의사결정을 지원하고, 실시간 스트리밍 파이프라인을 통해 시각 장애 및 인지 과부하 사용자를 위한 접근성 있는 보조 AI 의 실현 가능성을 입증했습니다.

Sicheng Yang, Yukai Huang, Weitong Cai, Shitong Sun, Fengyi Fang, You He, Yiqiao Xie, Jiankang Deng, Hang Zhang, Jifei Song, Zhensong Zhang

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 기존 AI vs. 새로운 AI: "혼자서 모든 걸 하려는 천재" vs. "팀워크를 잘하는 지휘자"

기존 방식 (단일 거대 모델):
기존의 AI 비서는 마치 **"모든 것을 혼자서 해결하려는 천재 학생"**과 같습니다. 이 학생은 책을 많이 읽었지만, 복잡한 수학 문제를 풀거나 실제 사물을 볼 때는 가끔 헷갈리거나, "모르겠어요"라고 피하는 경우가 많습니다. 특히 체스 같은 전략 게임이나 복잡한 상황에서는 정확한 답을 내기 어려워합니다.

새로운 방식 (에고센트릭 코파일럿):
이 논문이 제안하는 시스템은 **"현명한 지휘자 (LLM)"**와 **"전문가 팀 (도구 상자)"**으로 구성된 오케스트라입니다.

  • 지휘자 (LLM): 사용자의 말 ("이 체스 말 움직여줘") 을 듣고, 어떤 전문가가 필요한지 판단합니다.
  • 전문가 팀 (Toolbox):
    • 눈 (시각 모듈): 체스판에 어떤 말이 있는지 정확히 봅니다.
    • 두뇌 (게임 엔진): 체스 규칙에 따라 최고의 수를 계산합니다.
    • 입 (언어 모델): 그 결과를 사용자가 이해하기 쉽게 "이 수를 두면 이길 확률이 높아요"라고 설명합니다.

이렇게 각자가 자신의 전문 분야만 담당하므로, 정확하고 신뢰할 수 있는 답변을 얻을 수 있습니다.

2. 핵심 기능 3 가지: "눈, 기억, 그리고 대화"

이 스마트 안경 AI 는 세 가지 특별한 능력을 가지고 있습니다.

① "눈"이 있는 안경 (시각적 이해)

사용자가 안경을 쓰고 체스판을 보며 "이거 뭐야?"라고 묻으면, AI 는 단순히 "체스판이야"라고 말하지 않습니다.

  • 비유: 마치 당신의 눈앞에 서 있는 현미경처럼, 체스판 위의 말 하나하나를 정확히 식별하고 "저건 검은색 코끼리 (말) 입니다"라고 알려줍니다.
  • 특이점: 사용자가 손가락으로 가리킬 때, AI 는 "어디를 가리키는 거죠?"라고 헷갈리지 않고, 3D 레이저처럼 정확한 위치를 파악합니다.

② "기억"이 있는 비서 (긴 영상 이해)

우리는 하루 종일 안경을 쓰고 생활합니다. "아침에 내가 뭐 먹었지?"라고 물었을 때, AI 는 지금 보는 화면만 보고 "모르겠어요"라고 하지 않습니다.

  • 비유: 이 AI 는 하루 종일 찍은 영상을 요약해 주는 편집자입니다.
    • 짧은 기억 (T-CoT): "방금 뭐 했지?"라고 물으면 최근 10 분의 영상을 빠르게 훑어 답합니다.
    • 긴 기억 (HCC): "어제 점심 뭐 먹었지?"라고 물으면, 하루 동안의 영상 중 점심 시간 부분만 골라내어 요약해 줍니다. 마치 **책의 목차 (인덱스)**를 만들어 필요할 때만 relevant 한 페이지를 찾아주는 것과 같습니다.

③ "혼란을 해결하는" 대화 (의도 파악)

사용자가 "이거 해줘"라고 막연하게 말하면, AI 는 엉뚱한 일을 할 수 있습니다.

  • 비유: 이 AI 는 신중하고 예의 바른 비서입니다.
    • 사용자가 "이거"라고 말하며 가리켰는데, 여러 물체가 보이면 AI 는 "왼쪽의 사과를 말씀하시는 건가요, 아니면 오른쪽의 오렌지를 말씀하시는 건가요?"라고 확인을 요청합니다.
    • 이렇게 실수를 미리 막아주어, 사용자가 불쾌한 경험을 하지 않도록 보호합니다.

3. 왜 '웹 (Web)'이 중요한가요?

이 시스템은 안경 자체에서 모든 계산을 하는 것이 아니라, **인터넷 (웹)**을 통해 클라우드 서버와 연결됩니다.

  • 비유: 안경은 마이크와 스피커가 달린 리모컨 역할을 하고, 무거운 계산 (두뇌 작업) 은 **집에 있는 강력한 컴퓨터 (클라우드)**가 대신해 줍니다.
  • 장점: 안경이 가볍고 배터리가 오래 갑니다. 또한, 웹 기술 (WebRTC) 을 사용하므로 스마트폰 앱이나 웹사이트에서도 똑같은 비서를 쓸 수 있어 호환성이 뛰어납니다.

4. 실제로 얼마나 잘할까요?

연구진은 이 시스템을 실제 스마트 안경 (RayNeo X2 등) 에 탑재하고 실험했습니다.

  • 체스 게임: 체스판의 상태를 정확히 인식하고, 인간에게 도움이 되는 전략적인 수를 알려주었습니다.
  • 일상 질문: "이 사과 칼로리는?"이나 "오후 3 시 미팅 기억해 줘" 같은 요청을 정확하게 처리했습니다.
  • 결과: 기존 시중의 스마트 안경 제품들보다 사용자 만족도가 훨씬 높았으며, 인간 비서와 비교해도 뒤지지 않는 성능을 보였습니다.

5. 결론: 왜 이 기술이 필요한가요?

이 기술은 단순히 "재미있는 장난감"이 아닙니다.

  • 시각 장애가 있는 분: 책이나 라벨을 읽어주는 눈이 되어줍니다.
  • 기억력이 약한 분: 중요한 약속이나 물건을 찾는 것을 도와줍니다.
  • 누구나: 복잡한 정보를 쉽게 이해하고, 일상생활을 더 독립적으로 살아갈 수 있게 돕습니다.

한 줄 요약:

"이것은 당신의 눈을 대신해 세상을 보고, 당신의 기억을 대신해 과거를 찾아주며, 당신의 질문에 가장 정확한 전문가를 불러와 답해주는 **스마트 안경용 '생각의 조력자'**입니다."