OmniGAIA: Towards Native Omni-Modal AI Agents

이 논문은 비전, 오디오, 언어를 통합한 심층 추론과 도구 사용을 평가하기 위한 벤치마크 'OmniGAIA'와 이를 기반으로 한 원천 오모달 에이전트 'OmniAtlas'를 제안하여 차세대 범용 AI 어시스턴트 개발을 위한 중요한 진전을 이루었다고 요약할 수 있습니다.

Xiaoxi Li, Wenxiang Jiao, Jiarui Jin, Shijian Wang, Guanting Dong, Jiajie Jin, Hao Wang, Yinuo Wang, Ji-Rong Wen, Yuan Lu, Zhicheng Dou

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🌍 오미 GAIA (OmniGAIA): 모든 감각을 가진 AI 비서의 탄생

이 논문은 인공지능이 인간처럼 눈, 귀, 입을 모두 자유롭게 쓰며 복잡한 문제를 해결할 수 있도록 돕는 새로운 기준과 기술을 소개합니다. 마치 "보이지 않는 것까지 보고, 들리지 않는 소리까지 듣는" 초능력을 가진 AI 비서를 만드는 여정이라고 생각하시면 됩니다.

이 내용을 쉽게 설명하기 위해 세 가지 핵심 이야기로 나누어 보겠습니다.


1. 🕵️‍♂️ 문제: "반쪽짜리" AI 비서들

지금까지의 AI 비서들은 대부분 **눈 (영상/이미지) 과 입 (텍스트)**만 사용하는 '반쪽짜리'였습니다. 예를 들어, "이 영상에서 들리는 소리를 듣고 이 장소를 찾아줘"라고 하면, 영상은 볼 수 있어도 소리를 제대로 분석하지 못해 엉뚱한 답을 내놓거나, "이 노래 가사를 보고 작곡가를 찾아줘"라고 하면 가사는 읽을 수 있지만 멜로디를 못 알아듣는 식이죠.

하지만 인간은 영화를 볼 때 화면의 상황, 배우의 목소리 톤, 배경음악, 그리고 대본을 모두 종합해서 이해합니다. 이 논문은 "AI 도 이렇게 **모든 감각 (오미모달)**을 동시에 써야 진짜 똑똑한 비서가 될 수 있다"고 말합니다.

2. 🗺️ 지도 만들기: '오미 GAIA'라는 미로

새로운 AI 를 시험하려면 아주 까다로운 시험지가 필요합니다. 저자들은 **'오미 GAIA (OmniGAIA)'**라는 새로운 시험지를 만들었습니다.

  • 시험지 특징:
    • 복잡한 미로: 단순히 "이게 뭐야?"를 묻지 않습니다. "이 영상 속 남자가 언급한 다리가 영화 <블루스 브라더스>에 나오는 다리를 닮았는데, 그 다리가 영화 촬영 당시 몇 살이었을까?"처럼 영상, 소리, 웹 검색, 계산을 모두 섞어 3~4 단계로 이어지는 미로 같은 문제를 냅니다.
    • 실제 데이터: 실제 유튜브 영상, 뉴스, 다큐멘터리에서 가져온 진짜 소리들과 영상을 사용합니다.
    • 도구 사용 필수: AI 는 혼자서 답을 지어내면 안 됩니다. 구글 검색, 코드 실행기 같은 외부 도구를 직접 써서 사실을 확인해야만 점수를 받습니다.

비유하자면: 기존 시험지는 "사진을 보고 사물을 맞추는 퀴즈"였다면, 오미 GAIA 는 "현장 (영상/소리) 을 조사하고, 도서관 (웹) 에서 자료를 찾아서, 계산기를 두드려서 최종 보고서를 쓰는 수사관 훈련"과 같습니다.

3. 🚀 해결책: '오미 아틀라스 (OmniAtlas)'라는 새로운 비서

이 까다로운 시험지를 통과할 수 있는 새로운 AI 비서, **'오미 아틀라스 (OmniAtlas)'**를 개발했습니다.

  • 능동적인 관찰 (Active Perception):
    • 기존 AI 는 긴 영상을 볼 때 "다 보자"라고 하며 전체를 한 번에 훑어보다가 중요한 디테일을 놓칩니다. (비유: 책을 다 읽으려다 중요한 줄을 넘겨버림)
    • 오미 아틀라스는 "여기가 좀 안 보이네? 이 부분만 다시 확대해서 봐야겠다"라고 생각하며 필요한 부분만 다시 보고, 필요한 소리만 다시 듣습니다. (비유: 수사관이 증거가 의심스러운 부분만 다시 확대해서 살피는 것)
  • 실수 교정 훈련 (OmniDPO):
    • AI 가 길을 잃고 헤맬 때, "왜 틀렸지?"라고 분석해서 정확히 어디서 실수했는지 찾아내고, 그 부분만 다시 가르치는 훈련을 시켰습니다.

📊 결과는 어땠나요? (현실적인 평가)

  • 아직 갈 길이 멀다: 가장 똑똑한 상용 AI(구글 제미니) 가 이 시험에서 62.5 점 정도를 받았습니다. 하지만 오픈소스 모델들은 13 점 정도밖에 못 받아, 차이가 매우 큽니다.
  • 크기만 키우면 안 된다: 모델의 크기 (파라미터) 를 무작정 키우는 것만으로는 해결되지 않습니다. 도구를 어떻게 잘 쓰느냐가 핵심입니다.
  • 오미 아틀라스의 성과: 기존 오픈소스 모델에 이 훈련 방법을 적용하자 점수가 13 점에서 20 점으로 크게 올랐습니다. 특히 도구를 잘못 쓰는 실수가 많이 줄어들었습니다.

💡 핵심 교훈: "도구가 있다고 해서 다 해결되는 건 아니다"

논문의 마지막 사례 연구는 아주 흥미롭습니다.

  • 실패 사례 1: 도구를 아예 쓰지 않고 기억만 믿고 엉뚱한 답을 냄.
  • 실패 사례 2: 도구를 썼지만, 처음에 잘못된 가설 (시작점) 을 가지고 검색해서, 잘못된 정보만 계속 찾아내는 '확증 편향'에 빠짐.
  • 성공 사례: "일단 현장 (영상) 을 정확히 파악하고, 그걸 바탕으로 정확한 검색어를 만들어서 사실을 확인한 뒤 계산"하는 과정을 거침.

🎉 결론

이 논문은 **"AI 가 진짜 세상을 이해하려면, 눈과 귀를 동시에 열고, 필요한 때엔 도구를 꺼내 써야 한다"**는 것을 증명했습니다. 오미 GAIA 는 그 능력을 측정하는 자자한 척도가 되고, 오미 아틀라스는 그 능력을 키우는 새로운 훈련법입니다.

앞으로 우리가 만날 AI 비서들은 단순히 "대답"만 하는 것이 아니라, **현장을 조사하고, 자료를 찾고, 논리적으로 결론을 내는 진짜 '비서'**가 될 수 있을 것입니다! 🕵️‍♂️🎧📹