OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal Intelligence

이 논문은 비디오 코덱의 정보 이론적 원리 (예측 잔차에 기반한 희소성) 를 시각 아키텍처에 적용하여 효율성과 정확성을 동시에 극대화하는 'OneVision-Encoder'를 제안하고, 이를 통해 다양한 멀티모달 벤치마크에서 기존 최첨단 모델들을 능가하는 성능을 입증했습니다.

Feilong Tang, Xiang An, Yunyao Yan, Yin Xie, Bin Qin, Kaicheng Yang, Yifei Shen, Yuanhan Zhang, Chunyuan Li, Shikun Feng, Changrui Chen, Huajie Tan, Ming Hu, Manyuan Zhang, Bo Li, Ziyong Feng, Ziwei Liu, Zongyuan Ge, Jiankang Deng

게시일 2026-02-27
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제: 왜 기존 AI 는 '바보'처럼 일할까요? 🤔

기존의 비디오 AI 는 영상을 볼 때 마치 모든 장면을 똑같은 크기로 자른 1000 개의 조각을 하나하나 꼼꼼히 살펴보는 사람과 같습니다.

  • 현실: 영상을 보면, 배경 (하늘, 벽, 나무) 은 거의 움직이지 않고 정적입니다. 하지만 사람이 뛰거나 공이 날아가는 순간만 진짜 중요한 정보 (새로운 정보) 가 있습니다.
  • 기존 방식의 비효율: AI 는 정적인 배경도, 움직이는 사람도 똑같은 양의 '계산력'을 써서 분석합니다. 마치 휴대폰 배터리로 정적인 벽을 100 번이나 스캔하면서, 정작 중요한 '스파게티가 떨어지는 순간'을 놓치는 것과 같습니다.
  • 결과: 엄청난 전력과 시간이 낭비되고, 중요한 순간을 놓치기 쉽습니다.

2. 해결책: "비디오 코덱 (Codec)"의 비밀을 훔치다! 🎬

이 연구팀은 **유튜브나 넷플릭스에서 영상을 압축하는 기술 (H.264, H.265 같은 코덱)**에서 영감을 받았습니다.

  • 코덱의 지혜: 코덱은 영상을 압축할 때, 움직이지 않는 배경은 한 번만 저장하고, 움직이는 부분만 '변화'로 저장합니다.
    • I-Frame (키 프레임): 전체 장면을 다 찍은 사진 (배경 + 인물).
    • P-Frame (예측 프레임): "어제보다 사람이 1cm 오른쪽으로 움직였어"라는 작은 변화 정보만 저장.
  • OneVision-Encoder 의 아이디어: "AI 도 이렇게 해야지! 배경은 가볍게, 움직이는 부분 (변화) 에만 집중하자!"

3. OneVision-Encoder 의 핵심 기술: "코덱 패치피케이션" 🧩

이 기술은 영상을 **조각 (Patch)**으로 나누되, 어떤 조각을 볼지 코덱이 알려주는 신호로 결정합니다.

  • 상상해 보세요:
    • 기존 AI: 100 개의 조각 중 100 개를 다 봅니다. (비효율적)
    • OneVision-Encoder: 100 개 조각 중 움직이는 3~25 개 조각만 골라서 봅니다.
    • 결과: 계산량은 87.5% 줄이면서, 중요한 정보는 100% 놓치지 않습니다.

4. 왜 이것이 더 똑똑한가요? 🧠

이 방식은 두 가지 큰 장점이 있습니다.

  1. 효율성 (Efficiency): 불필요한 배경을 분석하는 에너지를 아껴서, 움직임과 의미를 분석하는 데 집중합니다. 마치 스마트한 경비원이 정적인 벽을 계속 보지 않고, 움직이는 사람에게만 집중하는 것과 같습니다.
  2. 정확성 (Accuracy): 중요한 순간 (예: 요리할 때 물이 쏟아지는 1 초) 을 놓치지 않습니다. 기존 방식은 1 초 간격으로만 찍으면 그 1 초를 놓칠 수 있지만, 이 방식은 64 초 동안의 모든 순간을 스캔하되, 중요한 변화가 있을 때만 확대경을 대고 자세히 봅니다.

5. 실험 결과: 압도적인 성능 🏆

이 기술을 적용한 모델은 기존 최고의 모델들 (Qwen3-ViT, SigLIP2 등) 보다 더 적은 데이터와 더 적은 계산량으로 더 좋은 결과를 냈습니다.

  • 비디오 이해: 무용 (Diving) 이나 스포츠처럼 빠른 움직임을 분석할 때 4.1% 더 정확했습니다.
  • 이미지 & 문서: 정적인 이미지나 문서 읽기에서도 기존 모델들을 능가했습니다.
  • 핵심 메시지: "효율성과 정확성은 서로 trade-off(상충 관계) 가 아니다. 올바른 구조를 찾으면 둘 다 잡을 수 있다."

6. 결론: AI 의 미래는 "압축"이다 🚀

이 논문은 **"인공지능의 핵심은 압축이다"**라는 가설을 증명합니다.
세상은 이미 압축되어 있습니다 (배경은 정적이고, 중요한 건 움직임). AI 가 이 **세상의 구조 (코덱 원리)**에 맞춰 설계될 때, 비로소 진짜 똑똑하고 빠른 인공지능이 될 수 있다는 것입니다.

한 줄 요약:

"OneVision-Encoder 는 비디오를 볼 때 '배경'은 무시하고 '움직임'에만 집중하는, 코덱에서 영감을 받은 초효율 AI 입니다. 더 적은 에너지로 더 똑똑한 세상을 봅니다."

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →