OmniStream: Mastering Perception, Reconstruction and Action in Continuous Streams

Each language version is independently generated for its own context, not a direct translation.

🎬 오미스트림: "세상을 보는 똑똑한 카메라와 뇌"

지금까지 인공지능 (AI) 은 세상을 볼 때 특수한 안경을 끼고 있었습니다.

사진 안경: 정지된 사진만 잘 보지만, 움직이는 것은 어색해합니다.
동영상 안경: 움직이는 것은 잘 보지만, 사물의 깊이 (3D) 나 구조를 이해하는 데는 약합니다.
공간 안경: 거리의 깊이는 재지만, "이게 무슨 사물인지"는 잘 모릅니다.

결국 로봇이나 AR 안경을 만들려면 이 안경들을 여러 개 끼고 있어야 해서, 머리가 복잡하고 반응이 느렸습니다.

오미스트림은 이 모든 안경을 하나로 합친 '슈퍼 안경'입니다. 이 한 가지 안경만 끼면 사진도, 동영상도, 3D 공간도, 그리고 로봇이 물건을 잡는 행동까지 모두 자연스럽게 이해할 수 있습니다.

🚀 오미스트림이 특별한 이유 3 가지

1. "지금까지 본 것만 기억하는" 실시간 뇌 (인과적 주의)

기존의 동영상 AI 는 영화를 볼 때 "앞부분을 다 보고 나서" 해석을 시작하는 경우가 많았습니다. 하지만 오미스트림은 실시간 스트리밍을 다룹니다.

비유: 마치 라이브 방송을 보는 것처럼, 지금 이 순간과 과거의 기억만을 바탕으로 미래를 예측합니다.
효과: 매번 처음부터 다시 계산할 필요가 없기 때문에, 메모리를 아끼고 매우 빠르게 반응합니다. 로봇이 물건을 잡을 때 "잠깐만, 과거 영상을 다시 돌려보자"라고 멈추지 않고, 현재 상황을 보고 즉시 행동합니다.

2. "시간과 공간의 지도"를 그리는 능력 (3D 회전 위치 임베딩)

기존 AI 는 "이것이 책상이다"라고만 알 뿐, "책상이 내 오른쪽 2 미터 앞에 있고, 1 초 뒤에는 움직일 것이다"라는 시간과 공간의 관계를 잘 모릅니다.

비유: 오미스트림은 세상을 볼 때 3 차원 지도를 머릿속에 그립니다. 사물이 어디에 있고 (공간), 언제 움직이는지 (시간) 를 동시에 파악합니다.
효과: 로봇이 "숟가락을 파란 수건 위에 올려라"라는 명령을 들었을 때, 단순히 파란색을 찾는 게 아니라, 숟가락과 수건의 거리와 위치 관계를 정확히 계산해 내어 성공적으로 행동을 수행합니다.

3. "한 번에 모든 것을 배우는" 통합 학습 (다중 작업 훈련)

이 모델은 29 개의 다양한 데이터셋 (사진, 동영상, 3D 지도, 로봇 제어 등) 으로 훈련되었습니다.

비유: 다른 AI 들은 "수학만 가르치는 선생님", "영어만 가르치는 선생님"이 따로 있는 반면, 오미스트림은 수학, 영어, 체육, 과학을 모두 가르치는 만능 선생님입니다.
효과: 이 선생님은 어떤 과목 (작업) 을 시켜도, 별도의 재교육 없이 바로 잘 해냅니다. 로봇이 새로운 환경에 가도, 이미 배운 '공간 감각'과 '이해력'을 그대로 적용할 수 있습니다.

🤖 실제로 어떤 일을 할까요?

이 논문은 오미스트림이 다음과 같은 일을 기존의 전문가들보다 잘하거나 비슷하게 해낸다고 증명했습니다.

사진과 동영상 분석: 정지된 사진의 내용도 잘 이해하고, 복잡한 동영상 속 사물의 움직임도 정확히 추적합니다.
3D 공간 재구성: 카메라가 움직이는 동영상만 보고도, 그 공간의 깊이와 모양을 실시간으로 3D 로 복원합니다. (예: 방의 크기를 재거나, 물체까지의 거리를 측정)
로봇 조종 (Embodied AI): 로봇이 "책상 위의 빨간 사과를 가져와"라고 말하면, 사과를 찾고, 거리를 계산하고, 팔을 움직여 가져옵니다. 로봇을 훈련시킬 때 별도의 시각 학습 없이도 오미스트림의 지식을 바로 쓸 수 있습니다.

💡 결론: 왜 이것이 중요한가요?

지금까지 AI 는 "특정 임무"를 위해 따로따로 만들어졌습니다. 하지만 오미스트림은 하나의 강력한 기본 모델로 모든 일을 해결할 수 있음을 보여줍니다.

간단히 말해: 우리는 이제 로봇이나 스마트 안경을 만들 때, 여러 개의 복잡한 부품을 조립할 필요가 없습니다. 오미스트림이라는 '만능 두뇌' 하나만 있으면, 로봇은 세상을 보고, 이해하고, 움직이는 것을 자연스럽게 배울 수 있게 된 것입니다.

이 기술은 앞으로 우리가 일상에서 마주할 더 똑똑하고, 빠르며, 유연한 AI 비서와 로봇의 탄생을 가능하게 할 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

현대 비전 에이전트 (로봇, AR 장치, 비디오 어시스턴트 등) 는 카메라를 통해 세계를 관찰하고 연속적인 스트림에서 실시간으로 정보를 업데이트해야 합니다. 이러한 환경에서 요구되는 표현은 다음과 같은 세 가지 핵심 속성을 가져야 합니다:

범용성 (General): 인식, 추론, 상호작용을 모두 지원해야 함.
인과성 (Causal): 미래 프레임을 참조하지 않고 과거와 현재 프레임만을 기반으로 해야 함 (실시간 처리).
구조화 (Structured): 외관뿐만 아니라 기하학과 운동 (모션) 을 포착해야 함.

현재의 비전 기반 모델 (Foundation Models) 은 다음과 같은 한계가 있습니다:

분열된 아키텍처: 이미지 인코더 (DINO, SigLIP), 비디오 모델 (VideoMAE, V-JEPA), 기하학 전문가 (DepthAnything) 등이 각각 특정 작업에 최적화되어 있어, 하나의 백본으로 정적 의미, 동적 모션, 3D 구조를 모두 처리하기 어렵습니다.
비인과적 처리: 많은 비디오 모델이 전체 시퀀스를 한 번에 처리 (오프라인) 하거나, 미래 프레임을 참조하여 실시간 스트리밍에 부적합합니다.
재학습 비용: 새로운 작업을 추가할 때마다 토큰화 방식이나 아키텍처를 수정하고 재학습해야 하는 비효율성이 존재합니다.

2. 방법론 (Methodology)

OmniStream은 사전 학습된 이미지 비전 트랜스포머 (DINOv3) 를 기반으로 하여, **인과적 시공간 주의 (Causal Spatiotemporal Attention)**와 **3D 회전 위치 임베딩 (3D-RoPE)**을 도입하여 온라인 스트리밍 백본으로 확장합니다.

2.1 핵심 아키텍처

인과적 시공간 주의 (Causal Spatiotemporal Attention):
- 기존 트랜스포머의 전역 어텐션 대신, 현재 프레임 $t$ 의 토큰이 $t$ 이전의 토큰만을 참조하도록 인과적 마스크를 적용합니다.
- 지속적인 KV-Cache: 이전 프레임의 키/값 (Key/Value) 을 캐싱하여 재계산을 방지함으로써, 프레임 단위의 효율적인 온라인 추론을 가능하게 합니다.
3D 회전 위치 임베딩 (3D-RoPE):
- 기존 2D RoPE 를 시공간 영역으로 확장합니다.
- 시간 ( $t$ ), 높이 ( $y$ ), 너비 ( $x$ ) 를 2:3:3 비율로 분할하여 위치 정보를 인코딩하며, 장기간의 스트림에서도 "언제 (When)"와 "어디 (Where)"에 대한 추론을 가능하게 합니다.

2.2 통합 멀티태스크 학습 프레임워크

OmniStream 은 29 개의 다양한 데이터셋 (이미지, 비디오, 3D/4D 장면, 캡션 등) 을 활용하여 다음 세 가지 상보적인 목표를 동시에 학습합니다:

정적 및 동적 표현 학습 (Static & Temporal Representation Learning):
- DINOv3 스타일의 학생 - 교사 증류 (Distillation) 를 적용합니다.
- 이미지와 비디오를 동일한 스트림으로 취급하여, 전역 의미론적 일관성과 패치 수준의 판별적 특징, 모션 민감한 동역학을 동시에 학습합니다.
스트리밍 기하학적 재구성 (Streaming Geometric Reconstruction):
- 경량 피드포워드 헤드를 통해 단안 스트림에서 깊이 맵 (Depth Map), 레이 맵 (Ray Map), 카메라 포즈를 예측합니다.
- 명시적인 3D 기하학적 제약을 통해 표현이 단순한 외관이 아닌 물리적 장면 구조를 반영하도록 유도합니다.
비전 - 언어 정렬 (Vision-Language Alignment):
- 경량 오토레커시브 언어 디코더 (Qwen3-0.6B) 를 연결하여 캡셔닝, OCR, 비전 그라운딩 작업을 수행합니다.
- 이는 시각 토큰과 언어 개념을 정렬하여 추론 중심 작업 (VLM, VLA) 에 필요한 미세한 의미론적 정보를 제공합니다.

2.3 다운스트림 적용

학습된 표현은 **백본을 완전히 동결 (Frozen)**한 상태에서 다양한 다운스트림 작업에 적용됩니다:

지각 (Perception): 이미지/비디오 분류, 분할, 깊이 추정 (선형 헤드 추가).
추론 (Reasoning): VLM(비전 - 언어 모델) 과 결합하여 복잡한 비디오 질문 응답 (VQA) 수행.
행동 (Action): VLA(비전 - 언어 - 행동) 모델로 확장하여 로봇 조작 작업 수행.

3. 주요 기여 (Key Contributions)

통합 스트리밍 비전 백본: 이미지, 비디오, 3D 기하학을 하나의 인과적 프레임워크로 통합하여, 단일 모델이 정적 의미, 동적 모션, 공간 구조를 모두 이해하도록 합니다.
효율적인 온라인 추론: KV-Cache 와 인과적 어텐션을 통해 장기간의 비디오 스트림을 프레임 단위로 실시간 처리하며, 메모리 효율성을 극대화합니다.
동적 및 기하학적 표현의 선구적 학습: 명시적인 3D 기하학 및 동적 모션 학습을 통해, 추후 VLA(로봇 제어) 작업에 필수적인 공간 지능과 물리 법칙 이해를 백본 수준에서 확보합니다.
범용성 입증: 백본을 수정하거나 파인튜닝하지 않고도, 이미지/비디오 지각, 공간 추론, 로봇 조작 등 다양한 작업에서 전문 모델 (Specialized Experts) 과 경쟁하거나 우월한 성능을 보입니다.

4. 실험 결과 (Results)

OmniStream 은 5 가지 주요 영역에서 광범위한 벤치마크를 통해 평가되었습니다.

이미지 및 비디오 지각 (Probing):
- 이미지: DINOv3 와 유사한 성능으로 ImageNet 분류, ADE20K 분할, NYUv2 깊이 추정을 수행합니다.
- 비디오: SSv2(동작 인식) 에서 68.5% 정확도를 기록하여 DINOv3(54.0%) 을 크게 상회하며, DAVIS'17(VOS) 에서도 71.6 의 J&F 점수로 장기간 일관성을 유지합니다.
스트리밍 기하학적 재구성:
- CUT3R 등의 전문 3D 모델과 비교하여 Sintel, KITTI, TUM 등 다양한 데이터셋에서 온라인 깊이 추정과 카메라 포즈 추정에서 경쟁력 있거나 우수한 성능을 보입니다.
- 훈련 시 16 프레임만 사용했음에도 불구하고, 110 프레임 이상의 긴 시퀀스에 대한 제로샷 길이 외삽 (Zero-shot length extrapolation) 이 가능합니다.
비전 - 언어 모델 (VLM):
- VideoMME, VideoMMMU, PerceptionTest 등 주요 비디오 QA 벤치마크에서 LLaVA-Video 보다 우수한 성능을 보입니다.
- VSI-Bench (공간 지능): 공간 추론 능력이 뛰어난 SpaceMind, VLM-3R 등 전문 기하학 모델들을 능가하는 70.6 점의 성능을 기록합니다.
비전 - 언어 - 행동 (VLA) 및 로봇 조작:
- CALVIN 및 Simpler-Bridge: 백본을 동결한 상태에서 로봇 조작 작업에서 성공률 3.89 (CALVIN) 및 45.8% (Simpler-Bridge) 를 기록했습니다.
- 이는 일반 VLM(예: Qwen2.5-VL) 이 동결된 상태에서는 로봇 제어에 실패하는 것과 대조되며, OmniStream 이 지각과 행동을 연결하는 강력한 표현을 학습했음을 증명합니다.

5. 의의 및 결론 (Significance)

OmniStream 은 벤치마크별 최적화 (Benchmark-specific dominance) 를 추구하기보다, 단일 범용 비전 백본이 의미론적, 공간적, 시간적 추론을 모두 일반화할 수 있음을 입증했습니다.

실제 에이전트 적용 가능성: 로봇 및 대화형 에이전트가 실시간으로 환경을 지각하고, 3D 구조를 이해하며, 물리적 행동을 계획하는 데 필요한 통합 표현을 제공합니다.
효율성: KV-Cache 를 통한 효율적인 스트리밍 처리는 제한된 메모리 환경에서의 실시간 배포를 가능하게 합니다.
미래 방향: 이 연구는 범용 시각 이해 (General-purpose Visual Understanding) 를 위한 중요한 단계로, 향후 모델 스케일링을 통해 전문 모델과의 격차를 더욱 좁힐 수 있는 기반을 마련했습니다.

결론적으로, OmniStream 은 "지각, 재구성, 행동"을 하나의 통합된 스트리밍 프레임워크로 통합함으로써, 차세대 지능형 에이전트 개발에 있어 중요한 이정표가 됩니다.