World Simulation with Video Foundation Models for Physical AI

이 논문은 물리 AI 를 위한 차세대 월드 파운데이션 모델인 Cosmos-Predict2.5 와 Cosmos-Transfer2.5 를 소개하며, 단일 모델에서 텍스트·이미지·비디오 기반 세계 생성과 제어를 통합하고 강화학습을 통해 비디오 품질과 지시 준수를 대폭 개선하여 로봇 및 자율 시스템용 합성 데이터 생성 및 시뮬레이션의 신뢰성을 높였음을 보여줍니다.

NVIDIA, :, Arslan Ali, Junjie Bai, Maciej Bala, Yogesh Balaji, Aaron Blakeman, Tiffany Cai, Jiaxin Cao, Tianshi Cao, Elizabeth Cha, Yu-Wei Chao, Prithvijit Chattopadhyay, Mike Chen, Yongxin Chen, Yu Chen, Shuai Cheng, Yin Cui, Jenna Diamond, Yifan Ding, Jiaojiao Fan, Linxi Fan, Liang Feng, Francesco Ferroni, Sanja Fidler, Xiao Fu, Ruiyuan Gao, Yunhao Ge, Jinwei Gu, Aryaman Gupta, Siddharth Gururani, Imad El Hanafi, Ali Hassani, Zekun Hao, Jacob Huffman, Joel Jang, Pooya Jannaty, Jan Kautz, Grace Lam, Xuan Li, Zhaoshuo Li, Maosheng Liao, Chen-Hsuan Lin, Tsung-Yi Lin, Yen-Chen Lin, Huan Ling, Ming-Yu Liu, Xian Liu, Yifan Lu, Alice Luo, Qianli Ma, Hanzi Mao, Kaichun Mo, Seungjun Nah, Yashraj Narang, Abhijeet Panaskar, Lindsey Pavao, Trung Pham, Morteza Ramezanali, Fitsum Reda, Scott Reed, Xuanchi Ren, Haonan Shao, Yue Shen, Stella Shi, Shuran Song, Bartosz Stefaniak, Shangkun Sun, Shitao Tang, Sameena Tasmeen, Lyne Tchapmi, Wei-Cheng Tseng, Jibin Varghese, Andrew Z. Wang, Hao Wang, Haoxiang Wang, Heng Wang, Ting-Chun Wang, Fangyin Wei, Jiashu Xu, Dinghao Yang, Xiaodong Yang, Haotian Ye, Seonghyeon Ye, Xiaohui Zeng, Jing Zhang, Qinsheng Zhang, Kaiwen Zheng, Andrew Zhu, Yuke Zhu

게시일 2026-02-26
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

NVIDIA 의 '코스모스 2.5': 물리 AI 를 위한 현실 같은 '가상 우주' 만들기

이 논문은 NVIDIA 가 발표한 **'코스모스 2.5 (Cosmos-Predict2.5)'**라는 새로운 인공지능 모델에 대한 이야기입니다. 이 모델을 쉽게 이해하려면 **'현실 세계를 완벽하게 시뮬레이션할 수 있는 마법 같은 영화 제작 스튜디오'**라고 상상해 보세요.

기존의 AI 가 단순히 그림을 그리거나 짧은 영상을 만드는 데 그쳤다면, 코스모스 2.5 는 **로봇이나 자율주행차가 실제로 일할 수 있는 '가상 현실 훈련장'**을 만들어줍니다.


1. 왜 이 기술이 필요할까요? (실제 훈련의 위험성)

로봇이나 자율주행차를 실제 세상에 바로 데리고 나가서 훈련시키려면 큰 문제가 있습니다.

  • 위험: 로봇이 넘어지거나 차가 사고를 나면 고장 나거나 다칠 수 있습니다.
  • 비효율: 실수를 반복하며 배우는 데 시간이 너무 오래 걸립니다.

그래서 우리는 **가상 세계 (시뮬레이션)**가 필요합니다. 여기서 로봇은 수천 번 실패해도 괜찮고, 그 경험을 바탕으로 실제 세상에 나갈 때 완벽하게 작동하도록 훈련할 수 있습니다. 하지만 기존 시뮬레이션은 너무 '인공적'이고 딱딱해서, 로봇이 실제 세상의 복잡함을 이해하지 못했습니다.

2. 코스모스 2.5 의 핵심 기능: "무엇이든 가능한 마법 스튜디오"

코스모스 2.5 는 세 가지 강력한 능력을 하나로 합쳤습니다.

  1. 텍스트 → 세계 (Text2World): "비 오는 날, 로봇이 커피를 마시는 모습"이라고 말만 하면, AI 가 그 장면을 영상으로 만들어줍니다.
  2. 이미지 → 세계 (Image2World): 한 장의 사진을 주면, 그 사진이 어떻게 움직일지 예측하여 영상을 만들어줍니다.
  3. 영상 → 세계 (Video2World): 짧은 영상을 주면, 그 흐름을 이어가며 앞으로 일어날 일을 예측합니다.

비유하자면:

예전에는 AI 가 '연필로 스케치'만 했다면, 코스모스 2.5 는 **'실제 촬영 가능한 영화 세트'**를 바로 만들어주는 감독과 촬영팀을 갖춘 것입니다.

3. 어떻게 이렇게 똑똑해졌을까요? (3 가지 업그레이드)

이 모델은 이전 버전보다 훨씬 더 똑똑해졌습니다. 그 비결은 다음과 같습니다.

  • 더 깨끗한 학습 자료 (2 억 개의 영상):
    AI 는 2 억 개가 넘는 다양한 영상 (자동차 주행, 로봇 팔 움직임, 사람 동작 등) 을 공부했습니다. 하지만 단순히 모은 게 아니라, 질 나쁜 영상은 모두 걸러내고 물리 법칙 (예: 물이 떨어질 때, 공이 튀는 모습) 을 지키는 영상만 엄선했습니다. 마치 최고급 요리사가 최고의 재료만 선별하는 것과 같습니다.

  • 더 똑똑한 '이해력' (Cosmos-Reason1):
    이전 모델은 텍스트를 단순히 읽는 수준이었다면, 새로운 모델은 **물리 AI 에 특화된 '이해력'**을 갖췄습니다. "로봇 팔이 컵을 잡을 때 미끄러지지 않게 조심해"라고 말하면, 단순히 컵을 잡는 게 아니라 '미끄러지지 않게'라는 물리적 제약을 이해하고 영상을 만듭니다.

  • 강화 학습 (RL) 을 통한 '피드백':
    AI 가 영상을 만든 후, 인간 전문가나 다른 AI 가 "이건 너무 어색해, 물리 법칙에 맞지 않아"라고 피드백을 주면, AI 는 그걸로 다시 학습합니다. 마치 요리사가 맛보기를 하고 맛을 더듬어가는 과정과 같습니다.

4. 실제 활용 사례: 로봇과 자동차를 위한 '가상 훈련장'

이 기술은 단순히 영상을 만드는 것을 넘어, 실제 문제를 해결합니다.

  • 로봇의 '가상 연습' (Sim2Real):
    로봇이 새로운 물건을 잡는 법을 배울 때, 실제 로봇을 쓰지 않고 코스모스 2.5 가 만든 가상 환경에서 수천 번 연습하게 합니다. 특히 가상의 조명, 배경, 물체 색상을 자유롭게 바꾸어 로봇이 어떤 상황에서도 적응하도록 훈련시킵니다.

    예: 로봇이 빨간 사과를 잡는 법을 배웠다면, 코스모스 2.5 는 가상의 보라색 망고나 검은색 접시 상황도 만들어내어 로봇이 당황하지 않게 합니다.

  • 자율주행의 '예측 능력':
    자율주행차는 복잡한 도로 상황을 예측해야 합니다. 코스모스 2.5 는 지도와 차량 위치만 주면, 앞으로 7 개의 카메라 시점에서 어떤 차들이 지나갈지, 비가 오면 도로가 어떻게 변할지 예측하여 운전자에게 안전한 경로를 제시합니다.

  • 다양한 시점 (Multi-view):
    로봇이 물건을 잡을 때, 로봇의 머리 카메라뿐만 아니라 손가락 끝 (그리퍼) 에서 보는 시점까지 동시에 만들어줍니다. 이는 로봇이 시야에 안 보이는 물체도 이해하는 데 도움을 줍니다.

5. 결론: 열린 세상의 시작

NVIDIA 는 이 기술의 소스 코드와 학습된 모델을 전 세계에 무료로 공개했습니다. 마치 레고 블록을 모두 공개한 것처럼, 연구자들과 개발자들이 이 '가상 우주'를 가져가서 자신만의 로봇이나 자율주행 시스템을 더 빠르게, 더 안전하게 만들 수 있게 된 것입니다.

한 줄 요약:

코스모스 2.5 는 로봇과 자율주행차가 실제 세상의 위험 없이, 현실과 구별할 수 없을 만큼 정교한 '가상 우주'에서 수천 번의 훈련을 통해 전문가가 될 수 있게 해주는 최고의 훈련 도구입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →