Thousand-GPU Large-Scale Training and Optimization Recipe for AI-Native Cloud Embodied Intelligence Infrastructure
이 논문은 LeRobot 프레임워크를 기반으로 데이터 파이프라인 재구조화, 모델 최적화 (FlashAttention, FP8 등), 그리고 고성능 인프라 구축을 통해 그라 00T-N1.5 모델의 학습 속도를 40 배 가속화한 천 개 GPU 규모의 대규모 분산 학습 플랫폼과 종단 간 평가 시스템을 제시합니다.
Chen Zhou, Haoran Sun, Hedan Yang, Jing Long, Junwu Xiong, Luqiao Wang, Mingxi Luo, Qiming Yang, Shuai Di, Song Wang, Tianyun Zhao, Wanting Xu, Wen Huang, Xiaodong Bai, Xiaomeng Tian, Xiaolong Xiang, Yicheng Gong, Yongjian Guo, Yucheng Guo, Yunxuan Ma, Yu Wei, Zhong Guan, Zhen SunFri, 13 Ma🤖 cs.AI