Let It Flow: Agentic Crafting on Rock and Roll, Building the ROME Model within an Open Agentic Learning Ecosystem

이 논문은 ROLL, ROCK, iFlow CLI 로 구성된 오픈 소스 에이전트 학습 생태계 (ALE) 와 이를 기반으로 100 만 개 이상의 궤적으로 학습된 ROME 모델을 소개하며, 새로운 최적화 알고리즘과 벤치마크를 통해 에이전트 개발 파이프라인의 효율성과 성능을 입증합니다.

Weixun Wang, XiaoXiao Xu, Wanhe An, Fangwen Dai, Wei Gao, Yancheng He, Ju Huang, Qiang Ji, Hanqi Jin, Xiaoyang Li, Yang Li, Zhongwen Li, Shirong Lin, Jiashun Liu, Zenan Liu, Tao Luo, Dilxat Muhtar, Yuanbin Qu, Jiaqiang Shi, Qinghui Sun, Yingshui Tan, Hao Tang, Runze Wang, Yi Wang, Zhaoguo Wang, Yanan Wu, Shaopan Xiong, Binchen Xu, Xander Xu, Yuchi Xu, Qipeng Zhang, Xixia Zhang, Haizhou Zhao, Jie Zhao, Shuaibing Zhao, Baihui Zheng, Jianhui Zheng, Suhang Zheng, Yanni Zhu, Mengze Cai, Kerui Cao, Xitong Chen, Yue Dai, Lifan Du, Tao Feng, Tao He, Jin Hu, Yijie Hu, Ziyu Jiang, Cheng Li, Xiang Li, Jing Liang, Xin Lin, Chonghuan Liu, ZhenDong Liu, Zhiqiang Lv, Haodong Mi, Yanhu Mo, Junjia Ni, Shixin Pei, Jingyu Shen, XiaoShuai Song, Cecilia Wang, Chaofan Wang, Kangyu Wang, Pei Wang, Tao Wang, Wei Wang, Ke Xiao, Mingyu Xu, Tiange Xu, Nan Ya, Siran Yang, Jianan Ye, Yaxing Zang, Duo Zhang, Junbo Zhang, Boren Zheng, Wanxi Deng, Ling Pan, Lin Qu, Wenbo Su, Jiamang Wang, Wei Wang, Hu Wei, Minggang Wu, Cheng Yu, Bing Zhao, Zhicheng Zheng, Bo Zheng

게시일 2026-03-13
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🏛️ 1. 핵심 개념: "로마는 하루아침에 지어지지 않았다"

제목인 "ROME Wasn't Built in a Day"는 고대 로마 제국이 하루 만에 세워진 게 아니듯, 똑똑한 AI 에이전트도 하루 만에 만들어지는 게 아니라는 뜻입니다.

  • 기존의 AI: 한 번 질문을 던지면 한 번만 대답하는 '일회용 비서'였습니다. (예: "오늘 날씨 어때?" → "맑음입니다.")
  • 이 논문의 AI (ROME): 복잡한 일을 스스로 계획하고, 도구를 쓰며, 실패하면 다시 시도하는 **'능동적인 비서'**입니다. (예: "여행 계획 짜줘" → 항공권 검색 → 호텔 예약 → 일정 정리 → 실패 시 재시도 → 최종 제안)

하지만 이런 똑똑한 비서를 만들려면 단순히 AI 모델만 키우는 게 아니라, 그 비서가 일할 수 있는 '환경'과 '교육 시스템' 전체를 새로 지어야 합니다.


🏗️ 2. ALE(에이전트 학습 생태계): 비서를 키우는 거대한 캠퍼스

저자들은 AI 모델 (ROME) 을 만들기 위해 세 가지 핵심 도구를 갖춘 **'ALE'**라는 시스템을 만들었습니다.

① ROLL (롤): AI 의 '운동 코치'

  • 역할: AI 가 실수를 하고 배울 수 있도록 반복 훈련을 시키는 시스템입니다.
  • 비유: 운동선수가 훈련할 때, 코치가 "이건 틀렸어, 저건 잘했어"라고 점수를 매겨주는 역할입니다. 특히 AI 가 긴 시간 동안 여러 단계를 거쳐야 하는 복잡한 임무 (예: 100 단계의 코딩 작업) 에서도 흔들리지 않고 훈련할 수 있게 도와줍니다.

② ROCK (록): AI 의 '안전한 놀이터'

  • 역할: AI 가 실제로 코드를 짜거나 명령어를 입력할 때, 실수로 컴퓨터를 망가뜨리지 않도록 격리된 '샌드박스 (안전 구역)'를 만들어줍니다.
  • 비유: 아이가 장난감을 가지고 놀다가 장난감을 부수거나 화재를 낼까 봐 걱정되죠? ROCK 는 AI 가 "이 명령어를 실행하면 내 컴퓨터가 터질 수도 있어!"라고 생각할 때, 가상의 안전한 방에서 실행하게 해줍니다. 만약 AI 가 악의적으로 해킹을 시도하거나 위험한 행동을 해도, 그 방 안에서만 끝나고 실제 시스템에는 영향을 주지 않습니다.

③ iFlow CLI (아이플로우): AI 의 '작업 지시자'

  • 역할: AI 가 무엇을 해야 할지, 어떤 도구를 써야 할지 명확하게 알려주는 '매니저'입니다.
  • 비유: 비서가 일을 잘하려면 "이걸 해줘"라고 명확하게 지시해야 하죠. 이 도구는 AI 가 혼란스러워하지 않도록 문맥을 정리하고, 필요한 도구 (웹 검색, 파일 편집 등) 를 연결해 줍니다.

🍳 3. ROME(로마) 모델: 이 캠퍼스에서 자란 '천재 요리사'

이 세 가지 시스템 (ROLL, ROCK, iFlow) 을 통해 훈련된 AI 모델이 바로 ROME입니다.

  • 데이터 요리: 단순히 책만 읽게 한 게 아니라, 실제 요리 실습 (코딩, 도구 사용) 을 100 만 번 이상 시켰습니다.
  • 안전 교육: AI 가 요리하다 불을 지르거나 (보안 위협), 이상한 재료를 넣는 (안전하지 않은 행동) 것을 막기 위해 엄격한 안전 교육을 시켰습니다.
  • 새로운 학습법 (IPA): 기존에는 "한 글자씩" 점수를 매겼다면, ROME 은 "의미 있는 덩어리 (Chunk)" 단위로 점수를 매깁니다.
    • 비유: 요리사가 "소금 한 스푼"을 넣는 게 아니라 "요리 과정 전체"가 잘되었는지 평가하는 방식입니다. 이렇게 하면 AI 가 긴 작업을 할 때 방향을 잃지 않고 더 잘 배웁니다.

🏆 4. 결과: 작은 몸집에 거대한 실력

ROME 은 총 파라미터 (머리 크기) 가 300 억 개로, 다른 거대 모델 (1000 억 개 이상) 보다 훨씬 작습니다. 하지만 놀라운 결과를 냈습니다.

  • 성적표: 소프트웨어 개발, 터미널 명령어 실행, 복잡한 도구 사용 등 다양한 시험에서 거대 모델들과 어깨를 나란히 하거나, 때로는 이기기도 했습니다.
  • 의미: 단순히 AI 의 크기를 키우는 것 (스케일링) 만이 답이 아니라, 어떻게 훈련시키느냐 (에코시스템) 가 훨씬 중요하다는 것을 증명했습니다.

🚀 5. 새로운 시험지: Terminal Bench Pro

저자들은 기존 시험지들이 너무 쉬워서 AI 의 실력을 제대로 가늠하기 어렵다고 판단했습니다. 그래서 Terminal Bench Pro라는 더 어렵고 정교한 새로운 시험지를 만들었습니다.

  • 이 시험지에서는 AI 가 실수를 하면 바로 잡아야 하고, 다양한 상황에서 유연하게 대처해야 합니다.
  • ROME 은 이 어려운 시험에서도 다른 오픈소스 모델들보다 압도적으로 좋은 성적을 냈습니다.

💡 요약: 왜 이 논문이 중요한가요?

이 논문은 **"AI 를 똑똑하게 만들려면, 모델 자체만 키우는 게 아니라 그 모델이 일할 수 있는 '학교', '안전한 놀이터', '코치'까지 모두 함께 만들어야 한다"**는 것을 보여줍니다.

마치 로마 제국이 단순히 군인 한 명을 키우는 게 아니라, 도로, 법, 행정 시스템 전체를 정비하며 번영했듯, ROME이라는 AI 는 ALE라는 거대한 생태계 위에서 비로소 진정한 '에이전트'가 될 수 있었습니다. 이제 우리는 AI 가 단순히 대답만 하는 게 아니라, 우리 대신 복잡한 일을 스스로 해결하는 시대가 열렸음을 알 수 있습니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →