Yicheng Zou, Dongsheng Zhu, Lin Zhu, Tong Zhu, Yunhua Zhou, Peiheng Zhou, Xinyu Zhou, Dongzhan Zhou, Zhiwang Zhou, Yuhao Zhou, Bowen Zhou, Zhanping Zhong, Zhijie Zhong, Haiteng Zhao, Penghao Zhao, XiaYicheng Zou, Dongsheng Zhu, Lin Zhu, Tong Zhu, Yunhua Zhou, Peiheng Zhou, Xinyu Zhou, Dongzhan Zhou, Zhiwang Zhou, Yuhao Zhou, Bowen Zhou, Zhanping Zhong, Zhijie Zhong, Haiteng Zhao, Penghao Zhao, Xiaomeng Zhao, Zhiyuan Zhao, Yechen Zhang, Jin Zhang, Wenwei Zhang, Hongjie Zhang, Zhuo Zhang, Wenlong Zhang, Bo Zhang, Chao Zhang, Chen Zhang, Yuhang Zang, Fei Yuan, Jiakang Yuan, Jiashuo Yu, Jinhui Yin, Haochen Ye, Qian Yao, Bowen Yang, Danni Yang, Kaichen Yang, Ziang Yan, Jun Xu, Yicheng Xu, Wanghan Xu, Xuenan Xu, Chao Xu, Ruiliang Xu, Shuhao Xing, Long Xing, Xinchen Xie, Ling-I Wu, Zijian Wu, Zhenyu Wu, Lijun Wu, Yue Wu, Jianyu Wu, Wen Wu, Fan Wu, Xilin Wei, Qi Wei, Bingli Wang, Rui Wang, Ziyi Wang, Zun Wang, Yi Wang, Haomin Wang, Yizhou Wang, Lintao Wang, Yiheng Wang, Longjiang Wang, Bin Wang, Jian Tong, Zhongbo Tian, Huanze Tang, Chen Tang, Shixiang Tang, Yu Sun, Qiushi Sun, Xuerui Su, Qisheng Su, Chenlin Su, Demin Song, Jin Shi, Fukai Shang, Yuchen Ren, Pengli Ren, Xiaoye Qu, Yuan Qu, Jiantao Qiu, Yu Qiao, Runyu Peng, Tianshuo Peng, Jiahui Peng, Qizhi Pei, Zhuoshi Pan, Linke Ouyang, Wenchang Ning, Yichuan Ma, Zerun Ma, Ningsheng Ma, Runyuan Ma, Chengqi Lyu, Haijun Lv, Han Lv, Lindong Lu, Kuikun Liu, Jiangning Liu, Yuhong Liu, Kai Liu, Hongwei Liu, Zhoumianze Liu, Mengjie Liu, Ziyu Liu, Wenran Liu, Yang Liu, Liwei Liu, Kaiwen Liu, Junyao Lin, Junming Lin, Tianyang Lin, Dahua Lin, Jianze Liang, Linyang Li, Peiji Li, Zonglin Li, Zehao Li, Pengze Li, Guoyan Li, Lingkai Kong, Linglin Jing, Zhenjiang Jin, Feifei Jiang, Qian Jiang, Junhao Huang, Zixian Huang, Haian Huang, Zhouqi Hua, Han Hu, Linfeng Hou, Yinan He, Conghui He, Tianyao He, Xu Guo, Qipeng Guo, Aijia Guo, Yuzhe Gu, Lixin Gu, Jingyang Gong, Qiming Ge, Jiaye Ge, Songyang Gao, Jianfei Gao, Xinyu Fang, Caihua fan, Yue Fan, Yanhui Duan, Zichen Ding, Shengyuan Ding, Xuanlang Dai, Erfei Cui, Ganqu Cui, Pei Chu, Tao Chu, Guangran Cheng, Yu Cheng, Kai Chen, Yongkang Chen, Chiyu Chen, Guanzhou Chen, Qiaosheng Chen, Sitao Chen, Xin Chen, Haojiong Chen, Yicheng Chen, Weihan Cao, Yuhang Cao, Qinglong Cao, Lei Bai

게시일 2026-03-27

📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🚀 인터내셔널-S1-프로: 과학을 위한 '천억 개의 두뇌'를 가진 초대형 AI

이 논문은 상하이 AI 연구소가 개발한 **'Intern-S1-Pro'**라는 새로운 인공지능에 대해 소개합니다. 이 모델은 1 조 (Trillion) 개의 파라미터를 가진 세계 최초의 '과학 특화 멀티모달 기초 모델'입니다.

너무 어렵게 들리시나요? 쉽게 비유해서 설명해 드릴게요.

1. 이 모델은 정확히 무엇인가요?

상상해 보세요. 천억 개의 뇌세포가 하나로 연결된 거대한 슈퍼컴퓨터가 있다고 가정해 봅시다. 이 컴퓨터는 일반 대화도 잘하지만, 화학, 물리, 생명과학, 지구과학 같은 어려운 과학 분야에서는 전문 박사보다 더 잘합니다.

일반 AI: "오늘 날씨 어때?"라고 물으면 "비 올 것 같아요"라고 답합니다.
Intern-S1-Pro: "이 분자 구조를 보면 어떤 신약이 개발될 수 있을까?"라고 물으면, 수천 편의 논문과 실험 데이터를 분석해 **"이 구조는 A 약물의 표적이 될 가능성이 85% 입니다. B 실험을 추천합니다"**라고 답할 수 있습니다.

2. 왜 이렇게 크기가 커야 할까요? (과학은 언어가 다르다)

일반적인 언어 (일상 대화) 는 비슷하지만, 과학 분야는 각각 완전히 다른 '언어'를 사용합니다.

화학: 원자 기호와 반응식을 말합니다.
생물학: DNA 서열과 단백질 구조를 이야기합니다.
지구과학: 지진파와 기후 데이터를 다룹니다.

기존의 작은 AI 는 이 다양한 '언어'를 모두 배우기엔 머리가 너무 작았습니다. 마치 한 사람이 100 개 이상의 외국어를 동시에 유창하게 하려면, 그 사람의 머릿속 공간이 엄청나게 커야 하는 것과 같습니다. Intern-S1-Pro 는 바로 그 '엄청난 공간 (1 조 파라미터)'을 확보해서 모든 과학 언어를 동시에 이해할 수 있게 만든 것입니다.

3. 어떻게 이렇게 똑똑하게 만들었나요? (세 가지 핵심 기술)

🏗️ ① '조별 활동'을 하는 거대한 도서관 (Grouped Routing)

이 모델은 '전문가 (Expert)'들이 수천 명 모여 있는 거대한 도서관과 같습니다.

문제: 질문이 들어오면 모든 전문가가 동시에 답변을 시도하면 도서관이 붕괴됩니다. (메모리 부족)
해결: 질문을 받으면 가장 적합한 전문가 1~2 명만 골라서 답변하게 합니다. 하지만 이 전문가들이 한쪽에만 몰리면 문제가 생깁니다.
혁신: 연구팀은 전문가들을 **조 (Group)**로 나누어, 각 조마다 똑똑한 전문가가 골고루 배치되도록 했습니다. 마치 학교 반을 짤 때, 똑똑한 아이와 성실한 아이가 골고루 섞이도록 배정하는 것과 같습니다. 이렇게 하면 시스템이 안정적으로 작동하며, 어떤 질문이 들어와도 가장 적합한 전문가가 즉시 반응합니다.

📝 ② 과학 그림을 '해설'하는 전용 번역기 (Caption Pipeline)

과학 논문에는 복잡한 그림 (그래프, 분자 구조도) 이 많습니다. 기존 AI 는 이 그림을 보며 "이건 그래프네요"라고만 했습니다.

문제: 과학 그림은 일반 그림과 달라서, 단순한 설명으로는 부족합니다. "이 그래프의 y 축은 0.2 단위로 나뉘어 있고, 파란선은 실험 A 를 의미합니다"처럼 매우 정밀한 설명이 필요합니다.
해결: 연구팀은 수백만 편의 과학 논문 PDF 에서 그림을 추출하고, 전문가 AI 가 그림 하나하나를 1,000 자 이상의 상세한 해설로 변환하는 파이프라인을 만들었습니다. 마치 미술관에서 일반인이 그림을 보지 않고, 전문 해설사가 그림의 모든 디테일을 귀에 대고 설명해 주는 것처럼 훈련시킨 것입니다.

⏱️ ③ 시간의 흐름을 읽는 시계 (Time-Series Encoder)

과학 데이터 중에는心电图 (심전도) 나 뇌파처럼 시간에 따라 변하는 데이터가 많습니다.

문제: 일반적인 AI 는 이 데이터를 단순히 '문자' 나 '이미지'로 바꾸려다 중요한 '리듬'과 '변화'를 놓칩니다.
해결: Intern-S1-Pro 는 이 데이터를 적응형으로 잘게 쪼개고 다시 연결하는 전용 모듈을 갖췄습니다. 마치 음악을 들을 때, 단순히 소리를 듣는 게 아니라 박자와 멜로디의 흐름을 완벽하게 파악하는 음악가처럼, 복잡한 과학 신호의 패턴을 읽어냅니다.

4. 실제로 얼마나 잘하나요? (결과)

이 모델은 일반적인 지능과 과학적 전문성을 모두 갖췄습니다.

일반 능력: 수학 문제, 코딩, 논리 추론에서 최상위권 AI 들과 어깨를 나란히 합니다.
과학 능력: 화학, 생물학, 재료과학 등 100 개 이상의 특수 과학 과제에서 유료 (비공개) 최상위 모델들보다 더 좋은 점수를 받았습니다.
- 예시: "이 단백질 구조를 분석해 주세요"라는 질문을 했을 때, 기존 AI 가 10 점 만점에 2~~3 점이었다면, Intern-S1-Pro 는 **7~~8 점**을 받았습니다.

5. 결론: "일반인"이 "전문가"보다 더 잘할 수 있을까?

과거에는 "특수한 일만 하는 AI 가 그 일을 가장 잘한다"는 믿음이 있었습니다. 하지만 이 연구는 **"충분히 크고 똑똑한 일반 AI 는, 함께 훈련하면 오히려 특수 전문가 AI 보다 더 잘한다"**는 것을 증명했습니다.

Intern-S1-Pro는 단순한 챗봇이 아니라, 수천 권의 과학책을 읽고, 수백만 개의 실험 데이터를 분석하며, 스스로 실험을 계획할 수 있는 '과학 연구원'의 파트너가 된 것입니다. 이제 AI 는 과학 발견의 속도를 획기적으로 높여줄 것으로 기대됩니다.

한 줄 요약:

"천억 개의 뇌세포를 가진 이 AI 는, 일반 대화도 잘하지만 과학 논문 속의 복잡한 그림과 데이터를 전문가처럼 해석하여, 인류의 과학 발견을 가속화하는 초대형 파트너입니다."

Each language version is independently generated for its own context, not a direct translation.

Intern-S1-Pro: 1 조 (Trillion) 파라미터 과학 멀티모달 기초 모델

1. 문제 정의 (Problem)

과학 도메인의 복잡성과 다양성: 과학 (화학, 재료, 생명과학, 지구과학 등) 은 자연어보다 훨씬 더 전문적이고 다양한 "언어" (도메인별 표기법, 지식, 추론 패턴) 를 포함합니다. 기존 모델들은 이러한 긴 꼬리 (long-tailed) 지식과 특수한 기술을 포괄적으로 습득하기에 용량이 부족했습니다.
전문 모델 vs 범용 모델의 딜레마: 일반적으로 특정 도메인 (니치) 작업에는 전문 모델이 범용 모델보다 뛰어나다고 여겨졌습니다. 그러나 과학적 발견을 가속화하려면 광범위한 일반 지식과 심화된 과학적 전문성을 동시에 갖춘 통합 모델이 필요합니다.
초대규모 MoE 모델의 학습 불안정성: 1 조 파라미터 규모의 Mixture-of-Experts (MoE) 모델을 학습할 때, 전문가 (Expert) 간의 부하 불균형으로 인한 메모리 폭주 (OOM) 와 라우터 (Router) 최적화의 어려움이 발생하여 학습 안정성이 저하되는 문제가 있었습니다.
과학 데이터의 품질 부족: 과학적 이미지 (논문 내 그림, 그래프 등) 에 대한 기존 캡션 데이터는 정보 밀도가 낮고 텍스트 - 이미지 정렬이 부정확하여, 고해상도 과학적 시각 내용을 이해하는 데 한계가 있었습니다.

2. 방법론 (Methodology)

2.1. 아키텍처: 그룹 라우팅 (Grouped Routing) 및 확장

Expert Expansion: 기존 Intern-S1 모델을 기반으로 전문가 수를 확장하여 1 조 파라미터 규모로 성장시켰습니다.
Grouped Routing: 기존 Top-K 라우팅 방식은 학습 중 전문가 부하 불균형을 초래합니다. 이를 해결하기 위해 모든 전문가를 디바이스 매핑에 따라 $G$ 개의 그룹으로 나누고, 각 그룹 내에서 Top-1(또는 Top-K/G) 전문가만 선택하는 방식을 도입했습니다. 이는 8-way Expert Parallelism (EP8) 환경에서 디바이스 간 절대적인 부하 균형을 달성하여 OOM 위험을 제거하고 학습 안정성을 확보합니다.
Straight-Through Estimator (STE): 희소 라우팅으로 인한 그래디언트 희소성 문제를 해결하기 위해, 순전파 (Forward) 에서는 희소 선택을 유지하되 역전파 (Backward) 에서는 전체 밀집 분포를 통해 그래디언트를 흐르게 하는 STE 기법을 적용하여 라우터의 학습 효율성을 높였습니다.

2.2. 멀티모달 및 시계열 인코더

Native Vision Transformer (ViT): 고정된 이미지 크기 대신 원본 해상도 (Native Resolution) 를 처리하여 고해상도 과학 이미지의 미세한 공간 정보를 보존합니다.
FoPE (Fourier Position Encoding): 기존 위치 인코딩의 한계를 극복하기 위해 푸리에 분석을 기반으로 한 위치 인코딩을 도입했습니다. 이는 토큰의 이산적 특성과 물리 신호의 연속적/파동적 특성을 동시에 모델링하여 주파수 영역의 왜곡을 줄입니다.
Time-series Encoder: 생체 신호, 천문학 데이터 등 다양한 시간 계열 데이터를 처리하기 위해 적응형 서브샘플링 (Adaptive Subsampling) 모듈과 전용 인코더를 도입했습니다. 이는 신호의 샘플링 속도에 따라 패치 크기를 동적으로 조정하여 100~10^6 단계의 시계열을 효율적으로 처리합니다.

2.3. 데이터 전략 및 사전 학습 (Pre-training)

과학적 캡션 파이프라인: 과학 논문 (PDF) 에서 고정보 밀도의 그림을 추출하고, MinerU 2.5를 활용한 레이아웃 분석과 InternVL3.5-241B 및 CapRL을 활용한 전문적인 밀도 높은 캡션 생성 파이프라인을 구축했습니다. 이를 통해 2700 억 토큰 규모의 고품질 과학 이미지 - 텍스트 쌍을 확보했습니다.
데이터 충돌 해결: 과학 데이터 (구조적, 논리적) 와 일반 데이터 (의미적, 언어적) 의 혼합으로 인한 부정적 전이 (Negative Transfer) 를 방지하기 위해 시스템 프롬프트 분리 (System Prompt Isolation), 프롬프트 다양화, 롤아웃 (Rollout) 메커니즘 등을 적용했습니다.

2.4. 후학습 및 강화 학습 (Post-training & RL)

안정적인 혼합 정밀도 RL: 1 조 파라미터 MoE 모델의 강화 학습 (RL) 시 메모리 제약을 해결하기 위해 FP8 정밀도를 도입했습니다.
정밀도 일관성 보장: 학습 엔진 (XTuner) 과 추론 엔진 (LMDeploy) 간의 정밀도 불일치로 인한 RL 불안정을 해결하기 위해, 라우터 재연습 (Router Replay), 타겟팅된 혼합 정밀도 (Expert MLP 는 FP8, LM Head 는 FP32), 중요도 샘플링 (Importance Sampling) 등을 포함한 안정화 프레임워크를 구축했습니다.

3. 주요 기여 (Key Contributions)

최초의 1 조 파라미터 과학 멀티모달 모델: Intern-S1-Pro 는 과학적 전문성과 범용 능력을 동시에 갖춘 최초의 1 조 파라미터 규모 모델입니다.
SAGE 프레임워크의 검증: "기초 (Foundation) - 융합 (Fusion) - 진화 (Evolution)"의 3 층 구조를 통해, 대규모 범용 모델이 전문 모델보다 특정 과학 작업에서도 더 뛰어난 성능을 낼 수 있음을 입증했습니다.
학습 안정성 및 효율성 혁신: 그룹 라우팅과 STE 기법을 통해 1 조 파라미터 MoE 모델의 학습 불안정성과 OOM 문제를 해결했으며, XTuner 와 LMDeploy 의 공동 설계를 통해 학습 효율성을 유지했습니다.
고품질 과학 데이터셋 구축: 기존 웹 기반 데이터의 한계를 극복하고, 논문 기반의 고품질 과학적 이미지 - 텍스트 정렬 데이터를 대규모로 생성하는 파이프라인을 제시했습니다.

4. 결과 (Results)

과학적 벤치마크:
- SciReasoner: 55.5 점 (GPT-5.2: 13.6, Gemini-3-Pro: 14.7 대비 압도적 우위).
- SmolInstruct (화학): 74.8 점, MatBench (재료): 72.8 점, Mol-Instructions (생체분자): 48.8 점 등 주요 과학 벤치마크에서 상용 모델 (Gemini, GPT) 을 능가하는 성능을 기록했습니다.
- 시계열 (Time Series): SciTS 벤치마크에서 EAU01 작업에서 99.5 의 F1 점수를 기록하여 기존 VL 모델 및 텍스트 LLM 을 크게 앞섰습니다.
범용 벤치마크:
- AIME-2025 (수학): 93.1 점, MMLU-Pro: 86.6 점으로 최상위 오픈소스 모델 (Qwen3-VL-235B) 과 경쟁하거나 상회하는 성능을 보였습니다.
- 에이전트 능력: GAIA, $\tau^2$ -Bench, ScreenSpot V2 등에서 뛰어난 계획 및 환경 기반 작업 수행 능력을 입증했습니다.
전문 모델 대비 우위 (Case Study):
- 생물학 전문 모델 (Biology-Instruction) 과 동일한 데이터로 학습되었음에도, Intern-S1-Pro 는 Protein-Fluorescence (78.14 vs 2.57) 및 Protein-FunctionEC (72.70 vs 19.79) 등 다양한 생물학 작업에서 전문 모델을 압도했습니다. 이는 범용성과 전문성의 시너지가 가능함을 증명합니다.

5. 의의 (Significance)

AI for Science (AI4S) 의 새로운 지평: 단일 모델이 화학, 재료, 생명, 지구과학 등 100 개 이상의 전문 과학 작업을 마스터할 수 있음을 보여주며, 과학적 발견을 가속화할 수 있는 강력한 도구를 제시했습니다.
규모의 법칙 재확인: "충분히 큰 범용 모델은 적절한 학습 전략 하에 전문 모델보다 더 뛰어난 성능을 낼 수 있다"는 가설을 실증적으로 입증했습니다.
오픈소스 생태계 기여: 1 조 파라미터 규모의 고성능 과학 모델을 오픈소스로 공개하여, 전 세계 연구자들이 복잡한 과학 문제를 해결하는 데 활용할 수 있는 기반을 마련했습니다.
시스템 최적화의 모범: XTuner 와 LMDeploy 를 활용한 대규모 RL 학습 인프라 구축은 향후 초대규모 모델 학습의 표준이 될 수 있는 기술적 통찰을 제공합니다.

이 논문은 단순한 모델 크기 확장을 넘어, 아키텍처 혁신, 데이터 전략, 시스템 최적화를 결합하여 과학적 AI 의 새로운 패러다임을 제시했다는 점에서 중요한 의미를 가집니다.

Intern-S1-Pro: Scientific Multimodal Foundation Model at Trillion Scale