Yicheng Zou, Dongsheng Zhu, Lin Zhu, Tong Zhu, Yunhua Zhou, Peiheng Zhou, Xinyu Zhou, Dongzhan Zhou, Zhiwang Zhou, Yuhao Zhou, Bowen Zhou, Zhanping Zhong, Zhijie Zhong, Haiteng Zhao, Penghao Zhao, XiaYicheng Zou, Dongsheng Zhu, Lin Zhu, Tong Zhu, Yunhua Zhou, Peiheng Zhou, Xinyu Zhou, Dongzhan Zhou, Zhiwang Zhou, Yuhao Zhou, Bowen Zhou, Zhanping Zhong, Zhijie Zhong, Haiteng Zhao, Penghao Zhao, Xiaomeng Zhao, Zhiyuan Zhao, Yechen Zhang, Jin Zhang, Wenwei Zhang, Hongjie Zhang, Zhuo Zhang, Wenlong Zhang, Bo Zhang, Chao Zhang, Chen Zhang, Yuhang Zang, Fei Yuan, Jiakang Yuan, Jiashuo Yu, Jinhui Yin, Haochen Ye, Qian Yao, Bowen Yang, Danni Yang, Kaichen Yang, Ziang Yan, Jun Xu, Yicheng Xu, Wanghan Xu, Xuenan Xu, Chao Xu, Ruiliang Xu, Shuhao Xing, Long Xing, Xinchen Xie, Ling-I Wu, Zijian Wu, Zhenyu Wu, Lijun Wu, Yue Wu, Jianyu Wu, Wen Wu, Fan Wu, Xilin Wei, Qi Wei, Bingli Wang, Rui Wang, Ziyi Wang, Zun Wang, Yi Wang, Haomin Wang, Yizhou Wang, Lintao Wang, Yiheng Wang, Longjiang Wang, Bin Wang, Jian Tong, Zhongbo Tian, Huanze Tang, Chen Tang, Shixiang Tang, Yu Sun, Qiushi Sun, Xuerui Su, Qisheng Su, Chenlin Su, Demin Song, Jin Shi, Fukai Shang, Yuchen Ren, Pengli Ren, Xiaoye Qu, Yuan Qu, Jiantao Qiu, Yu Qiao, Runyu Peng, Tianshuo Peng, Jiahui Peng, Qizhi Pei, Zhuoshi Pan, Linke Ouyang, Wenchang Ning, Yichuan Ma, Zerun Ma, Ningsheng Ma, Runyuan Ma, Chengqi Lyu, Haijun Lv, Han Lv, Lindong Lu, Kuikun Liu, Jiangning Liu, Yuhong Liu, Kai Liu, Hongwei Liu, Zhoumianze Liu, Mengjie Liu, Ziyu Liu, Wenran Liu, Yang Liu, Liwei Liu, Kaiwen Liu, Junyao Lin, Junming Lin, Tianyang Lin, Dahua Lin, Jianze Liang, Linyang Li, Peiji Li, Zonglin Li, Zehao Li, Pengze Li, Guoyan Li, Lingkai Kong, Linglin Jing, Zhenjiang Jin, Feifei Jiang, Qian Jiang, Junhao Huang, Zixian Huang, Haian Huang, Zhouqi Hua, Han Hu, Linfeng Hou, Yinan He, Conghui He, Tianyao He, Xu Guo, Qipeng Guo, Aijia Guo, Yuzhe Gu, Lixin Gu, Jingyang Gong, Qiming Ge, Jiaye Ge, Songyang Gao, Jianfei Gao, Xinyu Fang, Caihua fan, Yue Fan, Yanhui Duan, Zichen Ding, Shengyuan Ding, Xuanlang Dai, Erfei Cui, Ganqu Cui, Pei Chu, Tao Chu, Guangran Cheng, Yu Cheng, Kai Chen, Yongkang Chen, Chiyu Chen, Guanzhou Chen, Qiaosheng Chen, Sitao Chen, Xin Chen, Haojiong Chen, Yicheng Chen, Weihan Cao, Yuhang Cao, Qinglong Cao, Lei Bai

发布于 2026-03-27

📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

想象一下，如果科学界有一位**“超级博士”**，他不仅拥有哈佛、MIT 和牛津所有图书馆的藏书，还能同时看懂显微镜下的细胞、卫星拍下的地球、化学分子的结构图，甚至能听懂心电图的“心跳声”。

这就是 Intern-S1-Pro，一篇来自上海人工智能实验室的论文介绍的全新模型。

为了让你轻松理解这项突破，我们可以用几个生动的比喻来拆解它：

1. 它是谁？（万亿参数的“超级大脑”）

以前的 AI 模型像是一个**“博学的大学生”，什么都能聊，但遇到高深的科学问题（比如设计新药或预测地震）就会卡壳。
而 Intern-S1-Pro 是一个“拥有 1 万亿个神经元”的超级大脑**。

比喻：如果把普通模型比作一辆家用轿车，那 Intern-S1-Pro 就是一辆重型航天飞机。它不仅能载人（处理日常对话），还能把人类送上火星（解决复杂的科学难题）。
能力：它精通化学、材料、生命科学和地球科学等 100 多种专业领域，甚至能像真正的科学家一样，自主规划实验步骤（Agent 能力）。

2. 它是怎么造出来的？（“分班制”与“超级扩容”）

要把一个模型做得这么大，最大的难点是**“怎么让这么多专家一起工作而不吵架”**。

专家混合（MoE）的困境：想象一个拥有 1000 名专家的会议室。以前，如果让这 1000 个人同时说话，会议室会乱成一锅粥，有的专家累死，有的闲死（负载不均），甚至导致系统崩溃。
分组路由（Group Routing）的妙计：Intern-S1-Pro 发明了一种**“分班制”**。它把 1000 名专家分成 8 个大组，每个组里只选最顶尖的 1-2 人发言。
- 效果：就像把大会议室变成了 8 个独立的小会议室，每个人都能专心工作，既不会累死，也不会冷场，训练过程变得超级稳定。
直通估计器（STE）：为了让这些专家学得更聪明，他们发明了一种**“全知视角的反馈机制”**。以前，只有被选中的专家能收到老师的表扬（梯度更新），没被选中的就不知道错哪了。现在，所有专家都能收到反馈，哪怕他们这次没被选中，也能通过“模拟演练”来进步。

3. 它怎么“看”世界？（从“看照片”到“读波形”）

以前的 AI 看图片，就像把一张照片切成无数个小方块（Token），然后一个个读。但这对于科学数据来说太粗糙了。

FoPE（傅里叶位置编码）：科学数据（如光波、声波）是连续的波浪。Intern-S1-Pro 不再把数据切成方块，而是像**“听交响乐”一样，直接捕捉数据的频率和波形**。这让它能更精准地理解物理世界的连续变化。
时间序列模块：对于心电图、地震波这种随时间变化的数据，它不再生硬地压缩，而是像**“智能剪辑师”**一样，根据信号的特点自动调整“剪辑”节奏，保留最重要的细节。

4. 它怎么“学”知识？（从“乱翻书”到“精读论文”）

科学文献里的图片（比如复杂的化学结构图）通常配文很少，甚至没有。

Caption 流水线：团队专门训练了一个**“超级翻译官”。它能把科学论文里那些晦涩难懂的图表，自动翻译成几千字的详细解说**（比如：“这张图展示了在 300 度高温下，A 物质如何分解成 B 物质……"）。
效果：这相当于给 AI 喂了**“带详细注释的教科书”**，而不是只有图片的画册，让它真正读懂了科学背后的逻辑。

5. 它有多强？（“通才”打败“专才”）

通常我们认为，做数学题要找数学专家，做生物题要找生物专家。

反直觉的发现：Intern-S1-Pro 证明了，一个足够强大的“通才”，只要训练得当，比专门的“专才”更厉害。
战绩：
- 在科学推理（SciReasoner）上，它的得分（55.5）是顶级商业模型（如 Gemini-3-Pro, GPT-5.2）的3-4 倍！
- 在生物序列任务上，它甚至打败了专门针对生物训练的小模型。
- 它不仅能做题，还能像科学家一样思考：看到数据 -> 提出假设 -> 设计实验 -> 得出结论。

总结

Intern-S1-Pro 就像是科学界的**“钢铁侠”**：

大脑够大（1 万亿参数）；
团队协作好（分组路由，不内耗）；
感官敏锐（能听懂波形，读懂复杂图表）；
知识渊博（通过高质量数据“精读”了海量科学文献）。

它的出现意味着，AI 不再仅仅是个“聊天机器人”，而是真正成为了加速人类科学发现的超级助手。未来，它可能帮我们发现新药物、设计新材料，甚至预测气候变化。

Each language version is independently generated for its own context, not a direct translation.

Intern-S1-Pro：万亿参数科学多模态基础模型技术总结

1. 研究背景与问题 (Problem)

随着人工智能在科学发现（AI4S）领域的深入，现有的大语言模型（LLM）和视觉语言模型（VLM）面临着以下核心挑战：

科学领域的多样性与复杂性：科学领域（化学、材料、生命科学、地球科学等）拥有独特的“语言”（专业符号、推理模式、长尾知识），远超自然语言的范畴。现有的通用模型难以在保持通用能力的同时，精通如此多且差异巨大的专业领域。
专用模型与通用模型的权衡：传统观点认为，针对特定领域的专用模型在窄任务上表现更好。然而，科学数据具有高度结构化且长尾分布的特点，单一模型若参数不足，难以同时掌握通用能力和海量科学任务。
超大规模模型训练的稳定性与效率：将模型扩展至万亿（Trillion）参数级别（特别是混合专家模型 MoE 架构）时，面临专家负载不平衡导致的训练不稳定、显存溢出（OOM）风险，以及路由（Router）难以优化等问题。
科学数据与通用数据的冲突：科学数据（高逻辑确定性、结构化）与通用数据（语义深度、多样性）直接混合训练可能导致“分布偏移”和“负迁移”，引发模型推理逻辑混乱。
多模态科学数据的理解瓶颈：现有的科学图像（如论文中的图表、公式推导）往往缺乏高质量的图文对齐数据，且传统 Token 化方法难以捕捉物理信号（如时间序列、光谱）的连续波特性。

2. 方法论 (Methodology)

Intern-S1-Pro 是首个万亿参数级的科学多模态基础模型，其技术架构和训练策略包含以下关键创新：

2.1 架构设计：SAGE 框架与 MoE 扩展

模型基于 SAGE (Synergistic Architecture for Generalizable Experts) 框架，分为基础层、融合层和进化层。

专家扩展与分组路由 (Grouped Routing)：
- 从 Intern-S1 扩展专家数量至万亿级。为了解决传统 Top-K 路由在大规模专家并行（EP）下的负载不平衡问题，提出了分组路由机制。
- 将专家均匀划分为 $G$ 组，每组内选择 Top-1 专家。这种设计强制实现了设备间的绝对负载均衡，消除了 OOM 风险，并显著提升了训练稳定性。
- 初始化策略：确保每组内包含预扩展前的 Top-1/Top-2 专家，避免专家同质化，保证初始训练质量。
直通估计器 (Straight-Through Estimator, STE)：
- 针对稀疏路由不可微的问题，引入 STE 技术。在前向传播保持稀疏选择，在反向传播时让梯度流经完整的稠密 Softmax 分布。
- 这使得所有专家都能获得梯度更新信号，解决了路由器的梯度稀疏问题，加速收敛并优化负载分配。
FoPE (Fourier Position Encoding)：
- 针对物理信号（图像、音频、时间序列）的连续波特性，提出傅里叶位置编码。
- 将每个维度视为多频函数，利用傅里叶分析同时捕捉 Token 的离散粒子性和相互作用的连续波特性，弥补了传统 RoPE 在建模物理信号频谱特性上的不足。
专用时间序列编码器：
- 设计了自适应下采样模块和专用编码器，能够处理从 100 到 $10^6$ 时间步的异构时间序列数据（如脑电图、心电、生物声学），保持结构特征和计算效率。

2.2 数据策略：高质量科学多模态数据构建

科学图像 Caption 流水线：
- 针对科学文献中图像描述缺失或对齐度低的问题，构建了基于 PDF 的大规模数据生产流水线。
- 利用 MinerU 进行布局分析，提取子图；通过 CapRL (基于 RLVR 的 Captioning Reinforcement Learning) 和 InternVL3.5 生成高密度、专业对齐的图文描述（平均 1000 词，远超自然描述的<100 词）。
- 构建了约 270B Token 的高质量科学图文对数据。
科学数据与通用数据的融合策略：
- 结构化转换：将表格、公式等结构化数据转化为叙事性文本，保持语义一致性。
- 数据多样化：通过 Prompt Diversification（指令多样化）和 Rollout 机制（生成完整推理链），防止过拟合并提升零样本推理能力。
- 系统提示隔离 (System Prompt Isolation)：在训练时注入互斥的系统级前缀，为科学和通用数据创建独立的上下文环境，减少负迁移。

2.3 训练工程：万亿参数 RL 训练

混合精度强化学习 (Stable Mixed-Precision RL)：
- 针对万亿参数 MoE 模型在 RL 阶段的显存压力，采用 FP8 混合精度 训练。
- 关键创新：
  1. 算子级精度对齐：最小化训练引擎 (XTuner) 与推理引擎 (LMDeploy) 在 RMSNorm、Router Softmax 等关键算子上的数值差异。
  2. 路由重放 (Rollout Router Replay)：在策略更新时重放推理阶段的专家选择决策，确保训练与推理的一致性。
  3. 针对性量化：仅将专家 MLP 层量化为 FP8，保留非专家组件为 BF16，LM Head 使用 FP32 以保证 Log-prob 精度。
  4. 双重重要性采样：修正训练 - 推理分布不匹配和 Off-policy 偏差。

3. 关键贡献 (Key Contributions)

首个万亿参数科学多模态基础模型：Intern-S1-Pro 将模型规模扩展至 1T 参数，证明了“可通用的专家”（Specializable Generalist）在科学领域的潜力，即一个足够大的通用模型在联合训练下，性能可超越专用模型。
创新的 MoE 训练稳定性方案：提出的分组路由 (Grouped Routing) 和 直通估计器 (STE) 有效解决了超大规模 MoE 模型的负载不平衡和路由优化难题，实现了万亿级模型的稳定训练。
科学多模态数据工程突破：构建了基于 PDF 的高密度科学图文 Caption 流水线，解决了科学领域高质量对齐数据匮乏的瓶颈。
物理信号感知的编码与推理：引入 FoPE 和专用时间序列模块，使模型能够理解物理世界的连续波特性（如光谱、时间序列），超越了传统 Token 化方法的局限。
高效的万亿参数 RL 训练框架：通过 XTuner 与 LMDeploy 的深度协同优化，实现了在 1T 参数规模下的高效 FP8 RL 训练，且保持了训练与推理的严格精度一致性。

4. 实验结果 (Results)

Intern-S1-Pro 在科学任务和通用任务上均取得了 SOTA（State-of-the-Art）表现：

科学任务表现：
- SciReasoner (科学推理): 得分 55.5，远超 Gemini-3-Pro (14.7) 和 GPT-5.2 (13.6)。
- SmolInstruct (小分子化学): 得分 74.8，显著优于其他模型。
- MatBench (材料属性预测): 得分 72.8。
- Biology-Instruction (生物指令): 在多个生物序列任务上，Intern-S1-Pro 的平均得分 (52.45) 显著高于专用模型 Biology-Instruction (39.24)，证明了通用大模型结合高质量数据在专业领域的优越性。
- 时间序列任务 (SciTS)：在 EAU01 等任务上 F1 分数达到 99.5，远超 GPT-4.1-mini 等模型。
通用任务表现：
- AIME-2025 (数学): 得分 93.1，展现强大的数学推理能力。
- MMLU-Pro: 得分 86.6，达到顶尖开源模型水平。
- Agent 能力：在 GAIA (77.4) 和 ScreenSpot V2 (93.6) 等代理任务上表现优异，具备自主规划复杂科学工作流的能力。
效率对比：相比前代 Intern-S1，模型规模扩大 4 倍，但训练效率仅下降约 20%，证明了系统级优化的有效性。

5. 意义与影响 (Significance)

重新定义科学 AI 范式：Intern-S1-Pro 证明了通过大规模扩展和联合训练，通用基础模型可以成为“可通用的专家”，在深度和广度上同时超越专用模型，为 AI4S 提供了新的技术路线。
推动科学发现加速：模型在化学、材料、生命科学等关键领域的卓越表现，使其能够辅助研究人员进行蛋白质结构预测、新材料设计和复杂实验数据分析，大幅缩短科研周期。
工程与算法的协同典范：该工作展示了算法创新（如分组路由、FoPE）与基础设施优化（XTuner/LMDeploy 协同、FP8 RL）相结合的重要性，为未来万亿级甚至更大规模模型的训练提供了可复用的工程范式。
开源生态的里程碑：作为开源模型，Intern-S1-Pro 在科学领域的性能超越了部分闭源商业模型，极大地降低了科学研究的门槛，促进了全球科学社区的协作与创新。

综上所述，Intern-S1-Pro 不仅在模型规模上实现了突破，更在架构设计、数据工程、训练策略及多模态理解能力上进行了系统性创新，标志着科学多模态大模型迈入了万亿参数时代。

Intern-S1-Pro: Scientific Multimodal Foundation Model at Trillion Scale