Each language version is independently generated for its own context, not a direct translation.
想象一下,如果科学界有一位**“超级博士”**,他不仅拥有哈佛、MIT 和牛津所有图书馆的藏书,还能同时看懂显微镜下的细胞、卫星拍下的地球、化学分子的结构图,甚至能听懂心电图的“心跳声”。
这就是 Intern-S1-Pro,一篇来自上海人工智能实验室的论文介绍的全新模型。
为了让你轻松理解这项突破,我们可以用几个生动的比喻来拆解它:
1. 它是谁?(万亿参数的“超级大脑”)
以前的 AI 模型像是一个**“博学的大学生”,什么都能聊,但遇到高深的科学问题(比如设计新药或预测地震)就会卡壳。
而 Intern-S1-Pro 是一个“拥有 1 万亿个神经元”的超级大脑**。
- 比喻:如果把普通模型比作一辆家用轿车,那 Intern-S1-Pro 就是一辆重型航天飞机。它不仅能载人(处理日常对话),还能把人类送上火星(解决复杂的科学难题)。
- 能力:它精通化学、材料、生命科学和地球科学等 100 多种专业领域,甚至能像真正的科学家一样,自主规划实验步骤(Agent 能力)。
2. 它是怎么造出来的?(“分班制”与“超级扩容”)
要把一个模型做得这么大,最大的难点是**“怎么让这么多专家一起工作而不吵架”**。
- 专家混合(MoE)的困境:想象一个拥有 1000 名专家的会议室。以前,如果让这 1000 个人同时说话,会议室会乱成一锅粥,有的专家累死,有的闲死(负载不均),甚至导致系统崩溃。
- 分组路由(Group Routing)的妙计:Intern-S1-Pro 发明了一种**“分班制”**。它把 1000 名专家分成 8 个大组,每个组里只选最顶尖的 1-2 人发言。
- 效果:就像把大会议室变成了 8 个独立的小会议室,每个人都能专心工作,既不会累死,也不会冷场,训练过程变得超级稳定。
- 直通估计器(STE):为了让这些专家学得更聪明,他们发明了一种**“全知视角的反馈机制”**。以前,只有被选中的专家能收到老师的表扬(梯度更新),没被选中的就不知道错哪了。现在,所有专家都能收到反馈,哪怕他们这次没被选中,也能通过“模拟演练”来进步。
3. 它怎么“看”世界?(从“看照片”到“读波形”)
以前的 AI 看图片,就像把一张照片切成无数个小方块(Token),然后一个个读。但这对于科学数据来说太粗糙了。
- FoPE(傅里叶位置编码):科学数据(如光波、声波)是连续的波浪。Intern-S1-Pro 不再把数据切成方块,而是像**“听交响乐”一样,直接捕捉数据的频率和波形**。这让它能更精准地理解物理世界的连续变化。
- 时间序列模块:对于心电图、地震波这种随时间变化的数据,它不再生硬地压缩,而是像**“智能剪辑师”**一样,根据信号的特点自动调整“剪辑”节奏,保留最重要的细节。
4. 它怎么“学”知识?(从“乱翻书”到“精读论文”)
科学文献里的图片(比如复杂的化学结构图)通常配文很少,甚至没有。
- Caption 流水线:团队专门训练了一个**“超级翻译官”。它能把科学论文里那些晦涩难懂的图表,自动翻译成几千字的详细解说**(比如:“这张图展示了在 300 度高温下,A 物质如何分解成 B 物质……")。
- 效果:这相当于给 AI 喂了**“带详细注释的教科书”**,而不是只有图片的画册,让它真正读懂了科学背后的逻辑。
5. 它有多强?(“通才”打败“专才”)
通常我们认为,做数学题要找数学专家,做生物题要找生物专家。
- 反直觉的发现:Intern-S1-Pro 证明了,一个足够强大的“通才”,只要训练得当,比专门的“专才”更厉害。
- 战绩:
- 在科学推理(SciReasoner)上,它的得分(55.5)是顶级商业模型(如 Gemini-3-Pro, GPT-5.2)的3-4 倍!
- 在生物序列任务上,它甚至打败了专门针对生物训练的小模型。
- 它不仅能做题,还能像科学家一样思考:看到数据 -> 提出假设 -> 设计实验 -> 得出结论。
总结
Intern-S1-Pro 就像是科学界的**“钢铁侠”**:
- 大脑够大(1 万亿参数);
- 团队协作好(分组路由,不内耗);
- 感官敏锐(能听懂波形,读懂复杂图表);
- 知识渊博(通过高质量数据“精读”了海量科学文献)。
它的出现意味着,AI 不再仅仅是个“聊天机器人”,而是真正成为了加速人类科学发现的超级助手。未来,它可能帮我们发现新药物、设计新材料,甚至预测气候变化。
Each language version is independently generated for its own context, not a direct translation.
Intern-S1-Pro:万亿参数科学多模态基础模型技术总结
1. 研究背景与问题 (Problem)
随着人工智能在科学发现(AI4S)领域的深入,现有的大语言模型(LLM)和视觉语言模型(VLM)面临着以下核心挑战:
- 科学领域的多样性与复杂性:科学领域(化学、材料、生命科学、地球科学等)拥有独特的“语言”(专业符号、推理模式、长尾知识),远超自然语言的范畴。现有的通用模型难以在保持通用能力的同时,精通如此多且差异巨大的专业领域。
- 专用模型与通用模型的权衡:传统观点认为,针对特定领域的专用模型在窄任务上表现更好。然而,科学数据具有高度结构化且长尾分布的特点,单一模型若参数不足,难以同时掌握通用能力和海量科学任务。
- 超大规模模型训练的稳定性与效率:将模型扩展至万亿(Trillion)参数级别(特别是混合专家模型 MoE 架构)时,面临专家负载不平衡导致的训练不稳定、显存溢出(OOM)风险,以及路由(Router)难以优化等问题。
- 科学数据与通用数据的冲突:科学数据(高逻辑确定性、结构化)与通用数据(语义深度、多样性)直接混合训练可能导致“分布偏移”和“负迁移”,引发模型推理逻辑混乱。
- 多模态科学数据的理解瓶颈:现有的科学图像(如论文中的图表、公式推导)往往缺乏高质量的图文对齐数据,且传统 Token 化方法难以捕捉物理信号(如时间序列、光谱)的连续波特性。
2. 方法论 (Methodology)
Intern-S1-Pro 是首个万亿参数级的科学多模态基础模型,其技术架构和训练策略包含以下关键创新:
2.1 架构设计:SAGE 框架与 MoE 扩展
模型基于 SAGE (Synergistic Architecture for Generalizable Experts) 框架,分为基础层、融合层和进化层。
- 专家扩展与分组路由 (Grouped Routing):
- 从 Intern-S1 扩展专家数量至万亿级。为了解决传统 Top-K 路由在大规模专家并行(EP)下的负载不平衡问题,提出了分组路由机制。
- 将专家均匀划分为 G 组,每组内选择 Top-1 专家。这种设计强制实现了设备间的绝对负载均衡,消除了 OOM 风险,并显著提升了训练稳定性。
- 初始化策略:确保每组内包含预扩展前的 Top-1/Top-2 专家,避免专家同质化,保证初始训练质量。
- 直通估计器 (Straight-Through Estimator, STE):
- 针对稀疏路由不可微的问题,引入 STE 技术。在前向传播保持稀疏选择,在反向传播时让梯度流经完整的稠密 Softmax 分布。
- 这使得所有专家都能获得梯度更新信号,解决了路由器的梯度稀疏问题,加速收敛并优化负载分配。
- FoPE (Fourier Position Encoding):
- 针对物理信号(图像、音频、时间序列)的连续波特性,提出傅里叶位置编码。
- 将每个维度视为多频函数,利用傅里叶分析同时捕捉 Token 的离散粒子性和相互作用的连续波特性,弥补了传统 RoPE 在建模物理信号频谱特性上的不足。
- 专用时间序列编码器:
- 设计了自适应下采样模块和专用编码器,能够处理从 100 到 106 时间步的异构时间序列数据(如脑电图、心电、生物声学),保持结构特征和计算效率。
2.2 数据策略:高质量科学多模态数据构建
- 科学图像 Caption 流水线:
- 针对科学文献中图像描述缺失或对齐度低的问题,构建了基于 PDF 的大规模数据生产流水线。
- 利用 MinerU 进行布局分析,提取子图;通过 CapRL (基于 RLVR 的 Captioning Reinforcement Learning) 和 InternVL3.5 生成高密度、专业对齐的图文描述(平均 1000 词,远超自然描述的<100 词)。
- 构建了约 270B Token 的高质量科学图文对数据。
- 科学数据与通用数据的融合策略:
- 结构化转换:将表格、公式等结构化数据转化为叙事性文本,保持语义一致性。
- 数据多样化:通过 Prompt Diversification(指令多样化)和 Rollout 机制(生成完整推理链),防止过拟合并提升零样本推理能力。
- 系统提示隔离 (System Prompt Isolation):在训练时注入互斥的系统级前缀,为科学和通用数据创建独立的上下文环境,减少负迁移。
2.3 训练工程:万亿参数 RL 训练
- 混合精度强化学习 (Stable Mixed-Precision RL):
- 针对万亿参数 MoE 模型在 RL 阶段的显存压力,采用 FP8 混合精度 训练。
- 关键创新:
- 算子级精度对齐:最小化训练引擎 (XTuner) 与推理引擎 (LMDeploy) 在 RMSNorm、Router Softmax 等关键算子上的数值差异。
- 路由重放 (Rollout Router Replay):在策略更新时重放推理阶段的专家选择决策,确保训练与推理的一致性。
- 针对性量化:仅将专家 MLP 层量化为 FP8,保留非专家组件为 BF16,LM Head 使用 FP32 以保证 Log-prob 精度。
- 双重重要性采样:修正训练 - 推理分布不匹配和 Off-policy 偏差。
3. 关键贡献 (Key Contributions)
- 首个万亿参数科学多模态基础模型:Intern-S1-Pro 将模型规模扩展至 1T 参数,证明了“可通用的专家”(Specializable Generalist)在科学领域的潜力,即一个足够大的通用模型在联合训练下,性能可超越专用模型。
- 创新的 MoE 训练稳定性方案:提出的分组路由 (Grouped Routing) 和 直通估计器 (STE) 有效解决了超大规模 MoE 模型的负载不平衡和路由优化难题,实现了万亿级模型的稳定训练。
- 科学多模态数据工程突破:构建了基于 PDF 的高密度科学图文 Caption 流水线,解决了科学领域高质量对齐数据匮乏的瓶颈。
- 物理信号感知的编码与推理:引入 FoPE 和专用时间序列模块,使模型能够理解物理世界的连续波特性(如光谱、时间序列),超越了传统 Token 化方法的局限。
- 高效的万亿参数 RL 训练框架:通过 XTuner 与 LMDeploy 的深度协同优化,实现了在 1T 参数规模下的高效 FP8 RL 训练,且保持了训练与推理的严格精度一致性。
4. 实验结果 (Results)
Intern-S1-Pro 在科学任务和通用任务上均取得了 SOTA(State-of-the-Art)表现:
- 科学任务表现:
- SciReasoner (科学推理): 得分 55.5,远超 Gemini-3-Pro (14.7) 和 GPT-5.2 (13.6)。
- SmolInstruct (小分子化学): 得分 74.8,显著优于其他模型。
- MatBench (材料属性预测): 得分 72.8。
- Biology-Instruction (生物指令): 在多个生物序列任务上,Intern-S1-Pro 的平均得分 (52.45) 显著高于专用模型 Biology-Instruction (39.24),证明了通用大模型结合高质量数据在专业领域的优越性。
- 时间序列任务 (SciTS):在 EAU01 等任务上 F1 分数达到 99.5,远超 GPT-4.1-mini 等模型。
- 通用任务表现:
- AIME-2025 (数学): 得分 93.1,展现强大的数学推理能力。
- MMLU-Pro: 得分 86.6,达到顶尖开源模型水平。
- Agent 能力:在 GAIA (77.4) 和 ScreenSpot V2 (93.6) 等代理任务上表现优异,具备自主规划复杂科学工作流的能力。
- 效率对比:相比前代 Intern-S1,模型规模扩大 4 倍,但训练效率仅下降约 20%,证明了系统级优化的有效性。
5. 意义与影响 (Significance)
- 重新定义科学 AI 范式:Intern-S1-Pro 证明了通过大规模扩展和联合训练,通用基础模型可以成为“可通用的专家”,在深度和广度上同时超越专用模型,为 AI4S 提供了新的技术路线。
- 推动科学发现加速:模型在化学、材料、生命科学等关键领域的卓越表现,使其能够辅助研究人员进行蛋白质结构预测、新材料设计和复杂实验数据分析,大幅缩短科研周期。
- 工程与算法的协同典范:该工作展示了算法创新(如分组路由、FoPE)与基础设施优化(XTuner/LMDeploy 协同、FP8 RL)相结合的重要性,为未来万亿级甚至更大规模模型的训练提供了可复用的工程范式。
- 开源生态的里程碑:作为开源模型,Intern-S1-Pro 在科学领域的性能超越了部分闭源商业模型,极大地降低了科学研究的门槛,促进了全球科学社区的协作与创新。
综上所述,Intern-S1-Pro 不仅在模型规模上实现了突破,更在架构设计、数据工程、训练策略及多模态理解能力上进行了系统性创新,标志着科学多模态大模型迈入了万亿参数时代。