Intern-S1-Pro: Scientific Multimodal Foundation Model at Trillion Scale

Yicheng Zou, Dongsheng Zhu, Lin Zhu, Tong Zhu, Yunhua Zhou, Peiheng Zhou, Xinyu Zhou, Dongzhan Zhou, Zhiwang Zhou, Yuhao Zhou, Bowen Zhou, Zhanping Zhong, Zhijie Zhong, Haiteng Zhao, Penghao Zhao, XiaYicheng Zou, Dongsheng Zhu, Lin Zhu, Tong Zhu, Yunhua Zhou, Peiheng Zhou, Xinyu Zhou, Dongzhan Zhou, Zhiwang Zhou, Yuhao Zhou, Bowen Zhou, Zhanping Zhong, Zhijie Zhong, Haiteng Zhao, Penghao Zhao, Xiaomeng Zhao, Zhiyuan Zhao, Yechen Zhang, Jin Zhang, Wenwei Zhang, Hongjie Zhang, Zhuo Zhang, Wenlong Zhang, Bo Zhang, Chao Zhang, Chen Zhang, Yuhang Zang, Fei Yuan, Jiakang Yuan, Jiashuo Yu, Jinhui Yin, Haochen Ye, Qian Yao, Bowen Yang, Danni Yang, Kaichen Yang, Ziang Yan, Jun Xu, Yicheng Xu, Wanghan Xu, Xuenan Xu, Chao Xu, Ruiliang Xu, Shuhao Xing, Long Xing, Xinchen Xie, Ling-I Wu, Zijian Wu, Zhenyu Wu, Lijun Wu, Yue Wu, Jianyu Wu, Wen Wu, Fan Wu, Xilin Wei, Qi Wei, Bingli Wang, Rui Wang, Ziyi Wang, Zun Wang, Yi Wang, Haomin Wang, Yizhou Wang, Lintao Wang, Yiheng Wang, Longjiang Wang, Bin Wang, Jian Tong, Zhongbo Tian, Huanze Tang, Chen Tang, Shixiang Tang, Yu Sun, Qiushi Sun, Xuerui Su, Qisheng Su, Chenlin Su, Demin Song, Jin Shi, Fukai Shang, Yuchen Ren, Pengli Ren, Xiaoye Qu, Yuan Qu, Jiantao Qiu, Yu Qiao, Runyu Peng, Tianshuo Peng, Jiahui Peng, Qizhi Pei, Zhuoshi Pan, Linke Ouyang, Wenchang Ning, Yichuan Ma, Zerun Ma, Ningsheng Ma, Runyuan Ma, Chengqi Lyu, Haijun Lv, Han Lv, Lindong Lu, Kuikun Liu, Jiangning Liu, Yuhong Liu, Kai Liu, Hongwei Liu, Zhoumianze Liu, Mengjie Liu, Ziyu Liu, Wenran Liu, Yang Liu, Liwei Liu, Kaiwen Liu, Junyao Lin, Junming Lin, Tianyang Lin, Dahua Lin, Jianze Liang, Linyang Li, Peiji Li, Zonglin Li, Zehao Li, Pengze Li, Guoyan Li, Lingkai Kong, Linglin Jing, Zhenjiang Jin, Feifei Jiang, Qian Jiang, Junhao Huang, Zixian Huang, Haian Huang, Zhouqi Hua, Han Hu, Linfeng Hou, Yinan He, Conghui He, Tianyao He, Xu Guo, Qipeng Guo, Aijia Guo, Yuzhe Gu, Lixin Gu, Jingyang Gong, Qiming Ge, Jiaye Ge, Songyang Gao, Jianfei Gao, Xinyu Fang, Caihua fan, Yue Fan, Yanhui Duan, Zichen Ding, Shengyuan Ding, Xuanlang Dai, Erfei Cui, Ganqu Cui, Pei Chu, Tao Chu, Guangran Cheng, Yu Cheng, Kai Chen, Yongkang Chen, Chiyu Chen, Guanzhou Chen, Qiaosheng Chen, Sitao Chen, Xin Chen, Haojiong Chen, Yicheng Chen, Weihan Cao, Yuhang Cao, Qinglong Cao, Lei Bai

Publicado 2026-03-27

📖 4 min de leitura☕ Leitura rápida

Ver no arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um gênio superinteligente que consegue resolver problemas de matemática, escrever poemas e entender fotos. Agora, imagine que esse gênio decide se especializar em ciência: ele aprende a prever o clima, desenhar novos medicamentos e entender a estrutura de átomos.

O que a equipe do Laboratório de IA de Xangai fez foi criar a versão mais poderosa desse gênio até hoje: o Intern-S1-Pro.

Aqui está a explicação do que eles criaram, usando analogias do dia a dia:

1. O Tamanho da "Cérebro" (1 Trilhão de Parâmetros)

Pense em um cérebro humano. Ele é incrível, mas tem um limite de quantas coisas pode guardar. O Intern-S1-Pro é como se fosse um cérebro gigante com 1 trilhão de conexões (parâmetros).

A Analogia: Se um modelo de IA comum fosse uma biblioteca de bairro, o Intern-S1-Pro seria uma biblioteca cósmica que contém quase tudo o que já foi escrito sobre ciência e cultura. Por ser tão grande, ele não precisa ser "especialista" em apenas uma coisa; ele é um generalista que domina o especial. Ele sabe de tudo um pouco, mas sabe de ciência muito bem.

2. A Estrutura Inteligente: O "Sistema de Equipes" (MoE)

Modelos gigantes costumam ser lentos e caros, como tentar dirigir um caminhão de 100 toneladas. Para resolver isso, eles usaram uma arquitetura chamada MoE (Mistura de Especialistas).

A Analogia: Imagine que, em vez de ter um único funcionário fazendo todo o trabalho, o Intern-S1-Pro é uma grande empresa com milhares de departamentos.
- Quando você faz uma pergunta sobre química, o "gerente" (o roteador) chama apenas os químicos.
- Se você pergunta sobre história, ele chama os historiadores.
- O Problema que eles resolveram: Em empresas gigantes, às vezes um departamento fica sobrecarregado enquanto outros ficam ociosos. Os criadores do Intern-S1-Pro inventaram um sistema de "Roteamento em Grupos". É como se eles organizassem os departamentos em turmas equilibradas, garantindo que ninguém fique sobrecarregado e que o trabalho flua sem travar o sistema. Isso torna o "gênio" rápido e estável.

3. Aprendendo a "Ler" Figuras Científicas

Ciência não é só texto; é cheia de gráficos, fórmulas e imagens complexas. O modelo anterior tinha dificuldade em entender esses detalhes.

A Analogia: Antes, se você mostrasse um gráfico complexo para o modelo, ele dizia: "Ah, é um desenho". Agora, com o novo Sistema de Legendas (Caption Pipeline), eles ensinaram o modelo a ler como um cientista sênior.
- Eles criaram um processo onde o modelo não apenas vê a imagem, mas escreve uma descrição detalhada de cada linha, eixo e dado, como se estivesse explicando para um colega de laboratório. Isso permitiu que ele entendesse a "alma" dos dados científicos, não apenas a superfície.

4. O "Agente" que age sozinho

O modelo não só responde perguntas; ele pode agir.

A Analogia: Se você pedir para um modelo comum "pesquisar sobre vacinas", ele te dá um texto. O Intern-S1-Pro é como um assistente de pesquisa autônomo. Ele pode:
1. Planejar os passos para resolver o problema.
2. Usar ferramentas (como buscar na internet ou rodar simulações).
3. Executar o plano e te entregar o resultado final.
  Ele é um "fazedor" de tarefas complexas, não apenas um "falador".

5. O Resultado: O "Super-Cientista"

Os testes mostraram que esse modelo é melhor do que os modelos fechados e caros (como os da Google ou OpenAI) em tarefas científicas.

A Grande Descoberta: Antigamente, acreditava-se que para ser bom em uma coisa específica (como biologia), você precisava de um modelo pequeno e focado. O Intern-S1-Pro provou o contrário: um modelo grande e geral, bem treinado, é melhor do que vários modelos pequenos e especializados. É como ter um médico generalista que, graças à sua vasta experiência e inteligência, consegue diagnosticar doenças raras melhor do que um especialista que só viu aquele tipo de doença uma vez.

Resumo em uma frase:

O Intern-S1-Pro é um "cérebro" digital gigante, organizado em equipes equilibradas e treinado com dados científicos de altíssima qualidade, que consegue pensar, planejar e resolver problemas complexos de ciência melhor do que qualquer outro modelo aberto disponível hoje, funcionando como um cientista universal que está sempre à disposição.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: Intern-S1-Pro

1. Problema e Motivação

O avanço dos Grandes Modelos de Linguagem (LLMs) e Modelos de Linguagem Visual (VLMs) transformou a IA, mas a aplicação na Ciência (AI4S) enfrenta desafios únicos. Diferente da linguagem natural, os domínios científicos (química, biologia, física, ciências da terra) possuem "línguas" especializadas, notações específicas e padrões de raciocínio complexos.

Limitação de Escala: Modelos existentes muitas vezes carecem de capacidade para dominar a vasta diversidade de tarefas científicas sem sacrificar capacidades gerais.
Desafios de Arquitetura: Escalar modelos para a escala de trilhões de parâmetros (especialmente com arquiteturas Mixture-of-Experts - MoE) introduz instabilidade no treinamento devido ao desequilíbrio de carga entre os "experts" e dificuldades na otimização das embeddings do roteador.
Qualidade de Dados: A falta de pares imagem-texto de alta qualidade e densidade científica em dados públicos limita a compreensão visual de figuras científicas complexas.
Conflito de Dados: A mistura direta de dados científicos (altamente estruturados e determinísticos) com dados gerais pode causar "deslocamento de distribuição" e transferência negativa, prejudicando o raciocínio lógico.

2. Metodologia e Arquitetura

O Intern-S1-Pro é o primeiro modelo fundacional multimodal científico com 1 trilhão de parâmetros. Sua construção baseia-se no framework SAGE (Synergistic Architecture for Generalizable Experts), composto por três camadas: Fundação, Fusão e Evolução.

A. Arquitetura e Expansão de Experts (MoE)

Expansão de Experts: O modelo é derivado do Intern-S1 através de uma expansão de experts.
Roteamento Agrupado (Grouped Routing): Para resolver o desequilíbrio de carga em treinamento paralelo massivo, os experts são distribuídos em grupos. Dentro de cada grupo, apenas os Top-1 ou Top-2 experts (baseados na seleção pré-expansão) são ativados. Isso garante estabilidade no treinamento inicial e evita picos de memória (OOM), permitindo um balanceamento de carga absoluto entre dispositivos.
Estimador Direto (Straight-Through Estimator - STE): Introduzido para o roteamento de experts esparsos. Permite que o gradiente flua através da distribuição densa softmax durante a retropropagação, mesmo que a seleção seja esparsa na frente. Isso resolve a esparsidade de gradientes, acelerando a convergência e melhorando o balanceamento de carga.
Codificação Posicional de Fourier (FoPE): Substitui as codificações posicionais tradicionais (como RoPE). O FoPE modela cada dimensão como uma série de Fourier, capturando simultaneamente a natureza de partícula dos tokens e as características de onda contínuas das interações físicas, mitigando danos espectrais e melhorando a extrapolação de comprimento.
Codificador de Séries Temporais: Um módulo dedicado que utiliza subamostragem adaptativa e patching dinâmico para processar sinais temporais de diferentes taxas e comprimentos (de 100 a $10^6$ passos), preservando a fidelidade numérica e características estruturais.

B. Pré-treinamento e Engenharia de Dados

Pipeline de Legendas Científicas: Desenvolvido para superar a falta de dados alinhados. Extrai figuras de PDFs científicos (usando MinerU 2.5), aplica deduplicação e gera legendas densas e técnicas usando modelos especializados (InternVL3.5 e CapRL). Isso gera ~270B tokens de dados imagem-texto de alta qualidade.
Resolução de Conflitos de Dados:
1. Transformação Estruturada: Converte dados tabulares e fórmulas em texto narrativo coerente.
2. Diversificação: Usa Prompt Diversification e mecanismo de Rollout para evitar overfitting em dados científicos repetitivos.
3. Isolamento de Prompt de Sistema: Usa prefixos de sistema mutuamente exclusivos para dados científicos e gerais durante o treinamento, reduzindo conflitos contextuais.

C. Pós-treinamento e RL (Reinforcement Learning)

RL Estável em Precisão Mista: Para treinar um modelo de 1T parâmetros com RL, o time implementou um framework de estabilização:
- Uso de FP8 para camadas de MLP de experts (para eficiência de memória) mantendo BF16 para componentes não-experts e FP32 na cabeça de linguagem (LM Head) para precisão numérica.
- Consistência de Roteamento: Replay do roteador para garantir que a seleção de experts durante a inferência (rollout) seja idêntica à do treinamento.
- Amostragem por Importância Dupla: Ajuste de perdas para corrigir discrepâncias entre distribuição de treinamento e inferência.

3. Principais Contribuições

Primeiro Modelo Científico de 1 Trilhão de Parâmetros: Uma escala sem precedentes que funde inteligência geral e especializada.
Arquitetura MoE Estável: Proposta do Grouped Routing e STE para permitir treinamento estável e eficiente em escala massiva, eliminando riscos de OOM e instabilidade de gradientes.
Capacidade Agente Avançada: O modelo não apenas raciocina, mas planeja e executa fluxos de trabalho científicos autônomos.
Domínio de 100+ Tarefas Científicas: Cobertura abrangente em química, materiais, ciências da vida e ciências da terra, superando modelos proprietários em profundidade.
Prova de Conceito "Generalista Especializável": Demonstra que um modelo generalista suficientemente grande, treinado conjuntamente, supera modelos especializados de nicho, mesmo com dados similares.

4. Resultados e Desempenho

O modelo foi avaliado em benchmarks científicos e gerais, superando modelos proprietários de ponta (como GPT-5.2, Gemini-3-Pro) e modelos open-source concorrentes.

Tarefas Científicas:
- SciReasoner: 55.5 (vs. 14.7 do Gemini-3-Pro e 13.6 do GPT-5.2).
- SmolInstruct (Química): 74.8 (vs. 58.3 do Gemini-3-Pro).
- MatBench (Materiais): 72.8 (vs. 64.9 do Gemini-3-Pro).
- Biology-Instruction: 52.5 (vs. 12.0 do Gemini-3-Pro).
- Séries Temporais (SciTS): Supera drasticamente LLMs de texto e VLMs em tarefas como detecção de depressão por EEG e monitoramento de ECG (ex: F1 score de 99.5 no EAU01).
Tarefas Gerais:
- Mantém desempenho de ponta em raciocínio matemático (AIME-2025: 93.1) e compreensão multimodal (MMMU-Pro: 72.8).
- Demonstra capacidades robustas de agente (GAIA: 77.4, ScreenSpot V2: 93.6).
Estudo de Caso (Biologia): Em tarefas de sequências biológicas, o Intern-S1-Pro superou um modelo especializado (Biology-Instruction) em média (52.45 vs 39.24), provando que a inteligência geral amplificada por escala extrai melhor o conhecimento especializado.

5. Significado e Impacto

O Intern-S1-Pro representa um marco na convergência entre IA geral e ciência. Ele desafia a crença de que modelos especializados de nicho são superiores para tarefas específicas, demonstrando que, com a escala correta e treinamento conjunto, um "Generalista Especializável" pode dominar tanto o raciocínio geral quanto a profundidade científica.

A infraestrutura robusta (XTuner e LMDeploy) e as inovações arquiteturais (Grouped Routing, FoPE, STE) fornecem um roteiro viável para o treinamento eficiente de modelos de escala trilionária, acelerando a descoberta científica em áreas críticas como design de materiais, descoberta de fármacos e análise de dados ambientais. O modelo está disponível como open-source, democratizando o acesso a capacidades de IA de nível trilionário para a comunidade científica.