Intern-S1-Pro: Scientific Multimodal Foundation Model at Trillion Scale

Yicheng Zou, Dongsheng Zhu, Lin Zhu, Tong Zhu, Yunhua Zhou, Peiheng Zhou, Xinyu Zhou, Dongzhan Zhou, Zhiwang Zhou, Yuhao Zhou, Bowen Zhou, Zhanping Zhong, Zhijie Zhong, Haiteng Zhao, Penghao Zhao, XiaYicheng Zou, Dongsheng Zhu, Lin Zhu, Tong Zhu, Yunhua Zhou, Peiheng Zhou, Xinyu Zhou, Dongzhan Zhou, Zhiwang Zhou, Yuhao Zhou, Bowen Zhou, Zhanping Zhong, Zhijie Zhong, Haiteng Zhao, Penghao Zhao, Xiaomeng Zhao, Zhiyuan Zhao, Yechen Zhang, Jin Zhang, Wenwei Zhang, Hongjie Zhang, Zhuo Zhang, Wenlong Zhang, Bo Zhang, Chao Zhang, Chen Zhang, Yuhang Zang, Fei Yuan, Jiakang Yuan, Jiashuo Yu, Jinhui Yin, Haochen Ye, Qian Yao, Bowen Yang, Danni Yang, Kaichen Yang, Ziang Yan, Jun Xu, Yicheng Xu, Wanghan Xu, Xuenan Xu, Chao Xu, Ruiliang Xu, Shuhao Xing, Long Xing, Xinchen Xie, Ling-I Wu, Zijian Wu, Zhenyu Wu, Lijun Wu, Yue Wu, Jianyu Wu, Wen Wu, Fan Wu, Xilin Wei, Qi Wei, Bingli Wang, Rui Wang, Ziyi Wang, Zun Wang, Yi Wang, Haomin Wang, Yizhou Wang, Lintao Wang, Yiheng Wang, Longjiang Wang, Bin Wang, Jian Tong, Zhongbo Tian, Huanze Tang, Chen Tang, Shixiang Tang, Yu Sun, Qiushi Sun, Xuerui Su, Qisheng Su, Chenlin Su, Demin Song, Jin Shi, Fukai Shang, Yuchen Ren, Pengli Ren, Xiaoye Qu, Yuan Qu, Jiantao Qiu, Yu Qiao, Runyu Peng, Tianshuo Peng, Jiahui Peng, Qizhi Pei, Zhuoshi Pan, Linke Ouyang, Wenchang Ning, Yichuan Ma, Zerun Ma, Ningsheng Ma, Runyuan Ma, Chengqi Lyu, Haijun Lv, Han Lv, Lindong Lu, Kuikun Liu, Jiangning Liu, Yuhong Liu, Kai Liu, Hongwei Liu, Zhoumianze Liu, Mengjie Liu, Ziyu Liu, Wenran Liu, Yang Liu, Liwei Liu, Kaiwen Liu, Junyao Lin, Junming Lin, Tianyang Lin, Dahua Lin, Jianze Liang, Linyang Li, Peiji Li, Zonglin Li, Zehao Li, Pengze Li, Guoyan Li, Lingkai Kong, Linglin Jing, Zhenjiang Jin, Feifei Jiang, Qian Jiang, Junhao Huang, Zixian Huang, Haian Huang, Zhouqi Hua, Han Hu, Linfeng Hou, Yinan He, Conghui He, Tianyao He, Xu Guo, Qipeng Guo, Aijia Guo, Yuzhe Gu, Lixin Gu, Jingyang Gong, Qiming Ge, Jiaye Ge, Songyang Gao, Jianfei Gao, Xinyu Fang, Caihua fan, Yue Fan, Yanhui Duan, Zichen Ding, Shengyuan Ding, Xuanlang Dai, Erfei Cui, Ganqu Cui, Pei Chu, Tao Chu, Guangran Cheng, Yu Cheng, Kai Chen, Yongkang Chen, Chiyu Chen, Guanzhou Chen, Qiaosheng Chen, Sitao Chen, Xin Chen, Haojiong Chen, Yicheng Chen, Weihan Cao, Yuhang Cao, Qinglong Cao, Lei Bai

Pubblicato 2026-03-27

📖 5 min di lettura🧠 Approfondimento

Vedi su arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

Immagina di dover costruire il cervello definitivo per la scienza. Non un cervello che sa solo chiacchierare o scrivere poesie, ma uno che può leggere un'immagine di una cellula, capire una formula chimica complessa, analizzare i dati di un terremoto e poi pianificare un esperimento per risolvere il problema.

Questo è Intern-S1-Pro.

1. La "Super-Intelligenza" da un Trilione di Mattoni

Pensa a un modello linguistico (come quelli che usi ogni giorno) come a una biblioteca.

I modelli normali sono come una grande biblioteca di quartiere: hanno molti libri, ma non tutto.
Intern-S1-Pro è una biblioteca delle dimensioni di un continente, con un trilione di "mattoni" (parametri) di conoscenza. È il primo modello scientifico multimodale di questa scala nel mondo.

Perché è così grande? Perché la scienza è complicata. La chimica, la biologia e la fisica parlano "lingue" diverse e molto specifiche. Per capire tutto questo, il cervello deve essere enorme, capace di collegare un'immagine di un microscopio a un testo di fisica quantistica.

2. Il Segreto: Non è un Gigante Goffo, è un "Orchestra"

Di solito, quando si ingrandisce un modello, diventa lento e instabile, come un'orchestra di 1000 musicisti che non riescono a stare in tempo.
Gli autori hanno usato due trucchi magici:

La "Mappa dei Gruppi" (Group Routing): Immagina che il modello sia composto da migliaia di esperti (i "Mixture of Experts"). Invece di farli tutti lavorare insieme in modo caotico, li hanno divisi in gruppi. Ogni gruppo ha i suoi migliori esperti. Quando arriva una domanda, il sistema sceglie il gruppo giusto e poi il miglior esperto di quel gruppo. È come avere un manager che sa esattamente quale squadra di specialisti chiamare per ogni problema, evitando che il sistema si blocchi.
Il "Motore di Apprendimento" (STE): Quando il modello impara, spesso "dimentica" di correggere certi esperti perché non vengono scelti spesso. Gli autori hanno inventato un metodo (lo Straight-Through Estimator) che assicura che tutti gli esperti ricevano feedback e imparino, anche quelli che non sono stati scelti in quel momento. È come un allenatore che fa allenare tutta la squadra, non solo i titolari, così nessuno si arrugginisce.

3. Capire le Immagini Scientifiche (Non solo "Guardare")

I modelli normali guardano un'immagine e dicono: "C'è un gatto".
Intern-S1-Pro guarda un grafico scientifico e dice: "Vedo che la linea blu rappresenta la velocità di reazione, l'asse Y è l'intensità spettrale e c'è un picco anomalo a 500nm che suggerisce una contaminazione".

Come hanno fatto? Hanno creato una fabbrica di descrizioni speciali.
Invece di usare le didascalie brevi e confuse che si trovano nei libri di testo, hanno usato un sistema automatico per riscrivere ogni immagine scientifica con una descrizione lunghissima, precisa e piena di dettagli. È come se avessero assunto un team di professori per spiegare ogni singola immagine a un bambino, ma con la precisione di un Nobel.

4. Il "Superpotere" del Tempo (Time Series)

La scienza non è solo immagini statiche; è anche movimento. Come batte il cuore? Come cambia il clima?
Intern-S1-Pro ha un modulo speciale per il tempo.
Immagina di dover ascoltare una canzone. Un modello normale sente solo le note una alla volta. Intern-S1-Pro ascolta l'onda sonora completa, capisce il ritmo, le variazioni di volume e le armonie. Questo gli permette di analizzare dati medici (come l'ECG) o segnali sismici con una precisione che nessun altro modello aveva mai raggiunto.

5. L'Agente: Non solo "Rispondere", ma "Fare"

Il modello non si limita a dare risposte. È un Agente.
Se gli chiedi: "Trova un nuovo materiale per batterie", Intern-S1-Pro non ti dà solo una definizione.

Pianifica i passi.
Cerca nella letteratura scientifica.
Analizza i dati.
Esegue simulazioni (o le prepara).
È come avere un ricercatore virtuale che lavora per te 24 ore su 24, senza stancarsi mai.

6. La Grande Scoperta: "Il Generalista è il Migliore Specialista"

C'era un vecchio mito: "Per fare bene la biologia, ti serve un modello fatto solo per la biologia".
Gli autori hanno dimostrato che non è vero.
Hanno preso un modello generico enorme (Intern-S1-Pro) e lo hanno addestrato anche su dati biologici. Risultato? Ha battuto i modelli specializzati solo per biologia, anche quando usavano gli stessi dati.
È come se un poliglotta che parla 50 lingue, se studia un po' di medicina, diventi un medico migliore di uno specialista che parla solo italiano. La sua capacità di ragionare in modo generale lo aiuta a capire meglio anche le cose specifiche.

In Sintesi

Intern-S1-Pro è un'infrastruttura tecnologica massiccia che unisce:

Una dimensione mostruosa (1 trilione di parametri).
Un'architettura intelligente che gestisce il carico di lavoro senza crashare.
Una capacità visiva e temporale superiore per leggere grafici e dati scientifici.
La prova che un'intelligenza generale, se abbastanza grande e ben addestrata, può diventare la migliore esperta in qualsiasi campo specifico.

È un passo enorme verso l'obiettivo di usare l'Intelligenza Artificiale per accelerare le scoperte che salveranno vite e miglioreranno il nostro pianeta.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

L'evoluzione dei Modelli Linguistici (LLM) e dei Modelli Linguistici Visivi (VLM) ha trasformato l'IA, ma la creazione di modelli fondazionali efficaci per la scienza (AI4S) rimane una sfida significativa. I domini scientifici (chimica, biologia, fisica, scienze della terra) possiedono una diversità intrinseca, con "linguaggi" specializzati, notazioni uniche e pattern di ragionamento complessi che i modelli generali faticano a padroneggiare.
Le sfide principali identificate includono:

Scalabilità: I modelli esistenti non hanno sufficiente capacità per padroneggiare oltre 100 compiti specializzati mantenendo al contempo capacità generali di testo e visione.
Instabilità di Addestramento: Scalare a un trilione di parametri con architetture Mixture-of-Experts (MoE) porta a squilibri nel carico di lavoro tra gli esperti, causando picchi di memoria (OOM) e instabilità.
Qualità dei Dati Scientifici: Le immagini scientifiche nei dataset pubblici spesso mancano di didascalie dense e allineate, rendendo difficile l'apprendimento multimodale preciso.
Conflitti di Distribuzione: La mescolanza di dati scientifici (logica deterministica, strutturata) e dati generali (semantica profonda, diversità linguistica) può causare "negative transfer" e confusione logica durante l'inferenza.

2. Metodologia

Il team di Shanghai AI Laboratory ha sviluppato Intern-S1-Pro, il primo modello fondazionale multimodale scientifico da un trilione di parametri. L'approccio si basa su tre pilastri fondamentali:

A. Architettura e Scalabilità (SAGE Framework)

Il modello segue il framework SAGE (Synergistic Architecture for Generalizable Experts), composto da tre livelli: Foundation, Fusion ed Evolution.

Espansione degli Expert e Grouped Routing: Partendo da Intern-S1, il modello è stato espanso a 1T parametri. Per risolvere lo squilibrio di carico, è stato introdotto un meccanismo di Grouped Routing. Gli esperti sono divisi in gruppi disgiunti; all'interno di ogni gruppo, viene selezionato solo l'expert con il punteggio più alto (Top-1). Questo garantisce un bilanciamento assoluto del carico tra i dispositivi durante l'addestramento parallelo (EP8), eliminando il rischio di OOM e stabilizzando l'addestramento.
Straight-Through Estimator (STE) per il Routing: Per ottimizzare la selezione degli esperti, è stato introdotto un STE che permette il flusso dei gradienti attraverso la distribuzione densa (softmax) durante la retropropagazione, pur mantenendo la selezione sparsa nel forward pass. Questo risolve il problema della sparsità dei gradienti, accelerando l'aggiornamento delle embedding del router.
Codifica Posizionale Fourier (FoPE): Invece delle tradizionali codifiche posizionali, FoPE modella ogni dimensione come una serie di Fourier. Questo permette di catturare sia la natura discreta dei token che le caratteristiche ondulatorie continue dei segnali fisici, riducendo la distorsione spettrale e migliorando l'estrapolazione della lunghezza.
Encoder per Serie Temporali: Un modulo dedicato utilizza un campionamento adattivo e patching dinamico per elaborare segnali temporali eterogenei (da 100 a $10^6$ step), preservando le caratteristiche strutturali senza perdita di fedeltà numerica.

B. Pipeline di Dati e Pre-training

Pipeline di Didascalie Scientifiche (Caption Pipeline): È stata costruita una pipeline dedicata per estrarre figure da PDF scientifici (usando MinerU2.5) e generare didascalie dense e allineate. A differenza delle didascalie web brevi, queste descrizioni (medie di 1000 parole) dettagliano assi, leggende e relazioni spaziali.
Gestione dei Conflitti Dati: Per integrare dati scientifici e generali, sono state adottate tre strategie:
1. Trasformazione Strutturata: Conversione di dati tabellari in testo narrativo grammaticalmente corretto.
2. Diversificazione: Uso di prompt diversificati e meccanismo di "Rollout" per generare catene di ragionamento complete.
3. Isolamento dei System Prompt: Introduzione di prefissi di sistema mutuamente esclusivi per separare i contesti di elaborazione durante l'addestramento.
Addestramento: Il modello è stato sottoposto a pre-training continuo su 6 trilioni di token (immagini-testo e testo), con un focus specifico sulla qualità delle coppie immagine-testo scientifiche.

C. Post-training e Reinforcement Learning (RL)

RL Stabile in Precisione Mista: Scalare l'RL a 1T parametri richiede ottimizzazioni estreme. Il team ha implementato un framework di stabilizzazione che include:
- Quantizzazione FP8 solo per i layer lineari degli esperti, mantenendo BF16 per i componenti non esperti e FP32 per la testa del modello linguistico (LM head) per garantire precisione numerica.
- Rollout Router Replay: Registrazione e riproduzione delle decisioni di routing durante la fase di rollout per garantire coerenza tra addestramento e inferenza.
- Campionamento per importanza duale per correggere gli errori di distribuzione tra motore di addestramento e inferenza.
Infrastruttura: L'integrazione profonda tra XTuner (addestramento) e LMDeploy (inferenza) ha permesso di scalare il modello di 4 volte rispetto al predecessore con una riduzione dell'efficienza di addestramento di soli ~20%.

3. Risultati Chiave

Le valutazioni sono state condotte su una vasta gamma di benchmark scientifici e generali.

Prestazioni Scientifiche: Intern-S1-Pro supera significativamente i modelli proprietari (come GPT-5.2 e Gemini-3-Pro) in compiti scientifici complessi.
- SciReasoner: 55.5 vs 14.7 (Gemini-3-Pro) e 13.6 (GPT-5.2).
- SmolInstruct (Chimica): 74.8 vs 58.3.
- MatBench (Materiali): 72.8 vs 64.9.
- Biology-Instruction: 52.5 vs 12.0.
- Serie Temporali (SciTS): Supera di gran lunga modelli come GPT-4.1-mini e DeepSeek-V3, raggiungendo un F1 score di 99.5 nel task EAU01.
Prestazioni Generali: Il modello mantiene capacità di livello top-tier nei compiti generali, ottenendo 93.1 su AIME-2025 (Matematica) e 86.6 su MMLU-Pro, competendo con i migliori modelli open-source come Qwen3-VL-235B.
Capacità Agentiche: Dimostra eccellenti capacità di pianificazione multi-step e grounding ambientale (es. 93.6 su ScreenSpot V2).

4. Contributi Principali

Primo Modello Scientifico da 1 Trilione di Parametri: Un'architettura che unisce capacità generali avanzate e competenze scientifiche profonde in un unico modello.
Innovazioni Architetturali: Introduzione del Grouped Routing per la stabilità dell'addestramento MoE su larga scala e dell'STE per l'ottimizzazione del router.
Validazione del "Specializable Generalist": Lo studio dimostra che un modello generalista sufficientemente grande, addestrato congiuntamente su dati scientifici e generali, supera i modelli specializzati di nicchia (es. nel task di biologia, Intern-S1-Pro ha battuto un modello specializzato in 19 su 21 task, pur usando dati di base simili).
Pipeline di Dati Scientifica: Un metodo scalabile per generare didascalie dense e allineate per immagini scientifiche, risolvendo un collo di bottiglia critico per l'AI4S.
Infrastruttura RL Efficiente: Dimostrazione della fattibilità dell'addestramento RL a 1T parametri con coerenza di precisione tra training e inference.

5. Significato

Intern-S1-Pro rappresenta un punto di svolta nell'intersezione tra IA e Scienza. Dimostra che la scalabilità estrema, se supportata da architetture ingegnerizzate correttamente (come il routing di gruppo e la gestione dei gradienti), può creare modelli che non solo competono con i sistemi proprietari chiusi, ma li superano in profondità di conoscenza scientifica.
Il successo del modello nel superare i modelli specializzati suggerisce che il futuro dell'AI4S potrebbe risiedere in sistemi fondazionali unificati capaci di adattarsi a qualsiasi dominio scientifico, piuttosto che in una proliferazione di modelli di nicchia. Questo apre la strada a un'accelerazione significativa nella scoperta scientifica, permettendo ai ricercatori di affidarsi a un unico agente intelligente per compiti che vanno dalla previsione strutturale delle proteine alla progettazione di nuovi materiali.