Each language version is independently generated for its own context, not a direct translation.
上海 AI ラボが発表した「Intern-S1-Pro(インターン-S1 プロ)」という新しい AI について、難しい専門用語を使わずに、日常の言葉と面白い例え話で解説します。
🌟 結論:科学の「天才」でありながら、何でもできる「万能選手」が誕生しました
この論文は、**「1 兆(1 トリオン)パラメータ」**という驚異的な規模を持つ新しい AI モデル「Intern-S1-Pro」の紹介です。
これまでの AI は、「日常会話や絵の理解が得意な一般 AI」と「化学や物理などの専門知識を持つ専門家 AI」に分かれていました。しかし、この新しいモデルは、**「一般の知恵」と「科学の専門知識」を両方兼ね備えた、世界初の『科学特化型・超巨大モデル』**です。
🏗️ 1. 巨大な図書館と「1 兆個の専門家」
この AI の最大の特徴は、その**「1 兆パラメータ」**という大きさです。
例え話:
従来の AI が「1 人の天才学者」だとしたら、Intern-S1-Pro は**「1 兆人の専門家たちが集まった巨大な研究機関」**のようなものです。
化学、材料科学、生命科学、地球科学など、100 種類以上の専門分野にまたがる知識を、たった一つの頭脳で持っています。
何がすごい?
通常、「専門分野に特化した AI」の方が、その分野では「何でもできる AI」より得意だと思われていました。しかし、このモデルは**「専門家のチーム全体を統合した」**ため、特定の分野(例:タンパク質の構造予測や新材料の設計)において、既存のトップクラスの「クローズドソース(非公開)の AI」さえも凌駕する性能を発揮しました。
🧩 2. 安定して動くための「賢い仕組み」
1 兆もの専門家(パラメータ)を同時に動かすのは、電気代が高すぎたり、混乱したりして大変です。そこで、2 つの工夫がなされています。
📸 3. 科学の「図」を本当に理解する
科学の論文には、複雑なグラフや実験図がたくさんあります。これまでの AI は、これらの図を「ただの絵」として見ていましたが、Intern-S1-Pro は**「図の細部まで読み解く」**ことができます。
- 例え:
普通の AI が「これはグラフですね」と言うのに対し、Intern-S1-Pro は**「このグラフの青い線は 2024 年のデータで、赤い点線は予測値です。軸の目盛りは 0.2 刻みで、右側の拡大図は〜」**と、まるで科学者が解説しているように詳細に説明できます。
これは、科学論文から数百万枚の図を抽出し、AI 自身が「この図は何を言っているのか?」を詳しく説明する文章(キャプション)を生成して学習させたおかげです。
⏳ 4. 「時間」の流れも読み取る
科学データには、心電図や地震波のように「時間とともに変化するデータ」があります。
- 例え:
従来の AI は、時間を「一連の文字」や「静止画」に変換して無理やり理解しようとしていました。しかし、Intern-S1-Pro は**「時間そのものを波として捉える」**特別な仕組みを持っています。
これにより、心拍数の微妙な変化や、動物の鳴き声の時間的なパターンまで、高精度に分析できるようになりました。
🤖 5. 自分で考えて行動する「エージェント」能力
ただ質問に答えるだけでなく、**「自分で計画を立てて行動する」**能力も備えています。
- 例え:
「新しい薬の候補物質を探して」と言われたら、
- 必要なデータベースを検索し、
- 化学反応のシミュレーションを行い、
- 結果をまとめてレポートにする。
という一連の作業を、人間が指示しなくても自律的に行うことができます。
🚀 まとめ:なぜこれが重要なのか?
Intern-S1-Pro は、**「科学の壁を越える」**ためのツールです。
- 一般の知恵(言語や論理)と科学の専門知識(化学式や実験データ)を融合させることで、これまでにないスピードで新しい発見を助けます。
- 従来の「専門家 AI」よりも安く、高性能で、オープンソース(誰でも使える)であるため、世界中の研究者がこれを使って、**「新しい材料の開発」「病気の治療法の発見」「気候変動の予測」**などを加速させることが期待されています。
一言で言えば、**「科学の未来を切り開く、超巨大で万能な『科学者のパートナー』」**が完成したのです。
Each language version is independently generated for its own context, not a direct translation.
Intern-S1-Pro: 科学分野向けトリリオンパラメータ規模のマルチモーダル基盤モデル
上海人工知能研究所(Shanghai AI Laboratory)の「Intern-S1-Pro チーム」によって発表された本論文は、Intern-S1-Proという、科学分野に特化した世界初の1 兆パラメータ規模のマルチモーダル基盤モデルを紹介しています。このモデルは、一般領域と科学領域の両方で高度な能力を発揮し、特に化学、材料科学、生命科学、地球科学などの専門分野における 100 以上のタスクを習得しています。
以下に、論文の技術的要点を問題定義、手法、主要な貢献、結果、意義の観点から詳細にまとめます。
1. 問題定義 (Problem)
- 科学分野の複雑性と多様性: 科学分野(化学、生物学、物理学など)は、自然言語とは異なり、専門的な記法、知識、推論パターンを持つ「言語」を多数有しています。既存のモデルでは、これらの多様な専門分野を網羅的に理解し、推論することが困難でした。
- 専門モデルの限界: 従来のアプローチでは、特定のニッチなタスクに対して専門特化モデル(Specialized Models)を構築することが一般的でしたが、これらは一般能力との融合が難しく、データや計算リソースの非効率性を招いていました。
- 大規模 MoE モデルのトレーニング課題: トリリオンパラメータ規模の Mixture-of-Experts(MoE)モデルを構築する際、以下の技術的課題が存在します。
- ロードバランシングの不安定さ: 多数のエキスパート間の負荷偏りにより、メモリ不足(OOM)やトレーニングの不安定化が発生する。
- ルーター(Router)の最適化難易度: スパースな選択により、ルーターの埋め込みが十分に学習されず、エキスパートの割り当てが最適化されない。
- 科学データの質と整合性: 科学図表のキャプションは、既存のウェブデータでは不十分であり、文脈との整合性(Alignment)が低い。
- 物理信号の表現限界: 従来のトークン化や位置エンコーディングでは、連続的な波形やスペクトル特性を持つ物理信号(時系列データ、画像など)の表現が不十分。
2. 手法 (Methodology)
Intern-S1-Pro は、Intern-S1 を基盤とし、以下のアーキテクチャと学習戦略を統合して構築されました。
2.1 アーキテクチャの革新
- グループ化されたルーティング (Grouped Routing):
- 従来の Top-K ルーティングによる負荷偏りを解消するため、エキスパートをデバイスごとにグループ化し、各グループ内で Top-1 のエキスパートのみを選択する方式を採用。
- これにより、8 方向のエキスパート並列(EP8)トレーニングにおいて、デバイス間の絶対的な負荷バランスを実現し、OOM リスクを排除してトレーニングの安定性を向上させました。
- 直通推定器 (Straight-Through Estimator: STE) の導入:
- スパースな Top-K 選択による勾配の希薄化問題を解決するため、STE を導入。フォワードパスではスパース選択を維持しつつ、バックワードパスでは密な Softmax 分布を通じて全エキスパートに勾配を流すことで、ルーターの学習効率と安定性を高めました。
- フォリエ位置エンコーディング (FoPE):
- 物理信号の連続性や波動性を表現するため、従来の RoPE に代わり、フーリエ解析の数学的基盤を用いた FoPE を採用。各次元を異なる周波数成分のフーリエ級数としてモデル化し、スペクトルの歪みを軽減し、長距離依存関係や物理的な周期性をより正確に捉えます。
- 時系列エンコーダ (Time-series Encoder):
- 生体信号や地球科学データなど、多様なサンプリングレートと長さを扱うため、適応的サブサンプリングモジュールと動的パッチングを採用。信号の特性に応じてパッチサイズを調整し、100〜10^6 時間ステップのシーケンスを効率的に処理します。
- ビジョンエンコーダ:
- 高解像度の画像を固定サイズではなくネイティブ解像度で処理する Native ViT を採用し、微細な空間情報を保持します。
2.2 データ戦略と学習パイプライン
- 科学向けキャプションパイプライン:
- 既存のウェブデータではなく、学術論文(PDF)から MinerU2.5 を用いて図表を抽出し、InternVL3.5-241B や CapRL-32B などのモデルを用いて、専門的な知識を豊富に含んだ高密度なキャプションを生成するパイプラインを構築。これにより、約 2700 億トークンの高品質な科学画像 - テキスト対データを生成しました。
- 科学データと一般データの統合:
- 構造化された科学データと一般テキストの混在による「分布シフト」や「負の転移」を防ぐため、以下の戦略を採用:
- 構造化データ変換: テンプレート構築とタスク形式変換により、科学データを自然な物語形式に変換。
- データ多様化: プロンプト多様化とロールアウト(Rollout)メカニズムにより、推論チェーンを生成させ、単純な知識想起から論理的推論へ昇華。
- システムプロンプト分離: 科学データと一般データに対して排他的なシステムプレフィックスを注入し、コンテキストを分離。
- 安定化された混合精度強化学習 (RL):
- 1 兆パラメータ規模での RL 学習において、トレーニングと推論エンジンの精度不一致(FP8 vs BF16)を解消するため、オペレーターレベルの精度調整、ルーターの一致確保(Rollout Router Replay)、および重要度サンプリングを用いた損失関数の修正を実施。これにより、FP8 混合精度でも BF16 と同等の性能を維持しながら効率的な学習を実現しました。
3. 主要な貢献 (Key Contributions)
- 世界初の 1 兆パラメータ科学マルチモーダルモデル:
- 一般能力と科学専門能力を両立する「Specializable Generalist(汎用かつ専門化可能なモデル)」として、1 兆パラメータ規模を達成。
- MoE 大規模モデルのトレーニング安定性向上:
- Grouped Routing と STE による新しいアーキテクチャ設計は、大規模 MoE モデルにおける負荷偏りと勾配スパース性の問題を解決し、トレーニングの安定性と効率性を劇的に改善しました。
- 科学データのための専用キャプション生成:
- 学術論文から高品質なキャプションを自動生成するパイプラインを構築し、科学図表の理解精度を飛躍的に向上させました。
- 物理信号の表現能力の拡張:
- FoPE と時系列エンコーダにより、従来の LLM が苦手としていた連続的な物理信号や時系列データの理解・推論能力を大幅に強化しました。
- 一般モデルが専門モデルを上回る可能性の証明:
- 十分な規模と適切な学習戦略があれば、汎用モデルが専門特化モデルよりも優れた性能を発揮しうることを実証しました(後述のケーススタディ参照)。
4. 結果 (Results)
- 科学タスクでの圧倒的優位性:
- SciReasoner: 55.5 点(Gemini-3-Pro: 14.7, GPT-5.2: 13.6)。
- SmolInstruct (化学): 74.8 点。
- MatBench (材料科学): 72.8 点。
- Biology-Instruction: 52.5 点。
- 多くの科学ベンチマークで、GPT-5.2 や Gemini-3-Pro などの最先端のクローズドソースモデルを凌駕する性能を示しました。
- 一般タスクでの高性能:
- AIME-2025 (数学): 93.1 点。
- MMLU-Pro: 86.6 点。
- 一般知識や推論能力においても、Qwen3-VL-235B などの強力なオープンソースモデルと同等かそれ以上の性能を維持しています。
- 時系列タスク:
- SciTS ベンチマークにおいて、GPT-4.1-mini や DeepSeek-V3 などの他モデルを大きく上回る F1 スコア(例:EAU01 で 99.5)を達成し、時系列データの理解能力の優位性を示しました。
- ケーススタディ(生物学):
- 専門特化モデル「Biology-Instruction」と比較した結果、Intern-S1-Pro は同じデータセットから学習しながらも、Protein-Fluorescence タスクで 78.14(専門モデルは 2.57)など、大幅な性能差を示しました。これは、大規模な一般能力が専門知識の抽出と利用を促進することを示唆しています。
5. 意義 (Significance)
- AI for Science (AI4S) の新たなパラダイム:
- 従来の「専門特化モデル」から「大規模汎用モデルによる科学理解」への転換を促す重要な成果です。単一のモデルで多岐にわたる科学分野をカバーできる可能性を示しました。
- 科学発見の加速:
- 複雑な科学文献、実験データ、図表を統合的に理解・推論できる能力は、研究者が新たな仮説を立てたり、材料設計や創薬を加速したりする上で極めて重要です。
- オープンソースコミュニティへの貢献:
- 最先端の科学能力を持つ 1 兆パラメータモデルをオープンソースとして公開することで、研究コミュニティ全体の科学 AI 開発を加速させる基盤を提供しています。
- 技術的ブレイクスルー:
- 大規模 MoE モデルのトレーニング不安定性や、物理信号の表現限界といった根本的な技術課題に対する解決策(Grouped Routing, FoPE, 科学キャプションパイプラインなど)は、今後の大規模モデル開発の指針となるでしょう。
Intern-S1-Pro は、単なるモデルの規模拡大ではなく、アーキテクチャ、データ戦略、学習手法の総合的な革新によって、科学分野における AI の能力を新たな次元へと引き上げた画期的な研究と言えます。
毎週最高の machine learning 論文をお届け。
スタンフォード、ケンブリッジ、フランス科学アカデミーの研究者に信頼されています。
受信トレイを確認して登録を完了してください。
問題が発生しました。もう一度お試しください。
スパムなし、いつでも解除可能。
週刊ダイジェスト — 最新の研究をわかりやすく。登録