An Ocean Model Ported by a Large Language Model: Experience and Lessons… — やさしい解説

原著者： Nikolay V. Koldunov, Suvarchal K. Cheedela, Sergey Danilov, Dmitry Sidorenko, Sebastian Beyer, Thomas Jung

公開日 2026-06-11

📖 1 分で読めます☕ さくっと読める

原著者： Nikolay V. Koldunov, Suvarchal K. Cheedela, Sergey Danilov, Dmitry Sidorenko, Sebastian Beyer, Thomas Jung

原論文は CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) でライセンスされています。 ✨ これは以下の論文のAI生成解説です。著者が執筆または承認したものではありません。技術的な正確性については原論文を参照してください。免責事項の全文を読む

想像してみてください。あなたは、非常に複雑で、かつ大成功を収めている、ある5つ星料理の膨大なレシピを持っています。このレシピは、ごく一部の熟練したシェフにしか理解できない、非常に古く特殊な言語（ここでは「Fortran」と呼びましょう）で書かれています。このレシピは何十年もテストされ続けており、誰もがその完璧な出来栄えを知っています。しかし、キッチンが変わろうとしています。新しいオーブン（強力なGPUを搭載した現代のスーパーコンピュータ）は、もう「Fortran」を話せません。彼らは「C++」を話すのです。

問題は、この74,000行に及ぶレシピを新しい言語へ翻訳することが、小説を翻訳しながら、同時にその小説が書かれている家を建て直すような作業であるということです。もし数学的な計算でたった一つでもミスをすれば、料理は毒物に変わるか、あるいはキッチンが火事になってしまうかもしれません。通常、これには人間の専門家チームによる数年の歳月が必要です。

この論文は、ある新しい実験について記述しています。AI（大規模言語モデル）が私たちの代わりにこの翻訳作業を行い、かつ、レシピを台無しにすることなく遂行できるのか？ ということです。

以下に、簡単な比喩を用いてその手法を説明します。

1. 二段階翻訳戦略

AIに「古い言語」から「新しい高速言語」へ直接ジャンプして翻訳させるのではなく、チームはAIに回り道をさせることにしました。

ステップ1：「正確な写し」（Fortran → C）: まず、AIにレシピを「C」と呼ばれる、よりシンプルで中間的な言語に翻訳させました。
- ルール： AIはレシピを「改良」することを厳格に禁じられました。より「良く」するために材料を入れ替えたり、効率化のために調理時間を変更したりしてはいけません。AIは逐語的（言葉通り）なコピーを行わなければなりませんでした。
- 目的： 「味」（物理現象）が全く同じであることを保証するためです。彼らはこの新しい「C」バージョンのレシピを、シミュレーション上の時間で5年間走らせました。その結果、味はオリジナルの「Fortran」版と全く同一であり、差異は海の中の一粒の塩のように極めて微細でした。
ステップ2：「スピードアップ」（C → C++/Kokkos）: 「C」バージョンが完璧であることが証明された後、彼らはその「C」を、超高速なGPUオーブンで動作するように設計された現代的な「C++」言語へと翻訳させました。
- セーフティネット： 「C」バージョンがすでに完璧であったため、AIは今や「速度」に集中することができました。彼らは、新しい「C++」バージョンが標準的なコンピュータ上で「C」バージョンと全く同じ数値を出力するかどうか、あらゆる工程をチェックしました。

2. 「ツイン（双子）」チェック・システム

AIがミスを忍び込ませていないことを、どうやって確認したのでしょうか？彼らは「ツイン」というシステムを用いました。

マスターシェフ（元のコード）と、見習いシェフ（新しいコード）がいると想像してください。見習いシェフが玉ねぎを切るたびに、その結果をすぐにマスターシェフに見せなければなりません。

「ツイン」テスト： すべての調理工程において、コンピュータは新しいコードと古いコードを並行して実行します。もし数値がわずかでも異なれば、システムは「ストップ！」と叫び、AIに「この特定の工程でミスをした」と伝えます。
「古いデータ（Stale Halo）」の罠： AIが犯したよくある間違いの一つは、データの端の部分（例えば、カットの間にまな板を洗うのを忘れるようなこと）を更新し忘れることでした。チームは、これらの目に見えないエラーを捕まえるために、端の部分を特別にチェックする「プローブ（探針）」を構築しました。

3. 結果：速度と精度

実験は成功しました。結果は以下の通りです。

精度： 新しいコードは科学的に信頼できるものです。5年間のシミュレーションを通じて、新しいバージョンによる海洋温度と塩分濃度は、オリジナルと区別がつかないほどでした。新しい超高速GPU上での結果は「統計的に近い」ものでした。つまり、微細な違いは物理学が間違っているからではなく、コンピュータによる計算の仕組みに起因するものであることを意味します。
速度： 新しいコードは現代のGPU（NVIDIA A100など）で動作し、従来のCPUで動作する古いコードよりも1.6倍から3.7倍高速です。
移植性： 最も素晴らしい点は、コードを一度書けば、書き直すことなく異なる種類のスーパーコンピュータ（NVIDIA、AMD、その他）で動作することです。それは、どんなコンセントにも適合するユニバーサルアダプターのようなものです。

4. 何がうまくいかなかったのか（そしてどう修正したのか）

AIは完璧ではありません。AIは物事を簡略化することで「助けよう」としましたが、それが物理学を壊しかけました。

「簡略化」の罠： AIは、数値や定数を丸めたり変更したりすることを望みました。その方が「綺麗」に見えるからです。チームはこれを厳格に禁止しなければなりませんでした。彼らはAIにこう命じました。「もしオリジナルが0.1と言っているなら、0.1と書きなさい。推測してはいけない」。
「コメント」の罠： AIは時として、コード内のコメントに「値は5である」と書いてあるのを見て、実際のコードが「値は10である」となっていても、そのコメントを信じてしまうことがありました。チームは、毎回実際のコード行をチェックさせることで、この問題を解決しました。

結論

この論文は、適切なルールと厳格な「安全の梯子（チェック体制）」があれば、AIを使って、巨大で複雑な科学モデルを古い言語から新しく超高速な言語へと、わずか数週間で翻訳できることを証明しています。

AIは単にコードをコピーしただけではありません。それは科学を保存したのです。海洋モデルは依然として現実の海洋と全く同じように振る舞いますが、今や世界で最も強力なコンピュータ上で、将来の気候を予測できるほどのスピードで動作します。鍵となったのはAIそのものではなく、厳格なルール、逐語的な翻訳、そして絶え間ないチェックという、人間による規律でした。

技術要約：大規模言語モデルによって移植された海洋モデル

問題提起
気候予測においてキロメートルスケールの海洋解像度がますます必要とされる中、確立された大規模なFortran海洋一般循環モデル（GCM）を、現代的なハードウェア、特にGPUへ移行させることが不可欠となっている。しかし、これらのモデルは数十年にわたり分散メモリCPUクラスター向けに開発されてきたため、移植にあたって大きな障壁に直面している。具体的には、ドメイン知識、移植技術、およびパフォーマンス・チューニングに関する専門的人材の不足、そして翻訳プロセスにおける科学的な忠実度（フィデリティ）の維持の難しさである。大規模言語モデル（LLM）は、小規模なコードセグメントや個々の関数の翻訳において成功を示してきたが、物理学的な性質や数値的な正確さを損なうことなく、完全なプロダクショングレードの地球物理モデルを異なる言語およびフレームワーク（特にGPU加速用）へと移植できるかどうかは、これまで確立されていなかった。

手法
著者らは、非構造格子有限体積海洋・海氷モデルであるFESOM2（コアとなる約74,000行のFortranコード）を、ドメインエキスパートの指示の下、エージェンティックなLLMコーディング・アシスタント（Claude CodeおよびOpus 4.7モデル）を用いて移植した。移植プロセスは、信頼性を確保するために以下の3つの重要な慣行に基づいて構成された。

2段階翻訳: 数値的な正当性と並列化を分離するため、翻訳を2つの明確なフェーズに分けた。
- ステージ1（FortranからCへ）: モデルを、クリーンでシングルスレッドのCリファレンスへと翻訳した。この段階では、高度に設定可能なFortranコードを、実行に使用される特定の構成へと集約し、有効なコンパイル時オプションや実行時のデフォルトに関する曖昧さを解消した。翻訳は厳格にリテラル（逐語的）に行われ、LLMによるコードの「改善」や簡略化は禁止された。
- ステージ2（CからC++/Kokkosへ）: このCリファレンスを、CPUとGPUの両方をターゲットとするためのパフォーマンス・ポータビリティ層であるKokkosを用いたC++でラップした。この段階では、Cリファレンスの算術演算を保持しながら、並列化に焦点を当てた。
厳格なリテラル翻訳: LLMに対し、1ベースから0ベースへのインデックス変換、列優先（column-major）から行優先（row-major）へのストレージ形式の適応、およびグローバルなUSE変数の構造体渡しへの変換を含む、行単位の逐次的な翻訳を行うよう指示した。意味論的な変更は一切許可されなかった。これにより、いかなる乖離も、物理学の変更ではなく移植上のバグであることを保証した。
階層的検証ラダー: 各段階において、厳格な検証フレームワークを適用した。
- FortranからCへ: 言語やコンパイラの差異によりバイトレベルでの完全一致は不可能であるため、厳密なビット一致ではなく、長期的な統計的一致（5年間の積分）によって検証した。
- CからKoklos (CPU): 決定論的なバックエンド（Serial/OpenMP）上で、Cリファレンスに対するビット単位での同一性を検証した。
- Kokkos (GPU): GPU（浮動小数点の削減順序が異なるため）においては統計的な近接性を検証し、さらに、期待される数値的な乖離と実際の誤りを検出するための厳格な「ゲート」（例：海氷が活性な状態での20ステップの実行）を設けた。
- デバッグツール: 特定のカーネルやサブシステムへの失敗を特定するために、ステップごとのリファレンス・ダンプ、同一入力オペレータの差分比較、停滞したハロー（stale-halo）プローブなどのカスタムツールを開発した。

主な結果

忠実度（Fidelity）:
- Cポートは、5年間の積分において元のFortranモデルを再現し、全球海面水温（SST）の平方根平均二乗誤差は0.006 °C、塩分差は0.002 PSUであった。水深700 m以深の深層海洋における差異は、統計的にゼロと区別がつかなかった。
- Kokkos CPUビルドは、決定論的なバックエンド上でフルシミュレーション1年間にわたり、Cリファレンスとビット単位で同一であった。
- Kokkos GPUビルドは、Cリファレンスに対して統計的に近い値を維持しており、SSTの相関は1.0、バイアスは $+10^{-4}$ °Cであった。GPUによる偏差は、FortranからCへの翻訳によって導入された不確実性よりも約3桁小さかった。
パフォーマンス:
- 高解像度メッシュ（最大740万表面頂点）において、単一のNVIDIA A100 GPUノードは、CPUノードよりも1.6〜3.7倍高速に動作した。
- モデルは、テストされたすべてのハードウェアにおいて、数百万頂点のメッシュに対してプロダクション目標である1〜2シミュレーション年/日（SYPD）を達成した。
- NVIDIA GH200システムでは、スループットは最大3.5 SYPDに達した。
ポータビリティ:
- 単一のKokkosソースコードベースにより、物理コードを書き換えることなく、多様なハードウェア上でコンパイルおよび実行が可能であった（NVIDIA A100, H100, GH200 (via CUDA) および AMD MI250X (via HIP)）。AMDシステムへの移植には、主にプリプロセッサ・ガードの軽微な変更のみが必要であり、1日未満の作業で完了した。

意義と主張
本論文は、LLM支援による移植が、科学的な忠実度を維持しつつ、プロダクションレベルのパフォーマンスに到達しながら、完全なプロダクショングレードの海洋・海氷モデルをGPU対応の実装へと移行できることを示した最初の事例であると主張している。著者らは、この成功はLLMの自律的な能力のみによるものではなく、以下の要素を組み合わせた規律あるワークフローによるものであると強調している。

エージェンティックな支援: 疲れを知らぬ翻訳とハーネス構築のための手段。
人間のドメインエキスパートの知見: 戦略、計画のレビュー、および微妙な物理エラーの捕捉のための役割。
階層的な検証手順: サイレントな物理エラーを即座に局所的な失敗へと変換する仕組み。

本研究は、厳格なルールによって制約され、適切な受理基準によって検証されるならば、LLMが既存のFortranモデルを現代的な高性能ポータブル言語（C++/Kokkos）へと数週間で移行できることを確立した。著者らは、これをモデルの最終的な最適化としてではなく、元のモデルの物理学を保持しながら、現代のアクセラレータでの実行を可能にする、検証済みの競争力のある出発点として提示している。

An Ocean Model Ported by a Large Language Model: Experience and Lessons from FESOM2 (Fortran to C to C++/Kokkos)

1. 二段階翻訳戦略

2. 「ツイン（双子）」チェック・システム

3. 結果：速度と精度

4. 何がうまくいかなかったのか（そしてどう修正したのか）

結論

技術要約：大規模言語モデルによって移植された海洋モデル

関連論文