Each language version is independently generated for its own context, not a direct translation.
エンジニアリング・グループの「EngGPT2」:賢くて省エネなイタリアの AI について
この論文は、イタリアの大手 IT 企業「エンジニアリング・グループ」が開発した新しい人工知能(AI)モデル**「EngGPT2」**の技術報告書です。
これを難しく考えずに、**「賢くて、省エネで、イタリアの文化に精通した新しいタイプの頭脳」**としてイメージしてみてください。
1. 何を作ったの?(主役の紹介)
この AI は、**「モザイクの達人」**のような存在です。
- 従来の AI(密なモデル): 巨大な石でできた像。全部の石(パラメータ)が常に働いていますが、重くてエネルギーを大量に消費します。
- EngGPT2(MoE 型): 16 億個の石(パラメータ)を持っていますが、実際に作業するときは、その中から3 億個だけを選んで使います。
- 例えるなら: 大きな図書館(16 億冊)がありますが、質問された瞬間に、必要な本だけを 3 冊取り出して読むようなものです。これにより、**「頭は大きいのに、動くのは軽くて速い」**という、非常に効率的な仕組みになっています。
2. 何で勉強したの?(学習の材料)
この AI は、**「2.5 兆語」**のテキストで勉強しました。
- 比較: 世界の巨大 AI(Qwen3 や Llama3)は「36 兆語」や「15 兆語」で勉強していますが、EngGPT2 はそれよりずっと少ないデータで、同じくらい、あるいはそれ以上の賢さを身につけました。
- イタリア語の専門家: 勉強材料の**25%**はイタリア語です。これは、ヨーロッパやイタリアの文化、法律、ニュアンスに特化した「地元の専門家」として育てられたからです。
3. 何がすごいのか?(3 つの強み)
① sovereignty(主権):「自前の頭脳」
アメリカや中国の AI に頼らず、ヨーロッパ(特にイタリア)が自らのルールと価値観で AI を作りました。
- 例えるなら: 外国から輸入した家電ではなく、自国で設計図から作られた、EU の法律(AI 法)に完璧に compliant(適合)した「国産の高性能家電」です。
② Efficiency(効率):「エコな AI」
- トレーニング(勉強): 必要なデータ量が少なくて済むので、勉強にかかるお金と電力が1/10〜1/6で済みます。
- 推論(実際の使用): 使う電力も、同じ性能の AI の1/5〜1/2で済みます。
- 例えるなら: 同じ距離を走るのに、ガソリンを大量に使う大型トラックではなく、ハイブリッドカーのように「少ない燃料で高性能」を実現しています。
③ Reasoning(思考力):「3 つのモード」
この AI は、状況に合わせて思考のスピードと深さを変えられます。
- 通常モード: 素早く答える。
- 思考モード(英語・イタリア語): 「えーと、まず A で、次に B...」と思考過程を詳しく説明してから答える。難しい問題に強い。
- ターボ思考モード: 「A→B→C」と要点だけサクッとまとめて答える。リアルタイムで使いたい時に最適。
4. 結果はどうだった?(テストの結果)
- 数学や論理パズル: 80 億〜160 億パラメータの他の AI と比べて、トップクラスの成績を出しました。
- イタリア語のテスト: イタリアの文化や知識に関するテストでも、非常に高い精度を叩き出しました。
- コード作成やツール操作: ここはまだ少し弱い部分がありますが、今後のアップデートで強化する予定です。
5. まとめ:なぜこれが重要なの?
この論文は、**「AI は巨大で高価である必要はない」**という新しい基準を示しています。
- 従来の考え方: 「もっと大きく、もっと多くのデータで勉強させれば賢くなる」。
- EngGPT2 の考え方: 「賢い仕組み(モザイク型)と、質の高いデータ(特にイタリア語)を使えば、小さくても、安くても、賢く、安全な AI が作れる」。
これは、ヨーロッパが AI 分野で自立し、持続可能で責任ある AI 生態系を作るための重要な一歩です。まるで、**「高価な高級車ではなく、燃費が良く、地元の道に精通した、信頼できる国産スポーツカー」**を完成させたようなものです。
一言で言うと:
「イタリアの文化を深く理解し、少ない電力で賢く働き、ヨーロッパのルールに忠実な、次世代の『賢くてエコな AI』の誕生宣言」です。
Each language version is independently generated for its own context, not a direct translation.
EngGPT2 技術報告書の詳細な技術サマリー
本報告書は、Engineering Group によって開発された新しい大規模言語モデル(LLM)「EngGPT2-16B-A3B」に関する技術報告です。このモデルは、**主権的(Sovereign)、効率的(Efficient)、オープン(Open)**な人工知能を実現することを目的として設計されています。以下に、問題定義、手法、主要な貢献、結果、および意義について詳述します。
1. 背景と問題定義
欧州は、米国や中国に比べて大規模言語モデル(LLM)の開発において遅れをとっていますが、技術的自立(ソブリンティ)、規制遵守(EU AI Act)、および持続可能なイノベーションの必要性から、地域に特化したオープンな基盤モデルの構築が急務となっています。既存のモデルは、計算コストやトレーニングデータの量が膨大であり、欧州の企業や公共機関が自前で管理・運用するには現実的ではない場合が多いです。
解決すべき課題:
- 欧州の文脈(特にイタリア語)に特化した高性能なモデルの不足。
- 大規模な計算リソースを必要とする既存モデルの非効率性。
- EU AI Act への完全な準拠と、透明性の高い開発プロセスの確立。
2. 手法とアーキテクチャ
2.1 モデルアーキテクチャ
EngGPT2 は、Mixture-of-Experts (MoE) アーキテクチャを採用したトランスフォーマーモデルです。
- パラメータ構成: 総パラメータ数 160 億(16B)、推論時にアクティブになるパラメータは 30 億(3B)。
- 構造: 24 レイヤー、各レイヤーに 64 人のエキスパートが存在し、トークンごとに 8 人が動的にルーティングされます。
- 設計思想: Qwen3 や GPT-OSS の設計を参考にしつつ、エキスパートのサイズを最適化しました。これにより、推論時の計算負荷を大幅に抑えつつ、高密度モデル(Dense Model)と同等の性能を維持しています。
- トークナイザー: Mistral をベースに拡張され、語彙数は 131,084 語。イタリア語やロマンス語・ゲルマン語のサポートを強化し、推論・ツール呼び出し用の特殊トークンも追加されています。
- コンテキスト長: 最大 32,768 トークン(Long-Context Adaptation により拡張)。
2.2 トレーニングパイプライン
トレーニングは 4 つの主要フェーズで構成され、合計約 2.5 兆トークン(2.5T)で学習されました。これは Qwen3(36T)や Llama3(15T)と比較してデータ量が大幅に少ないですが、効率的なデータ選別とアーキテクチャにより高性能を実現しています。
- 事前学習 (Pre-training):
- 600B トークン(ウォームアップ)、1.5T トークン(スケールアップ)、400B トークン(高品質精査)の 3 段階。
- データセットには FineWeb、FineMath、Starcoder、Nemotron-SFT などが含まれ、イタリア語データは約 25% を占めます。
- 著作権侵害リスクを低減するための独自のフィルタリングパイプライン(ドメインブラックリスト、パターン検出など)を適用し、EU AI Act への準拠を強化しました。
- 長文脈適応 (Long-Context Adaptation):
- 32k トークンのシーケンス長に対応させるための専用学習フェーズ。
- 中盤トレーニング (Mid-Training):
- 推論能力、特に論理的推論の安定化と統合に焦点を当てたフェーズ。
- 事後トレーニング (Post-Training):
- SFT (Supervised Fine-Tuning): 指示追従と会話能力の強化。
- APO (Anchored Preference Optimization): 選好最適化によるアライメント。
- Model Souping: 複数のチェックポイントを統合し、安定性と性能を最大化。
2.3 推論モード
モデルは単一のモデルで複数の推論モードをサポートします:
- 非推論モード: 直接的な回答。
- 推論モード (Reasoning): 英語またはイタリア語で、
<thought> タグを用いた段階的な思考プロセスを出力。
- ターボ推論モード (Turbo Reasoning): 思考プロセスを箇条書きで圧縮し、低遅延・低コストな推論を実現。
3. 主要な貢献
- 欧州初の高性能・高効率 MoE モデル:
- 16B パラメータ(アクティブ 3B)でありながら、8B〜16B 範囲の高密度モデルと同等、あるいはそれ以上の性能を達成。
- 推論に必要な電力を高密度モデルの 1/5〜1/2、トレーニングデータと電力を 1/10〜1/6 に削減。
- EU AI Act への完全準拠と透明性:
- トレーニングデータの著作権リスクを低減する厳格なフィルタリングプロセスを実装。
- 技術ドキュメントの完全公開と Hugging Face でのモデル公開により、説明責任と透明性を担保。
- 多言語・多モード推論:
- イタリア語と英語の両方で高度な推論能力を発揮。
- 「ターボ推論」モードにより、リアルタイム用途に適した低コスト推論を実現。
- コスト効率の可視化:
- 「知性のコスト(Cost of Intelligence)」フレームワークを導入し、トレーニングトークン数やアクティブパラメータ数に対する性能を正規化して評価。これにより、リソース制約下での最適なモデル設計を示しました。
4. 評価結果
標準ベンチマークおよび正規化された指標において、EngGPT2 は以下の結果を達成しました。
- 主要ベンチマーク:
- MMLU-Pro: 57.3(8B〜16B 密度モデルを上回る性能)。
- AIME26 (数学推論): 70.0。
- GSM8K: 88.0。
- IFEval (指示追従): 72.0。
- HumanEval (コード生成): 64.0(一部改善の余地ありと報告)。
- 比較対象:
- 同サイズの密度モデル(Llama-3.1-8B, Gemma-2-9b)を明確に凌駕。
- 大型モデル(Qwen3-30B-A3B, GPT-OSS-20B)と比較しても、推論コストが大幅に低いにもかかわらず、性能ギャップは限定的。
- 正規化効率:
- 「トレーニングトークンあたりの性能」および「アクティブパラメータあたりの性能」において、他のモデルを上回る効率性を示しました。特に、トレーニングコストが低く、推論コストも最小限であるため、右上(高効率・高性能)の領域に位置づけられています。
- イタリア語性能:
- ARC-Challenge-IT や MMLU-IT において、欧州のオープンウェイトモデルの中で競争力のあるベースラインを確立しました。
5. 意義と結論
EngGPT2 は、**「リソースを考慮した高性能 LLM」**の新しい基準を設定するものです。
- 技術的意義: 限られた計算リソースとデータ量でも、MoE アーキテクチャと効率的なトレーニングパイプラインによって、大規模モデルに匹敵する能力を達成できることを実証しました。
- 戦略的意義: 欧州(特にイタリア)の文脈に特化した、主権的かつ安全な AI エコシステムの構築に寄与します。EU AI Act に準拠した開発プロセスは、欧州の規制環境下での AI 導入の障壁を下げます。
- 実用性: 「ターボ推論」モードの導入により、リアルタイムアプリケーションやコスト制約の厳しい環境での展開が可能になりました。
今後の課題として、長文脈タスクのさらなる強化、コード生成やツール呼び出し能力の向上、および RLVR(強化学習)による推論の安定化が挙げられており、これらが今後のリリースで対応される予定です。
総じて、EngGPT2 は、欧州の AI 自立と持続可能な開発に向けた重要な一歩であり、性能と効率、規制遵守を両立したオープンウェイトモデルの成功例と言えます。