原著者： Tatsuhiro Onodera, Martin M. Stein, Benjamin A. Ash, Mandar M. Sohoni, Melissa Bosch, Ryotatsu Yanagimoto, Marc Jankowski, Timothy P. McKenna, Tianyu Wang, Gennady Shvets, Maxim R. Shcherbakov, Logan

公開日 2026-06-15

📖 1 分で読めます☕ さくっと読める

CC BY 4.0

原著者： Tatsuhiro Onodera, Martin M. Stein, Benjamin A. Ash, Mandar M. Sohoni, Melissa Bosch, Ryotatsu Yanagimoto, Marc Jankowski, Timothy P. McKenna, Tianyu Wang, Gennady Shvets, Maxim R. Shcherbakov, Logan G. Wright, Peter L. McMahon

原論文は CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) でライセンスされています。 ✨ これは以下の論文のAI生成解説です。著者が執筆または承認したものではありません。技術的な正確性については原論文を参照してください。免責事項の全文を読む

あなたは、複雑なパズル（手書きの数字の認識や、話し言葉の母音の識別など）を解こうとしていると想像してください。通常、コンピュータは、データを一連の小さく独立した歯車やレバー（離散的なコンポーネント）へと通過させることでこれを行います。各歯車が小さな役割を担い、データは次から次へと移動していきます。パズルが大きくなるにつれ、これには多くのスペースとエネルギーが必要になります。

この論文の研究者たちは、全く異なる種類のマシンを作り上げました。一連の独立した歯車を使う代わりに、彼らは、スマートで形を変えられるレンズのように機能する、単一の巨大でプログラマブルな「ガラスのシート」（導波路）を作り出したのです。

彼らの発明の仕組みを、シンプルな概念に分解して説明します：

1. 「スマート・シート」対「歯車列」

従来のコンピュータチップを、一連の列車の車両だと考えてください。地点Aから地点Bへ移動するには、貨物（データ）は車両から次の車両へと乗り換えなければなりません。これはかさばり、速度も遅くなります。

この新しいデバイスは、単一の巨大なトランポリンのようなものです。車両の間を飛び跳ねる代わりに、ボール（光のビーム）をトランポリンの上に投げます。トランポリンの表面の張力や形状を変えることで、ボールを任意の特定のパターンで跳ねさせることができます。表面全体が同時に連動して、ボールを目的地へと導きます。

2. どうやってガラスの「形」を作るのか？

このガラスを彫刻のように削ることはできません。一度削ってしまうと、固定されてしまうからです。研究者たちは、このガラスの形を「その場で」変える方法を見つけ出す必要がありました。

彼らは、光と電気を用いた巧妙なトリックを使用しました：

セットアップ: 電極に挟まれた特別なガラスのシート（ニオブ酸リチウム）を用意します。
制御: 上方から、プロジェクターで絵を投影するように、緑色の光のパターンをシートに照射します。
魔法: 緑色の光が当たった場所では、シートの導電性がわずかに高くなります（ワイヤーのように）。これにより、ガラス内部の電界が変化します。このガラスが持つ特殊な性質により、電界を変えると、その屈折率（光をどれだけ屈折させるか）が変化します。
結果: 投影された緑色の光のパターンが、ガラス内部の見えない風景を瞬時に「彫刻」します。もし「Y」の字型を投影すれば、ガラスは光にとってのY字型の経路となります。もし複雑な迷路を投影すれば、ガラスは複雑な迷路となります。

彼らはこの「彫刻」パターンを1秒間に約3回変更できるため、マシンを即座に再プログラミングすることが可能です。

3. 光による数学の実行

このマシンの目的は、機械学習（コンピュータにパターンを認識させること）を行うことです。

入力: 手書きの「7」の形などのデータを、シートに入力される光のビームのパターンへと変換します。
処理: 光がシートを通過する際、作成された「彫刻された」風景の中で跳ね返ります。光の波は互いに干渉し合い、複雑に混ざり合います。この混ざり合いこそが、数学的な計算です。
出力: 光は反対側から出てきます。彼らは、異なる地点で光がどれほど明るいかを測定します。最も明るい地点が答え（例：「それは『7』でした！」）を教えてくれます。

彼らはこれらを2つのタスクでテストしました：

母音の音: 音の周波数に基づいて、どの母音が話されたかを識別します。彼らは**96%**の確率で正解しました。
手書き数字 (MNIST): 0から9までの数字を認識します。彼らは**86%**の確率で正解しました。

4. なぜこれが大きなニュースなのか？（「平方根」の驚き）

通常、より大きなパズル（より多くのデータ）を扱えるコンピュータを作りたい場合、マシン自体をはるかに大きくしなければなりません。複雑さが2倍になれば、通常はスペースも4倍必要になります（平方の関係）。

研究者たちは、彼らの「スマート・シート」において驚くべき発見をしました。彼らは一連の歯車を使うのではなく、シート全体を使用しているため（マルチモード干渉）、マシンのサイズは複雑さの平方根の分だけ成長すればよいのです。

例え: 100台の車のための橋を作りたい場合、従来の設計では100ユニットの長さが必要かもしれません。彼らの設計は、同じ仕事をするために、わずか10ユニットの長さの橋（100の平方根は10であるため）があればよいことを示唆しています。

これは、彼らのマシンが、現在の光学コンピュータよりもはるかに小さく、エネルギー効率の高いものになる可能性があることを意味しています。

まとめ

チームは、複雑な数学を実行するために単一のガラスシートを使用する、再プログラマブルな光学プロセッサを構築しました。何千もの小さく独立した部品を使う代わりに、彼らはプロジェクターを使用して、光を用いてガラスの上に直接数学の問題を「描いて」います。そして、光がガラスを通過する過程で、その問題を解決するのです。彼らは、この手法が音声や数字の認識に有効であることを証明しました。また、彼らの数学的考察は、このアプローチが将来、より小さく、より速く、よりエネルギー効率の高いコンピュータにつながる可能性があることを示しています。

技術要約：マルチモード波伝搬の任意制御による機械学習

問題提起

深層ニューラルネットワーク（DNN）は、そのサイズの指数関数的な増大に伴うエネルギーコスト、特に計算負荷の大部分を占める行列ベクトル積（MVM）に制約されつつあります。光ニューラルネットワーク（ONN）は、エネルギー効率の高いMVMを実現する有望な代替案ですが、現在の集積フォトニクスのアプローチは重大なスケーラビリティの限界に直面しています。支配的なパラダイムは、単一モード導波路によって接続された離散的なプログラム可能コンポーネント（例：マッハ・ツェンダー干渉計、マイクロリング共振器）のネットワークに基づいています。このアーキテクチャは、以下の2つの主要なボトルネックに苦しんでいます。

ルーティングの複雑さ： $N \times N$ 行列に対して必要な $O(N^2)$ 個の電子制御配線をチップの外周部に統合することは、制御可能な自由度の数を数百程度に制限します。
空間的非効率性： 波長制約やプログラム可能性の低さにより、個々の光学コンポーネントは嵩高く、相互接続領域によって多大なチップ面積が消費されます。

その結果、既存のチップがサポートするベクトルサイズ（ $N$ ）は、光学が電子技術に対して明確なエネルギー効率の優位性を示すために必要な閾値（ $N \gtrsim 1000$ ）を大きく下回っています。本研究が取り組む中心的な課題は、電子配線の統合の複雑さを回避しながら、波の伝搬に対する任意の制御を可能にする、プログラム可能な屈折率分布 $n(x, z)$ を持つフォトニックチップをどのように構築するかという点です。

手法

著者らは、チップ全体を離散的な要素の集合体としてではなく、連続的で再プログラム可能な基板として扱うデバイスである「2Dプログラマブル導波路」を導入し、実証しました。

デバイスのアーキテクチャと動作原理

このデバイスは、導電性シリコン基板（接地電極として機能）と金電極の間に挟まれたリチウムナイオベート（LiNbO $_3$ ）スラブ導波路で構成されています。その上部には光導電層（シリコンリッチ窒化シリコン）が堆積されています。

屈折率変調： デバイスは、空間的に変化する屈折率変化 $\Delta n(x, z)$ を誘起するために光導電ゲインを利用します。電極間には、振動するバイアス電圧（最大1000 V）が印加されます。パターン化された光投影が光導電体に照射されると、そのインピーダンスが局所的に低下し、下層のLiNbO $_3$ 導波路内の電界が増大します。
電気光学効果： 増大した電界は、リチウムナイオベートにおけるポッケルス効果を介して、局所的な屈折率の変化を誘起します。
プログラム可能性： デバイス上に任意の光パターンを投影することで、著者らは約 $10^4$ の空間自由度（ $9 \text{ mm} \times 1 \text{ mm}$ の領域に対し $9 \mu\text{m} \times 9 \mu\text{m}$ の解像度）にわたって屈折率分布を彫り込むことができます。システムは、全分布を3 Hzの速度で更新します。

学習および機械学習の実装

機械学習タスクを実行するために、デバイスは入力光学場を分類ラベルに対応する出力強度分布へと写像するように訓練されます。

エンコーディング： 入力データベクトルは、入力端面において空間ガウスモードへと振幅エンコードされます。
伝搬： 光は、屈折率プロファイルが学習可能な重みとして機能する、パレキシャル近似に基づく波の伝搬方程式（論文中の式1）に従って伝搬します。
読み出し： 出力強度は測定され、クラスラベルに対応する空間領域へとビン分割されます。
学習アルゴリズム： 著者らは、物理学を考慮した学習（physics-aware training）、すなわちハイブリッドなインサイチュ（in-situ）・インシリコ（in-silico）バックプロパゲーションアルゴリズムを採用しています。フォワードパスはデバイスによって物理的に実行され、バックワードパス（勾配計算）は、波の伝搬に関する微分可能なデジタルモデルを用いて計算されます。このモデルは、実験的な非理想性を考慮するためにデータ駆動型のパラメータで精緻化されており、膨大なパラメータ数にもかかわらず効率的な学習を可能にしています。

主な貢献

2Dプログラマブル導波路の実証： 著者らは、並列電気光学変調を介して任意の屈折率彫刻が可能な、約$10,000$のプログラム可能な空間自由度を持つデバイスの作製と動作に成功しました。
高次元ニューラルネットワーク推論： デバイスは、線形変換のデジタル的な事前処理や事後処理を行うことなく、最大49次元の入力ベクトル（MNIST手書き数字）および12次元（母音分類）のベンチマークタスクに対して、シングルパスでニューラルネットワーク推論を実行しました。
スケーリング分析： 本論文は、2Dプログラマブル導波路が、離散コンポーネント・アーキテクチャと比較して優れたデバイス長のスケーリング則を提供することを示唆する理論的および数値的な証拠を提示しています。従来の設計ではデバイス長が $N$ （または面積 $N^2$ ）に比例してスケールすることが多いのに対し、著者らは、マルチモード干渉においては、与えられた屈折率変調強度に対して必要な長さが $\sqrt{N}$ にスケールすると主張しています。

実験結果

母音分類： デバイスは、12次元のフォルマント周波数入力ベクトルから7つの音声母音を分類するように訓練されました。300エポック（約1時間）の後、システムは96%のテスト精度を達成しました。訓練された屈折率プロファイルは、一様な状態から、逆設計されたフォトニック構造に似た複雑なパターンへと進化しました。
MNIST手書き数字分類： デバイスは、ダウンサンプリングされた7×7のMNIST画像（49次元入力）を10クラスに分類するように訓練されました。10エポック（約10時間）の後、システムは86%のテスト精度を達成しました。この結果は、 $49 \times 10$ の行列を持つ単層デジタルニューラルネットワーク（同じダウンサンプリングされたタスクで90%を達成）に匹敵しており、複雑なマルチモード波の伝搬が、高次元の線形変換を効果的に実行できることを示しています。
デバイス性能： 最大屈折率変調は約 $\Delta n \approx 10^{-3}$ でした。デバイスは低い伝搬損失（< 1 dB/cm）を示し、アクティブ領域全体で1 mW未満の電気消費量で動作しました。

意義および主張

本論文は、この研究が現在の集積フォトニックニューラルネットワークの空間的およびスケーラビリティの限界を克服するための重要な一歩であることを主張しています。

空間効率： 離散的なコンポーネントを連続的なプログラム可能な基板に置き換えることで、デバイスはより空間効率の高いアーキテクチャを実現しています。著者らは、プロトタイプが、離散コンポーネントに基づく既報のどのオンチップ・光学ニューラルネットワークよりも大きな入力次元をサポートしていると述べています。
エネルギー効率のポテンシャル： 本研究は、光学的なMVMが電子的なMVMよりもエネルギー効率において優れる「ブレークイーブン・ポイント」（ $N \approx 1000$ と推定）への理論的な経路を強調しています。実証された $\sqrt{N}$ のデバイス長スケーリングは、2Dプログラマブル導波路が、この閾値を超える次元を持つ全光式行列ベクトル乗算器を可能にし、ハイブリッド・ニューラルネットワーク・アーキテクチャ（線形演算にはアナログ光学、非線形演算には電子技術を用いる）をエネルギー効率の面で競争力のあるものにする可能性を示唆しています。
再構成可能性： 固定された逆設計デバイスとは異なり、このデバイスは完全に再構成可能です。著者らは、この能力が機械学習を超えて、積分方程式の解決、組合せ最適化、そして連続体中の束縛状態やトポロジカル・フォトニクスの研究のための再構成可能なプラットフォームへと拡張できると考えています。

著者らは、現在のプロトタイプが、光が横方向に実質的に導かれずに伝搬する領域で動作していること、および現在の $\Delta n$ と更新速度が材料特性と光導電層の設計によって制約されていることを認め、現在の限界については控えめな姿勢を保っています。しかし、実証された任意のマルチモード制御の原理が、光学コンピューティングの新たな道を切り開くものであると確信しています。

Arbitrary control over multimode wave propagation for machine learning