巨大で離れた場所にある図書館で、特定の１冊の本を探している場面を想像してみてください。

旧来の手法（「間接参照の壁」）
現在のシステム（RDMAと呼ばれます）では、司書に本を持ってきてもらうよう即座に依頼できますが、一つ落とし穴があります。それは、事前に正確な棚番号を知っていなければならないということです。

もし棚番号を知らない場合、「本はどこですか？」と尋ねる必要があります。すると司書は棚へ行き、そこに置いてあるカードを読み、その棚番号をあなたに伝えます。その後、あなたは本を持ってくるよう再度依頼しなければなりません。もしそのカードが「別のカード」を指していたら、また再度依頼する必要があります。

問題点： 次の住所（アドレス）を確認するためにカードを読み取るたびに、司書が往復するのを待たなければなりません。もし本を見つけるために10枚のカードを順番に確認する必要があるなら、10回の往復を待つことになります。これを**「間接参照の壁（Indirection Wall）」**と呼びます。これは非常に遅く、図書館のスタッフ（コンピュータのCPU）は、この往復作業によって疲れ果ててしまいます。

新しい解決策：Tiara
この論文では、Tiaraという手法を紹介しています。これは、司書に対して、助けを求めたりメインオフィスに戻ったりすることなく、即座に実行できる**「賢い、プログラム可能なチェックリスト」**を与えるようなものです。

Tiaraの仕組みを、簡単な例えを使って説明します。

1. 「賢いチェックリスト」（命令セット）

司書が新しい住所を必要とするたびに、あなたが新しいリクエストを送る代わりに、たった一度のリクエストの中に、あらかじめ書かれたチェックリスト（オペレーター）を添えて送ります。

例え： 司書に次のようなメモを渡すと想像してください。「棚Aへ行き、そこにあるカードを読んでください。そのカードに書かれている番号が何であれ、その番号の棚へ行き、再びカードを読んでください。これを10回繰り返してください。最後に、私に本を持ってきてください。」
魔法の効果： 司書（ネットワークカード）は、これらすべてのステップを一度の往復で行います。最初のカードを読み、その情報を使ってすぐに次の場所を見つけ、次々と進んでいきます。彼らは次に何をすべきかを知るために、あなたからの指示を待つことはありません。

2. 「ローカルな脳」（NIC）

通常、ネットワークカードは単なる配送トラックであり、思考はしません。しかし、Tiaraはネットワークカードを、図書館の入り口にある**「小さな賢い脳」**へと変貌させます。

それは、計算や命令に従うことができる、非常に高速で特化したプロセッサ（専用のロボットのようなもの）を備えています。
考えるためにメインの図書館マネージャー（CPU）を起こす必要はありません。これにより、マネージャーのエネルギーと時間を節字できます。

3. 安全第一（静的検証）

「もしチェックリストが、司書に本を盗ませたり、壁に激突させたりする内容だったらどうしよう？」と心配になるかもしれません。

例え： 司書がチェックリストを使用することを許可される前に、厳格な検査官がその内容を一度だけチェックし、安全であることを確認します。検査官は、チェックリストが無限ループに陥らないか、また司書が立ち入り禁止エリアに入らないかを検証します。
一度合格すれば、司書は何度も（何百万回でも）そのチェックリストを実行できます。これにより、混乱を招くことなく、多くの異なる利用者（マルチテナント）と安全に図書館を共有できます。

Tiaraが実際に達成したこと（論文に基づく）

論文では、実機（FPGA：再プログラマブルなコンピュータチップの一種）を使用してテストを行い、従来の手法と比較しています。結果は以下の通りです。

グラフ探索（友人の友人を辿る）： もし10段階のつながり（例：「友人の、その友人の、そのまた友人は誰か……？」）を辿る必要がある場合、従来の方法では10回の往復が必要です。Tiaraはこれを1回の往復で完了しました。これにより2.85倍高速化されました。
ページテーブル（ファイルの場所を見つける）： コンピュータが仮想アドレスを実アドレスに変換する必要があるとき（例：電話帳で電話番号を調べるような作業）、Tiaraは時間を62%削減しました。
AI推論（LLM）： 「ページ化」されたメモリを使用する現代のAIモデル（vLLMなど）において、Tiaraは従来の手法と比較して、2.8倍多くのデータを毎秒処理することを可能にしました。
分散ロック（複数のコンピュータ間の調整）： 複数のコンピュータが単一の状態について合意する必要があるとき、競合が発生していない状況において、Tiaraはプロセスを2.9倍高速化しました。

まとめ

Tiaraは、「アドレスの内容を読み取らない限り、そのアドレスが見つからない」という問題を解決します。アドレスを見つけるための「考える」工程を、低速なネットワークの往復移動から、ネットワークカード上にある高速なローカル・ロボットへと移動させたのです。

Tiaraは、複雑な浮動小数点演算などの「あらゆること」をしようとしているのではありません。ただ、ネットワークが待機状態にならないよう、アドレスを解決するという特定の仕事を極めて高速に行うことに特化しています。これにより、停滞と再開を繰り返すプロセスが、スムーズで一定速度の走行へと変わるのです。

技術要約: Tiara — リモートメモリ・アクセスのためのプログラマブルなラインレートISA

1. 問題提起: 間接参照の壁 (The Indirection Wall)

本論文は、メモリ・ディスアグリゲーションおよびリモートメモリ・アクセス（RMA）システムにおける根本的な性能ボトルネックである、「間接参照の壁（Indirection Wall）」を特定している。片方向のRDMA動詞（verbs）は、CPUを介さずにリモートメモリにアクセスするための標準的なプリミティブであるが、これらはクライックがリクエスト時に正確なリモートアドレスを提示する必要がある。

多くの現代的なワークロードは、ローカルでターゲットアドレスを決定できない。代わりに、アドレスはリモートメモリ内に存在するデータから導出される必要がある。これは、以下のような**逐次依存的なネットワーク・ラウンドトリップ（RTT）**のパターンを生み出す：

ポインタ追跡 (Pointer Chasing): 次のノードのアドレスが現在のノードに格納されているグラフ探索や連結データ構造。
マルチレベル変換 (Multi-level Translation): $k$ レベルの間接参照を必要とするページテーブル・ウォーク、ストレージ間接層、およびブロックテーブル・ルックアップ（例：vLLMのPagedAttention）。
条件付きマルチホスト協調 (Conditional Multi-Host Coordination): 分散ロックやログ複製において、アトミック操作に続く条件付き伝播が必要となるケース。

これらのシナリオでは、レイテンシは間接参照の深さに比例してスケールする（ $Depth \times RTT$ ）。既存のソリューションは、これを効率的に解決できていない：

NIC上でのRDMA動詞のチェイニング (例: RedN): 1 RTTで間接参照を解決できるが、ドッブラー（doorbell）の順序付けや、リクエストごとに発生するPCIeフェッチにより、スループットが著しく制限される。
CPUベースのRPC: 1 RTTでアドレスを解決できるが、メモリノード側の貴重なCPUサイクルを消費する（これらのノードはCXLプールのようにCPUを全く持たない場合がある）ほか、ディスパッチ・オーバーヘッドも発生する。
オフパスSmartNIC (例: BlueField): SmartNICのARMコアによるホストメモリへの内部RDMAアクセスがネットワークRTTと同等、あるいはそれよりも遅くなることが多いため、レイテンシのペナルティを導入することが多い。

2. 手法: Tiara アーキテクチャ

著者らは、メモリ側のネットワーク・インターフェース・カード（NIC）上で直接実行されるように設計された、コンパクトで静的に検証可能な命令セットアーキテクチャ（ISA）であるTiaraを提案している。

コア設計原則

ハードウェアネイティブな実行: Tiaraオペレータは、NICファブリックに組み込まれた軽量なメモリプロセッサ（MP）上で実行されるため、汎用コアのようなソフトウェア・ディスパッチ・オーバーヘッドを回避できる。
レジスタ・チェインド・ロード (Register-Chained Loads): コアメカニズムとして、Load命令が値をレジスタに書き込み、その値が同じサイクル内で次のLoadの型アドレスオペランドとして即座に使用される仕組みを持つ。これにより、マルチRTTのポインタ追跡を、単一のネットワーク・ラウンドトリップ内での一連のローカルメモリ・アクセス（PCIe DMA経由）へと集約（collapse）させる。
統一アドレス指定 (Unified Addressing): アドレスは (host_id, region_id, offset) のタプルとして表現され、単一の Memcpy 命令でローカルメモリとリモートメモリの両方の操作をシームレスに扱うことができる。
非同期操作: Memcpy 命令は非同期に実行される。Wait 命令は操作を同期させ、クォーラム型の協調（例： $N-1$ 個のレプリカを待機する）やパイプライン化（アドレス解決を行いながらデータ転送を発行する）を可能にする。

命令セット

ISAは最小限であり、以下のものを含む間接参照パターンを表現するのに十分である：

Load/Store: レジスタとメモリ間のアクセス。
Memcpy: 統一アドレス指定を用いたバルク転送。
CAS/CAA: アトミックなCompare-and-SwapおよびCompare-and-Add。
制御フロー: 前方のみの Jump、有界な Loop(M, N)、および Wait。
演算: アドレス計算のための整数演算。

安全性と検証

重要な差別化要因は、登録時に行われる静的検証プロセス（カーネルにおけるeBPFに類似）である：

終了保証: コンパイラはすべてのループが有界であり、ジャンプが前方のみであることを保証し、実行ステップの静的に計算可能な上限を提供する。
メモリ隔離: 検証器は、すべてのメモリ・アクセスがサーバーによって設定された領域内に収まっていることをチェックし、テナントが不正なメモリにアクセスすることを防ぐ（実行時のチェックなしで実現）。
汎用計算の排除: Tiaraは、低レイテンシとハードウェアの単純性を維持するために、アドレス解決と最小限の協調に特化しており、汎用的な計算は避けている。

実装

著者らは、AMD Alveo U50 FPGA上にTiaraを実装した。アーキテクチャは以下で構成される：

8つのメモリプロセッサ (MP): 各MPは16個のレジスタファイル、整数ALU、およびBRAM命令ストアを備える。
タスク・ディスパッチャ: 入力されるRDMAリクエストを、オペレータIDに基づいてMPへルーティングする。
性能: 各MPの占有面積は約2.95 K LUTsであり、ラインレートでの複製が可能である。システムは200 MHzで動作し、PCIe DMAレイテンシは約0.75 $\mu$ sであり、これはオフロードが有益となるネットワークRTTのクロスオーバーポイントを十分に下回っている。

3. 主な貢献

Tiara ISA: 間接参照をハードウェアネイティブなサブマイクロ秒のパスへと集約する、最小限かつ静的に検証可能なNIC側ISA。これは、ソフトウェア・ディスパッチ型のコアでは到達不可能な性能を実現する。
ハードウェア/ISAの協設計 (Co-design): 登録時に検証される制限されたISAを用いることで、実行時のガードなしに、安全なマルチテナント共有を実現しながらラインレートのスループットを維持できることを示す。
FPGAプロトタイプと評価: Alveo U50を用いた実装により、5つの多様なワークロードにおいて評価を行い、片方向RDMA、CPUベースのRPC、および既存のNICオフロード手法に対する大幅な改善を実証した。

4. 実験結果

評価では、Tiaraを片方向RDMA、CPUベースのRPC、RedN、およびPRISMと比較している：

グラフ探索 (10ホップ): Tiaraは、片方向RDMAと比較してレイテンシを 2.85倍 削減（8.78 $\mu$ s 対 25.0 $\mu$ s）し、深度3において 3.4倍 高いスループットを達成した。
ページテーブル・ウォーク (3レベル): すべてのレベルを単一のRTTで解決することにより、Tiaraはレイテンシを 62% 削減（3.75 $\mu$ s 対 10.0 $\mu$ s）した。
分散ロック: Tiaraは、非競合時のレイテンシを 2.9倍 削減（5 RTTを2 RTTに集約）。競合時（16クライアント）においても、RPCやRedNと比較して優れたスループットを維持した。
分散PagedAttention: ブロックサイズが8 KBの場合、Tiaraはアドレス解決をデータ転送とパイプライン化することで、最適にバッチ化されたRDMAよりも 2.78倍 高いスループットを達成した。
MoEエキスパート・ギャザー (Expert Gather): 32個のエキスパートにおいて、TiaraはRDMAと比較してレイテンシを 1.88倍 削減した。

5. 意義と主張

本論文は、Tiaraが「キラー・マイクロ秒」と呼ばれる、ハードウェアのレイテンシがソフトウェアの最適化を支配する領域に対処していると主張している。メモリ側のNICへ間接参照の解決を移動させることで、Tiaraは以下を可能にする：

単一RTTでの解決: 依存関係のあるマルチホップの連鎖を、単一のネットワーク・ラウンドトリップへと集約する。
CPUからの独立: 一般的なCPUを持たない環境（例：CXLメモリ・プール）におけるメモリ・ディスアグリゲーションを可能にする。
スケーラビリティ: ソフトウェアベースのアプローチではディスパッチ・オーバーヘッドのために達成できない高いスループット（例：グラフ探索における29.5 Mops）を実現する。

著者らは、Tiaraを汎用的なコンピューティング・プラットフォームとしてではなく、ディスアグリゲート・システムにおけるデータ依存的なアドレス解決という特定のボトルネックに対するターゲット・ソリューションとして位置づけている。また、静的検証を維持したまま浮動小数点演算のワークロードへISAを拡張することは、今後の課題であるとしている。

Tiara: A Programmable Line-Rate ISA for Remote Memory Access