Tiara: A Programmable Line-Rate ISA for Remote Memory Access

Tiaraは、メモリサイドNIC上で実行されるプログラマブルかつラインレートの命令セットアーキテクチャであり、リモートメモリのインダイレクションをローカルに解決することで、グラフ探索、ページテーブルウォーク、分散型LLM推論といったワークロードにおけるマルチラウンドトリップの依存関係を単一のラウンドトリップへと集約し、レイテンシを大幅に削減してスループットを向上させます。

原著者: Bojie Li

公開日 2026-06-15
📖 1 分で読めます☕ さくっと読める

原著者: Bojie Li

原論文は CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) でライセンスされています。 これは以下の論文のAI生成解説です。著者が執筆または承認したものではありません。技術的な正確性については原論文を参照してください。 免責事項の全文を読む

巨大で離れた場所にある図書館で、特定の1冊の本を探している場面を想像してみてください。

旧来の手法(「間接参照の壁」)
現在のシステム(RDMAと呼ばれます)では、司書に本を持ってきてもらうよう即座に依頼できますが、一つ落とし穴があります。それは、事前に正確な棚番号を知っていなければならないということです。

もし棚番号を知らない場合、「本はどこですか?」と尋ねる必要があります。すると司書は棚へ行き、そこに置いてあるカードを読み、その棚番号をあなたに伝えます。その後、あなたは本を持ってくるよう再度依頼しなければなりません。もしそのカードが「別のカード」を指していたら、また再度依頼する必要があります。

  • 問題点: 次の住所(アドレス)を確認するためにカードを読み取るたびに、司書が往復するのを待たなければなりません。もし本を見つけるために10枚のカードを順番に確認する必要があるなら、10回の往復を待つことになります。これを**「間接参照の壁(Indirection Wall)」**と呼びます。これは非常に遅く、図書館のスタッフ(コンピュータのCPU)は、この往復作業によって疲れ果ててしまいます。

新しい解決策:Tiara
この論文では、Tiaraという手法を紹介しています。これは、司書に対して、助けを求めたりメインオフィスに戻ったりすることなく、即座に実行できる**「賢い、プログラム可能なチェックリスト」**を与えるようなものです。

Tiaraの仕組みを、簡単な例えを使って説明します。

1. 「賢いチェックリスト」(命令セット)

司書が新しい住所を必要とするたびに、あなたが新しいリクエストを送る代わりに、たった一度のリクエストの中に、あらかじめ書かれたチェックリスト(オペレーター)を添えて送ります。

  • 例え: 司書に次のようなメモを渡すと想像してください。「棚Aへ行き、そこにあるカードを読んでください。そのカードに書かれている番号が何であれ、その番号の棚へ行き、再びカードを読んでください。これを10回繰り返してください。最後に、私に本を持ってきてください。」
  • 魔法の効果: 司書(ネットワークカード)は、これらすべてのステップを一度の往復で行います。最初のカードを読み、その情報を使ってすぐに次の場所を見つけ、次々と進んでいきます。彼らは次に何をすべきかを知るために、あなたからの指示を待つことはありません。

2. 「ローカルな脳」(NIC)

通常、ネットワークカードは単なる配送トラックであり、思考はしません。しかし、Tiaraはネットワークカードを、図書館の入り口にある**「小さな賢い脳」**へと変貌させます。

  • それは、計算や命令に従うことができる、非常に高速で特化したプロセッサ(専用のロボットのようなもの)を備えています。
  • 考えるためにメインの図書館マネージャー(CPU)を起こす必要はありません。これにより、マネージャーのエネルギーと時間を節字できます。

3. 安全第一(静的検証)

「もしチェックリストが、司書に本を盗ませたり、壁に激突させたりする内容だったらどうしよう?」と心配になるかもしれません。

  • 例え: 司書がチェックリストを使用することを許可される前に、厳格な検査官がその内容を一度だけチェックし、安全であることを確認します。検査官は、チェックリストが無限ループに陥らないか、また司書が立ち入り禁止エリアに入らないかを検証します。
  • 一度合格すれば、司書は何度も(何百万回でも)そのチェックリストを実行できます。これにより、混乱を招くことなく、多くの異なる利用者(マルチテナント)と安全に図書館を共有できます。

Tiaraが実際に達成したこと(論文に基づく)

論文では、実機(FPGA:再プログラマブルなコンピュータチップの一種)を使用してテストを行い、従来の手法と比較しています。結果は以下の通りです。

  • グラフ探索(友人の友人を辿る): もし10段階のつながり(例:「友人の、その友人の、そのまた友人は誰か……?」)を辿る必要がある場合、従来の方法では10回の往復が必要です。Tiaraはこれを1回の往復で完了しました。これにより2.85倍高速化されました。
  • ページテーブル(ファイルの場所を見つける): コンピュータが仮想アドレスを実アドレスに変換する必要があるとき(例:電話帳で電話番号を調べるような作業)、Tiaraは時間を62%削減しました。
  • AI推論(LLM): 「ページ化」されたメモリを使用する現代のAIモデル(vLLMなど)において、Tiaraは従来の手法と比較して、2.8倍多くのデータを毎秒処理することを可能にしました。
  • 分散ロック(複数のコンピュータ間の調整): 複数のコンピュータが単一の状態について合意する必要があるとき、競合が発生していない状況において、Tiaraはプロセスを2.9倍高速化しました。

まとめ

Tiaraは、「アドレスの内容を読み取らない限り、そのアドレスが見つからない」という問題を解決します。アドレスを見つけるための「考える」工程を、低速なネットワークの往復移動から、ネットワークカード上にある高速なローカル・ロボットへと移動させたのです。

Tiaraは、複雑な浮動小数点演算などの「あらゆること」をしようとしているのではありません。ただ、ネットワークが待機状態にならないよう、アドレスを解決するという特定の仕事を極めて高速に行うことに特化しています。これにより、停滞と再開を繰り返すプロセスが、スムーズで一定速度の走行へと変わるのです。

自分の分野の論文に埋もれていませんか?

研究キーワードに一致する最新の論文のダイジェストを毎日受け取りましょう——技術要約付き、あなたの言語で。

Digest を試す →