Tiara: A Programmable Line-Rate ISA for Remote Memory Access
Tiaraは、メモリサイドNIC上で実行されるプログラマブルかつラインレートの命令セットアーキテクチャであり、リモートメモリのインダイレクションをローカルに解決することで、グラフ探索、ページテーブルウォーク、分散型LLM推論といったワークロードにおけるマルチラウンドトリップの依存関係を単一のラウンドトリップへと集約し、レイテンシを大幅に削減してスループットを向上させます。
460 件の論文
このページでは、化学記号「Cs」から「Ar」までで始まる元素に関連する最先端の研究を扱っています。セシウムやアルゴンなど、これらの元素はエネルギー変換や大気科学、量子技術の分野で重要な役割を果たしており、日常の技術革新の背後に隠れた鍵となっています。
Gist.Science では、arXiv に投稿されるこの分野のすべての新規プレプリントを監視し、専門的な内容を誰でも理解できるよう要約しています。難解な数式や用語を避けた平易な解説と、研究者向けの詳細な技術的サマリーの両方を提供することで、科学の民主化を目指しています。
以下に、arXiv から収集した最新の論文リストを掲載します。ぜひ、これらの研究成果がどのように社会に応用されているかをご覧ください。
Tiaraは、メモリサイドNIC上で実行されるプログラマブルかつラインレートの命令セットアーキテクチャであり、リモートメモリのインダイレクションをローカルに解決することで、グラフ探索、ページテーブルウォーク、分散型LLM推論といったワークロードにおけるマルチラウンドトリップの依存関係を単一のラウンドトリップへと集約し、レイテンシを大幅に削減してスループットを向上させます。
本論文は、大規模なメモリ特性評価ラボにおけるDRAM Benderインフラストラクチャの更新を提示するものであり、現代のコンピューティングシステムにおける決定的なメモリボトルネックを研究コミュニティが克服することを支援するために、その汎用性、インターフェースサポート、およびスケーラビリティを向上させている。
本論文は、Ramulator 2.0のモデリング精度に関するMICRO 2024のランナーアップ論文における否定的な主張に対し、それらの相違は設定および使用上の誤りに起因するものであることを示すことで反論すると同時に、研究者とシミュレータ開発者間のコミュニケーションの改善を提唱し、将来のメモリシステム・ベンチマーキングのためのベストプラクティスを確立するものである。
本論文は、浮動小数点および整数パイプラインを統合することで高いスループット、エネルギー効率、および数値精度を実現し、既存のオープンソース実装を速度と面積コストの両面で大幅に凌駕する、RISC-VベースのGPGPU向けに設計された、オープンソースで構成可能な混合精度融合ドット積演算ユニットであるTen-Fourを紹介する。
本論文は、簡潔なGPUエミュレーションと注釈付きのタイミングプロファイルを用いることで、分散型AIワークロードにおけるインターGPU通信トラフィックの詳細かつサイクル精度の高いモデリングを可能にし、同期挙動の分析およびネットワーク性能の最適化を実現する、gem5シミュレータの拡張機能であるEidolaを提案する。
本論文は、パラメータの量子化と電極数の削減を適切に適用することで、精度への影響を最小限に抑えつつ計算量を大幅に削減できることを実証することにより、リソース制約のあるウェアラブルデバイス上でのEEGベースのてんかん発作検出に向けたディープラーニングモデルの展開の実現可能性を調査するものである。
本論文は、量子由来の確率的p量子ビットと高密度なHyperionインターコネクトを利用することで、極低温冷却やマイクロ波制御を必要とすることなく、複雑な最適化ベンチマークにおいて極低温量子アニーラーを凌駕する、室温動作かつ産業規模でのスケーラビリティを備えたニューロモーフィックプロセッサであるApolloを紹介するものである。
SPEARは、戦略的に特定された感度の高い層に軽量で入力適応的な誤差補償器を配置することにより、低ビットLLMのサービングを強化するシステムであり、特殊なカーネル融合とスケジューリングを通じて、最小限のメモリオーバーヘッドと安定したレイテンシを維持しながら、量子化に起因する品質のギャップの大部分を効果的に回復させる。
本論文は、半導体製造において、生成AIモデルは事後的なフィルタリングに依存するのではなく、構築の段階で物理的な制約を厳格に強制しなければならないと主張し、物理的に妥当な設計およびプロセス最適化を実現するために、物理情報を組み込んだアーキテクチャとシミュレーション・インフラストラクチャを統合するためのアーキテクチャ・ツールキットおよび研究課題を概説するものである。
本論文は、AMD XDNA2 NPU向けの、アンパッキング、デクオンタイズ、および行列演算を融合させることで、普及しているAWQスタイルの量子化LLM推論に対する効率的なネイティブサポートを可能にし、クライアントエッジデバイス上の既存のベースラインに対して大幅なパフォーマンス向上とエネルギー効率の向上を実現する、ハードウェアに近い(close-to-metal)混合精度カーネルライブラリであるTileFuseを導入するものである。