ChatNeuroSim: An LLM Agent Framework for Automated Compute-in-Memory Accelerator Deployment and Optimization

本論文は、計算内蔵メモリ(CIM)アクセラレータの設計空間探索を自動化し、大規模言語モデル(LLM)エージェントと設計空間剪定技術を用いてシミュレーションから最適化までのワークフローを効率化し、DNN ワークロードに対する最適構成の迅速な特定を可能にする「ChatNeuroSim」というフレームワークを提案するものである。

Ming-Yen Lee, Shimeng YuWed, 11 Ma💻 cs

bsort: A theoretically efficient non-comparison-based sorting algorithm for integer and floating-point numbers

この論文は、整数および浮動小数点数に対して、バイナリクイックソートに由来する手法を統合し、要素の語長 ww に対して O(wn)O(wn) の実行時間と O(w)O(w) の補助空間で動作する「bsort」という非比較ソートアルゴリズムを提案し、特に語長が小さいデータ型において既存の高度に最適化されたハイブリッドアルゴリズムと競合する性能を示すことを述べています。

Benjamín GuzmánWed, 11 Ma💻 cs

The qsqs Inequality: Quantifying the Double Penalty of Mixture-of-Experts at Inference

本論文は、混合専門家(MoE)モデルが推論時に「重みの再利用断片化」と「KV キャッシュのメモリ制約」という二重のペナルティに直面し、長文脈環境では密度モデルよりもスループットが劣ることを「qsqs 不等式」で定式化し、MoE の推論効率の限界を指摘しています。

Vignesh Adhinarayanan, Nuwan JayasenaWed, 11 Ma🤖 cs.LG

Two Teachers Better Than One: Hardware-Physics Co-Guided Distributed Scientific Machine Learning

本論文は、広域センシングやリアルタイム処理における通信コストと物理法則の矛盾を解決するため、エッジデバイスでの軽量エンコーディングと物理意識デコーディングを組み合わせ、FWI タスクにおいて通信遅延を 8.9 倍、エネルギー消費を 33.8 倍削減しつつ、多くのケースで再構成精度を向上させる分散 SciML フレームワーク「EPIC」を提案するものである。

Yuchen Yuan, Junhuan Yang, Hao Wan, Yipei Liu, Hanhan Wu, Youzuo Lin, Lei YangWed, 11 Ma🤖 cs.LG

Wrong Code, Right Structure: Learning Netlist Representations from Imperfect LLM-Generated RTL

本論文は、機能的に不完全でも構造的なパターンが機能意図を反映する LLM 生成 RTL を活用して合成ネットリストの表現学習を行う新たなフレームワークを提案し、実世界の回路設計におけるデータ不足というボトルネックを解消することを示しています。

Siyang Cai, Cangyuan Li, Yinhe Han, Ying WangWed, 11 Ma🤖 cs.AI

DendroNN: Dendrocentric Neural Networks for Energy-Efficient Classification of Event-Based Data

本論文は、脳の樹状突起のスパイク配列検出メカニズムを模倣し、勾配なしの再配線学習と非同期デジタルハードウェア・アーキテクチャを組み合わせることで、イベントベースの時系列データ分類において既存のニューロモルフィックハードウェアよりも最大4倍のエネルギー効率を実現する「DendroNN」という新たなニューラルネットワークを提案しています。

Jann Krausse, Zhe Su, Kyrus Mama, Maryada, Klaus Knobloch, Giacomo Indiveri, Jürgen BeckerWed, 11 Ma🤖 cs.AI

TrainDeeploy: Hardware-Accelerated Parameter-Efficient Fine-Tuning of Small Transformer Models at the Extreme Edge

本論文は、極限エッジデバイスにおけるリソース制約を克服し、CNN とトランスフォーマー両モデルの効率的なオンデバイス微調整を実現するハードウェア加速フレームワーク「TrainDeeploy」を提案し、RISC-V 基盤 SoC 上での実証を通じて LoRA などのパラメータ効率化手法によるメモリ使用量削減と高速処理を立証したものである。

Run Wang, Victor J. B. Jung, Philip Wiese, Francesco Conti, Alessio Burrello, Luca BeniniWed, 11 Ma🤖 cs.LG

Nemo: A Low-Write-Amplification Cache for Tiny Objects on Log-Structured Flash Devices

本論文は、ログ構造型フラッシュデバイスにおける微小オブジェクトワークロードの書き込み増幅を低減し、かつ高いメモリ効率と低いミス率を両立させるため、ハッシュ衝突を意図的に増加させてセット充填率を向上させる「Nemo」と呼ばれる新しいキャッシュ設計を提案するものである。

Xufeng Yang, Tingting Tan, Jingxin Hu, Congming Gao, Mingyang Liu, Tianyang Jiang, Jian Chen, Linbo Long, Yina Lv, Jiwu ShuWed, 11 Ma💻 cs

HaLoRA: Hardware-aware Low-Rank Adaptation for Large Language Models Based on Hybrid Compute-in-Memory Architecture

本論文は、RRAM のノイズ耐性を備えたハイブリッド CIM アーキテクチャ上で大規模言語モデルを効率的にファインチューニングし、A100 GPU と比較してエネルギー消費を約 3% に削減しつつ精度を維持する「HaLoRA」という手法を提案し、Qwen や LLaMA 系列のモデルを用いた実験で平均スコアを最大 22.7 向上させたことを示しています。

Taiqiang Wu, Chenchen Ding, Wenyong Zhou, Yuxin Cheng, Xincheng Feng, Shuqi Wang, Wendong Xu, Chufan Shi, Zhengwu Liu, Ngai WongTue, 10 Ma💬 cs.CL

HDLxGraph: Bridging Large Language Models and HDL Repositories via HDL Graph Databases

本論文は、従来の RAG が抱える構造的・語彙的なミスマッチを解決するため、抽象構文木とデータフローグラフを統合した新しいフレームワーク「HDLxGraph」と、大規模な HDL プロジェクトから生成された評価データセット「HDLSearch」を提案し、HDL 関連タスクにおける検索・デバッグ・補完の精度を大幅に向上させることを示しています。

Pingqing Zheng (Katie), Jiayin Qin (Katie), Fuqi Zhang (Katie), Niraj Chitla (Katie), Zishen Wan (Katie), Shang Wu (Katie), Yu Cao (Katie), Caiwen Ding (Katie), Yang (Katie), ZhaoTue, 10 Ma🤖 cs.LG

Optimized Many-Hypercube Codes toward Lower Logical Error Rates and Earlier Realization

本論文は、早期の実験的実現と低い論理誤り率の達成を目指し、高率量子誤り訂正符号である「多ハイパーキューブ符号」の小型化と効率的なフォールトトレラントエンコーダの設計を提案し、意外にも符号サイズが大きい構成の方が論理誤り率が低くなるという逆説的な事実や、回路レベルノイズモデルにおける高性能な制御NOTゲートの実現を明らかにしたものである。

Hayato GotoTue, 10 Ma⚛️ quant-ph

Continuous-Flow Data-Rate-Aware CNN Inference on FPGA

この論文は、畳み込みニューラルネットワーク(CNN)のプーリング層やストライドが 1 より大きい層におけるデータ量減少によるハードウェア利用率の低下を解消し、信号のインターリーブやハードウェアユニットの共有、適切な並列化によって MobileNet などの複雑な CNN を単一の FPGA 上で高スループットかつ高効率に推論できる、データレートに配慮した連続フロー型アーキテクチャを提案するものである。

Tobias Habermann, Michael Mecik, Zhenyu Wang, César David Vera, Martin Kumm, Mario GarridoTue, 10 Ma🤖 cs.LG

Orion: Characterizing and Programming Apple's Neural Engine for LLM Training and Inference

この論文は、Apple の Neural Engine に対する非公式 API を活用し、コンパイル時の重み更新を回避する最適化技術を実装することで、大規模言語モデルのトレーニングと推論を可能にした初のオープンエンドツーエンドシステム「Orion」を提案し、M4 Max 上で安定したトレーニングと高速な推論を実現したことを報告しています。

Ramchand KumaresanTue, 10 Ma🤖 cs.LG

Space-Control: Process-Level Isolation for Sharing CXL-based Disaggregated Memory

本論文は、CXL によるメモリ分散化環境においてプロセスレベルの隔離を実現し、セキュリティギャップを解消するハードウェア・ソフトウェア協調設計「Space-Control」を提案し、その実装が 3.3% の最小限のオーバーヘッドで高い性能を維持することを示しています。

Kaustav Goswami, Sean Peisert, Venkatesh Akella, Jason Lowe-PowerTue, 10 Ma💻 cs

Mozart: Modularized and Efficient MoE Training on 3.5D Wafer-Scale Chiplet Architectures

この論文は、モジュール化された計算と疎性を活用して大規模言語モデルの訓練効率を向上させるため、脳のアナロジーに基づき、3.5D ウエハスケールチップレットアーキテクチャ向けにアルゴリズムとハードウェアを共設計した新しいフレームワーク「Mozart」を提案し、通信オーバーヘッドの削減やリソース利用率の向上を実現したことを述べています。

Shuqing Luo (Katie), Ye Han (Katie), Pingzhi Li (Katie), Jiayin Qin (Katie), Jie Peng (Katie), Yang (Katie), Zhao (Kevin), Yu (Kevin), Cao, Tianlong ChenTue, 10 Ma💻 cs

Explainable and Hardware-Efficient Jamming Detection for 5G Networks Using the Convolutional Tsetlin Machine

本論文は、5G 網におけるリアルタイムかつリソース制約のある環境でのジャミング検出を実現するため、FPGA 展開に適した軽量で解釈可能な畳み込みツェトリン機械(CTM)を提案し、実 5G テストベッドを用いた実験により、従来の CNN に匹敵する検出精度を達成しつつ、トレーニング速度の大幅な向上とメモリ使用量の劇的な削減を実現したことを示しています。

Vojtech Halenka, Mohammadreza Amini, Per-Arne Andersen, Ole-Christoffer Granmo, Burak KantarciTue, 10 Ma🤖 cs.LG

Accelerating Diffusion Models for Generative AI Applications with Silicon Photonics

この論文は、拡散モデルの推論における高いエネルギー消費と計算負荷という課題に対し、シリコンフォトニクス技術を用いた新しいアクセラレータを提案し、最先端の加速器と比較して少なくとも 3 倍のエネルギー効率と 5.5 倍のスループット向上を実現したことを報告しています。

Tharini Suresh, Salma Afifi, Sudeep PasrichaTue, 10 Ma🤖 cs.LG

Mitigating the Memory Bottleneck with Machine Learning-Driven and Data-Aware Microarchitectural Techniques

本論文は、アプリケーションやシステムデータを活用した機械学習駆動およびデータ認識型のマイクロアーキテクチャ手法(強化学習に基づくデータプリフェッチや意味的特性の活用など)を提案し、従来のデータ非依存な設計の限界を克服することで、メモリボトルネックを緩和しパフォーマンスとエネルギー効率を大幅に向上させることを示しています。

Rahul BeraTue, 10 Ma🤖 cs.LG