GOMA: Geometrically Optimal Mapping via Analytical Modeling for Spatial Accelerators

Die Arbeit stellt GOMA vor, ein neuartiges Framework zur analytischen Modellierung und geometrischen Abstraktion, das die globale Optimalität bei der Zuordnung von GEMM-Workloads auf räumliche Beschleuniger garantiert und dabei im Vergleich zu aktuellen State-of-the-Art-Lösungen sowohl die Energie-Latenz-Produkte als auch die Suchzeit drastisch verbessert.

Wulve Yang, Hailong Zou, Rui Zhou, Jionghao Zhang, Qiang Li, Gang Li, Yi Zhan, Shushan QiaoTue, 10 Ma💻 cs

Why Learn What Physics Already Knows? Realizing Agile mmWave-based Human Pose Estimation via Physics-Guided Preprocessing

Diese Arbeit stellt einen physikbasierten Ansatz zur Vorverarbeitung von mmWave-Daten für die menschliche Pose-Schätzung vor, der durch die explizite Modellierung physikalischer Korrelationen und Kinematik im Vergleich zu datengetriebenen Baselines die Parameteranzahl drastisch reduziert und eine Echtzeit-Implementierung auf ressourcenbeschränkter Hardware ermöglicht.

Shuntian Zheng, Jiaqi Li, Minzhe Ni, Xiaoman Lu, Yu GuanTue, 10 Ma💻 cs

Machine Learning on Heterogeneous, Edge, and Quantum Hardware for Particle Physics (ML-HEQUPP)

Dieses Whitepaper präsentiert eine gemeinschaftlich erarbeitete Vision, die Forschungs- und Entwicklungsmöglichkeiten für hardwarebasierte maschinelle Lernsysteme und deren physikalische Anwendungen priorisiert, um die Herausforderungen der nächsten Generation von Teilchenphysik-Experimenten im Hinblick auf extreme Datenraten und Umgebungen zu bewältigen.

Julia Gonski (Sunny), Jenni Ott (Sunny), Shiva Abbaszadeh (Sunny), Sagar Addepalli (Sunny), Matteo Cremonesi (Sunny), Jennet Dickinson (Sunny), Giuseppe Di Guglielmo (Sunny), Erdem Yigit Ertorer (Sunny), Lindsey Gray (Sunny), Ryan Herbst (Sunny), Christian Herwig (Sunny), Tae Min Hong (Sunny), Benedikt Maier (Sunny), Maryam Bayat Makou (Sunny), David Miller (Sunny), Mark S. Neubauer (Sunny), Cristián Peña (Sunny), Dylan Rankin (Sunny), Seon-Hee (Sunny), Seo, Giordon Stark, Alexander Tapper, Audrey Corbeil Therrien, Ioannis Xiotidis, Keisuke Yoshihara, G Abarajithan, Sagar Addepalli, Nural Akchurin, Carlos Argüelles, Saptaparna Bhattacharya, Lorenzo Borella, Christian Boutan, Tom Braine, James Brau, Martin Breidenbach, Antonio Chahine, Talal Ahmed Chowdhury, Yuan-Tang Chou, Seokju Chung, Alberto Coppi, Mariarosaria D'Alfonso, Abhilasha Dave, Chance Desmet, Angela Di Fulvio, Karri DiPetrillo, Javier Duarte, Auralee Edelen, Jan Eysermans, Yongbin Feng, Emmett Forrestel, Dolores Garcia, Loredana Gastaldo, Julián García Pardiñas, Lino Gerlach, Loukas Gouskos, Katya Govorkova, Carl Grace, Christopher Grant, Philip Harris, Ciaran Hasnip, Timon Heim, Abraham Holtermann, Tae Min Hong, Gian Michele Innocenti, Koji Ishidoshiro, Miaochen Jin, Jyothisraj Johnson, Stephen Jones, Andreas Jung, Georgia Karagiorgi, Ryan Kastner, Nicholas Kamp, Doojin Kim, Kyoungchul Kong, Katie Kudela, Jelena Lalic, Bo-Cheng Lai, Yun-Tsung Lai, Tommy Lam, Jeffrey Lazar, Aobo Li, Zepeng Li, Haoyun Liu, Vladimir Lončar, Luca Macchiarulo, Christopher Madrid, Benedikt Maier, Zhenghua Ma, Prashansa Mukim, Mark S. Neubauer, Victoria Nguyen, Sungbin Oh, Isobel Ojalvo, Hideyoshi Ozaki, Simone Pagan Griso, Myeonghun Park, Christoph Paus, Santosh Parajuli, Benjamin Parpillon, Sara Pozzi, Ema Puljak, Benjamin Ramhorst, Amy Roberts, Larry Ruckman, Kate Scholberg, Sebastian Schmitt, Noah Singer, Eluned Anne Smith, Alexandre Sousa, Michael Spannowsky, Sioni Summers, Yanwen Sun, Daniel Tapia Takaki, Antonino Tumeo, Caterina Vernieri, Belina von Krosigk, Yash Vora, Linyan Wan, Michael H. L. S. Wang, Amanda Weinstein, Andy White, Simon Williams, Felix YuThu, 12 Ma⚛️ hep-ex

Architecture-Aware LLM Inference Optimization on AMD Instinct GPUs: A Comprehensive Benchmark and Deployment Study

Diese Studie präsentiert eine umfassende Benchmark- und Deployment-Analyse der LLM-Inferenz auf AMD Instinct MI325X-GPUs, die zeigt, dass architekturspezifische Optimierungen wie die selektive Nutzung des AITER-Runtimes und angepasste Blockgrößen entscheidend für die Leistung sind, während alle getesteten Modelle bei hohen Parallelitätsgraden an eine Speicherbandbreitenbegrenzung stoßen, aber dennoch eine hohe Zuverlässigkeit aufweisen.

Athos GeorgiouThu, 12 Ma🤖 cs.AI

Pooling Engram Conditional Memory in Large Language Models using CXL

Die vorgestellte Arbeit schlägt vor, Engramm-basierte konditionelle Gedächtnisstrukturen für Large Language Models über einen CXL-Memory-Pool auszulagern, um durch feingranularen Zugriff und Prefetching eine skalierbare, kosteneffiziente Lösung zu bieten, die die Inferenzleistung im Vergleich zu DRAM kaum beeinträchtigt.

Ruiyang Ma, Teng Ma, Zhiyuan Su, Hantian Zha, Xinpeng Zhao, Xuchun Shang, Xingrui Yi, Zheng Liu, Zhu Cao, An Wu, Zhichong Dou, Ziqian Liu, Daikang Kuang, Guojie LuoThu, 12 Ma💻 cs

In-Memory ADC-Based Nonlinear Activation Quantization for Efficient In-Memory Computing

Diese Arbeit stellt die Boundary Suppressed K-Means Quantisierung (BS-KMQ) vor, eine neuartige nichtlineare Quantisierungsmethode, die durch Unterdrückung von Randausreißern die Auflösung von Analog-Digital-Wandlern in In-Memory-Computing-Systemen reduziert und damit im Vergleich zu bestehenden Methoden eine signifikant höhere Energieeffizienz, Geschwindigkeit und Genauigkeit bei der Post-Training-Quantisierung erreicht.

Shuai Dong, Junyi Yang, Biyan Zhou, Hongyang Shang, Gourav Datta, Arindam BasuThu, 12 Ma💻 cs

An FPGA Implementation of Displacement Vector Search for Intra Pattern Copy in JPEG XS

Diese Arbeit stellt eine effiziente, pipelinierte FPGA-Architektur für die Verschiebungsvektorsuche im Intra-Pattern-Copy-Modul von JPEG XS vor, die durch optimierte Speicherorganisation eine hohe Durchsatzrate von 38,3 Megapixeln pro Sekunde bei geringem Energieverbrauch erreicht und somit die praktische Hardware-Implementierung ermöglicht.

Qiyue Chen, Yao Li, Jie Tao, Song Chen, Li Li, Dong LiuThu, 12 Ma⚡ eess

Reference Architecture of a Quantum-Centric Supercomputer

Der Artikel stellt eine Referenzarchitektur und einen Fahrplan für Quanten-zentrierte Supercomputer (QCSC) vor, die durch die nahtlose Integration von Quanten-, Grafik- und Prozessoren in drei Entwicklungsphasen die manuelle Orchestrierung überwinden und hybride Quanten-Klassische Algorithmen für komplexe Anwendungen in Chemie und Materialwissenschaft beschleunigen sollen.

Seetharami Seelam, Jerry M. Chow, Antonio Córcoles, Sarah Sheldon, Tushar Mittal, Abhinav Kandala, Sean Dague, Ian Hincks, Hiroshi Horii, Blake Johnson, Michael Le, Hani Jamjoom, Jay M. GambettaThu, 12 Ma⚡ eess

Linear Layouts: Robust Code Generation of Efficient Tensor Computation Using F2\mathbb{F}_2

Die Arbeit stellt „Linear Layouts" vor, einen neuartigen Ansatz zur effizienten Generierung von Tensor-Berechnungen, der Tensor-Layouts mithilfe linearer Algebra über F2\mathbb{F}_2 modelliert, um eine generische Definition und Konvertierung zu ermöglichen, den Engineering-Aufwand zu reduzieren und die Leistung von Triton-Operatoren zu optimieren.

Keren Zhou, Mario Lezcano, Adam Goucher, Akhmed Rakhmati, Jeff Niu, Justin Lebar, Pawel Szczerbuk, Peter Bell, Phil Tillet, Thomas Raoux, Zahi MoudallalMon, 09 Ma💻 cs

Scalable Digital Compute-in-Memory Ising Machines for Robustness Verification of Binary Neural Networks

Diese Arbeit stellt einen skalierbaren, digitalen Compute-in-Memory-Ising-Maschinen-Ansatz auf SRAM-Basis vor, der die Robustheitsverifikation von binären neuronalen Netzen durch Umformulierung als QUBO-Problem und effiziente Suche nach adversariellen Störungen mittels unvollkommener Lösungen drastisch beschleunigt und den Energieverbrauch im Vergleich zu herkömmlichen CPU-Implementierungen erheblich senkt.

Madhav Vadlamani, Rahul Singh, Yuyao Kong, Zheng Zhang, Shimeng YuMon, 09 Ma💻 cs

A Persistent-State Dataflow Accelerator for Memory-Bound Linear Attention Decode on FPGA

Die Autoren stellen einen FPGA-beschleuniger vor, der durch die persistente Speicherung des GDN-Zustands auf dem Chip die speichergebundenen Engpässe bei der Dekodierung linearer Aufmerksamkeit überwindet und damit im Vergleich zu einer NVIDIA H100-GPU eine 4,5-fache Geschwindigkeitssteigerung sowie eine bis zu 60-fach höhere Energieeffizienz pro Token erreicht.

Neelesh Gupta, Peter Wang, Rajgopal Kannan, Viktor K. PrasannaMon, 09 Ma🤖 cs.LG