GOMA: Geometrically Optimal Mapping via Analytical Modeling for Spatial Accelerators

Il paper presenta GOMA, un framework di mappatura globale ottimale per acceleratori spaziali basato su un modello analitico geometrico, che garantisce la ricerca della soluzione migliore con una complessità di valutazione costante, migliorando significativamente l'efficienza energetica e riducendo i tempi di esplorazione rispetto agli approcci esistenti.

Wulve Yang, Hailong Zou, Rui Zhou, Jionghao Zhang, Qiang Li, Gang Li, Yi Zhan, Shushan QiaoTue, 10 Ma💻 cs

Why Learn What Physics Already Knows? Realizing Agile mmWave-based Human Pose Estimation via Physics-Guided Preprocessing

Questo paper propone un approccio di pre-elaborazione guidato dalla fisica per la stima della posa umana tramite onde millimetriche, che sostituendo i moduli basati sui dati con modelli espliciti delle correlazioni fisiche e della cinematica umana, riduce drasticamente i parametri e il costo computazionale mantenendo un'accuratezza competitiva e abilitando il deployment in tempo reale su Raspberry Pi.

Shuntian Zheng, Jiaqi Li, Minzhe Ni, Xiaoman Lu, Yu GuanTue, 10 Ma💻 cs

Machine Learning on Heterogeneous, Edge, and Quantum Hardware for Particle Physics (ML-HEQUPP)

Questo documento presenta una visione comunitaria per identificare e prioritizzare le opportunità di ricerca e sviluppo nei sistemi hardware basati sull'intelligenza artificiale e nel loro utilizzo nella fisica delle particelle, al fine di affrontare le sfide poste dai futuri esperimenti caratterizzati da volumi di dati senza precedenti e ambienti operativi estremi.

Julia Gonski (Sunny), Jenni Ott (Sunny), Shiva Abbaszadeh (Sunny), Sagar Addepalli (Sunny), Matteo Cremonesi (Sunny), Jennet Dickinson (Sunny), Giuseppe Di Guglielmo (Sunny), Erdem Yigit Ertorer (Sunny), Lindsey Gray (Sunny), Ryan Herbst (Sunny), Christian Herwig (Sunny), Tae Min Hong (Sunny), Benedikt Maier (Sunny), Maryam Bayat Makou (Sunny), David Miller (Sunny), Mark S. Neubauer (Sunny), Cristián Peña (Sunny), Dylan Rankin (Sunny), Seon-Hee (Sunny), Seo, Giordon Stark, Alexander Tapper, Audrey Corbeil Therrien, Ioannis Xiotidis, Keisuke Yoshihara, G Abarajithan, Sagar Addepalli, Nural Akchurin, Carlos Argüelles, Saptaparna Bhattacharya, Lorenzo Borella, Christian Boutan, Tom Braine, James Brau, Martin Breidenbach, Antonio Chahine, Talal Ahmed Chowdhury, Yuan-Tang Chou, Seokju Chung, Alberto Coppi, Mariarosaria D'Alfonso, Abhilasha Dave, Chance Desmet, Angela Di Fulvio, Karri DiPetrillo, Javier Duarte, Auralee Edelen, Jan Eysermans, Yongbin Feng, Emmett Forrestel, Dolores Garcia, Loredana Gastaldo, Julián García Pardiñas, Lino Gerlach, Loukas Gouskos, Katya Govorkova, Carl Grace, Christopher Grant, Philip Harris, Ciaran Hasnip, Timon Heim, Abraham Holtermann, Tae Min Hong, Gian Michele Innocenti, Koji Ishidoshiro, Miaochen Jin, Jyothisraj Johnson, Stephen Jones, Andreas Jung, Georgia Karagiorgi, Ryan Kastner, Nicholas Kamp, Doojin Kim, Kyoungchul Kong, Katie Kudela, Jelena Lalic, Bo-Cheng Lai, Yun-Tsung Lai, Tommy Lam, Jeffrey Lazar, Aobo Li, Zepeng Li, Haoyun Liu, Vladimir Lončar, Luca Macchiarulo, Christopher Madrid, Benedikt Maier, Zhenghua Ma, Prashansa Mukim, Mark S. Neubauer, Victoria Nguyen, Sungbin Oh, Isobel Ojalvo, Hideyoshi Ozaki, Simone Pagan Griso, Myeonghun Park, Christoph Paus, Santosh Parajuli, Benjamin Parpillon, Sara Pozzi, Ema Puljak, Benjamin Ramhorst, Amy Roberts, Larry Ruckman, Kate Scholberg, Sebastian Schmitt, Noah Singer, Eluned Anne Smith, Alexandre Sousa, Michael Spannowsky, Sioni Summers, Yanwen Sun, Daniel Tapia Takaki, Antonino Tumeo, Caterina Vernieri, Belina von Krosigk, Yash Vora, Linyan Wan, Michael H. L. S. Wang, Amanda Weinstein, Andy White, Simon Williams, Felix YuThu, 12 Ma⚛️ hep-ex

Architecture-Aware LLM Inference Optimization on AMD Instinct GPUs: A Comprehensive Benchmark and Deployment Study

Questo studio presenta una valutazione trasversale dell'inferenza di LLM su GPU AMD Instinct MI325X, dimostrando che l'ottimizzazione consapevole dell'architettura è fondamentale per massimizzare il throughput e la stabilità, evidenziando come modelli MoE+MLA e GQA richiedano configurazioni specifiche del runtime AITER e blocchi di cache diversi per raggiungere prestazioni competitive.

Athos GeorgiouThu, 12 Ma🤖 cs.AI

Pooling Engram Conditional Memory in Large Language Models using CXL

Questo articolo propone l'utilizzo di un pool di memoria CXL per archiviare la memoria engramma condizionale nei grandi modelli linguistici, integrandolo in SGLang per ottenere prestazioni end-to-end vicine a quelle della DRAM e offrire una soluzione di storage scalabile ed economica senza compromettere l'inferenza.

Ruiyang Ma, Teng Ma, Zhiyuan Su, Hantian Zha, Xinpeng Zhao, Xuchun Shang, Xingrui Yi, Zheng Liu, Zhu Cao, An Wu, Zhichong Dou, Ziqian Liu, Daikang Kuang, Guojie LuoThu, 12 Ma💻 cs

In-Memory ADC-Based Nonlinear Activation Quantization for Efficient In-Memory Computing

Questo articolo presenta la quantizzazione K-Means a soppressione dei bordi (BS-KMQ), un nuovo metodo di quantizzazione non lineare che riduce i requisiti di risoluzione degli ADC e migliora l'efficienza energetica e le prestazioni nei sistemi di calcolo in memoria, ottenendo significativi guadagni di velocità ed energia rispetto alle tecniche esistenti.

Shuai Dong, Junyi Yang, Biyan Zhou, Hongyang Shang, Gourav Datta, Arindam BasuThu, 12 Ma💻 cs

Reference Architecture of a Quantum-Centric Supercomputer

Questo articolo presenta un'architettura di riferimento e una roadmap per i supercomputer centrati sul quantum (QCSC), sistemi co-progettati che integrano unità di elaborazione quantistica, GPU e CPU per superare le limitazioni attuali e accelerare la scoperta di algoritmi ibridi in ambiti come la chimica e la scienza dei materiali.

Seetharami Seelam, Jerry M. Chow, Antonio Córcoles, Sarah Sheldon, Tushar Mittal, Abhinav Kandala, Sean Dague, Ian Hincks, Hiroshi Horii, Blake Johnson, Michael Le, Hani Jamjoom, Jay M. GambettaThu, 12 Ma⚡ eess

Estimation of Energy-dissipation Lower-bounds for Neuromorphic Learning-in-memory

Questo articolo deriva stime teoriche sui limiti inferiori del consumo energetico per ottimizzatori neuromorfici basati sull'apprendimento in memoria, analizzando la termodinamica fuori equilibrio per determinare l'efficienza energetica in funzione di operazioni, dimensioni del modello, velocità di convergenza e precisione.

Zihao Chen, Faiek Ahsan, Johannes Leugering, Gert Cauwenberghs, Shantanu ChakrabarttyMon, 09 Ma🤖 cs.AI

Linear Layouts: Robust Code Generation of Efficient Tensor Computation Using F2\mathbb{F}_2

Il paper introduce "Linear Layouts", un approccio innovativo che modella le disposizioni dei tensori tramite algebra lineare su F2\mathbb{F}_2 per generare codice efficiente, offrire definizioni generiche e conversioni flessibili, riducendo l'errore umano e i costi computazionali nell'integrazione con Triton.

Keren Zhou, Mario Lezcano, Adam Goucher, Akhmed Rakhmati, Jeff Niu, Justin Lebar, Pawel Szczerbuk, Peter Bell, Phil Tillet, Thomas Raoux, Zahi MoudallalMon, 09 Ma💻 cs

Scalable Digital Compute-in-Memory Ising Machines for Robustness Verification of Binary Neural Networks

Questo lavoro propone una macchina di Ising digitale basata su SRAM e compute-in-memory che riformula la verifica della robustezza delle reti neurali binarie come un problema di ottimizzazione QUBO, ottenendo proiettati significativi in termini di accelerazione e efficienza energetica rispetto alle implementazioni CPU tradizionali.

Madhav Vadlamani, Rahul Singh, Yuyao Kong, Zheng Zhang, Shimeng YuMon, 09 Ma💻 cs

LUMINA: LLM-Guided GPU Architecture Exploration via Bottleneck Analysis

LUMINA è un framework di esplorazione architetturale GPU guidato da modelli linguistici (LLM) che, attraverso l'analisi automatizzata dei colli di bottiglia e l'auto-correzione delle regole di ottimizzazione, identifica in modo efficiente design superiori rispetto all'A100 con un costo di ricerca drasticamente inferiore rispetto ai metodi tradizionali e basati su machine learning.

Tao Zhang, Rui Ma, Shuotao Xu, Peng Cheng, Yongqiang XiongMon, 09 Ma🤖 cs.AI