cs.AR Arbeiten | Gist.Science

GOMA: Geometrically Optimal Mapping via Analytical Modeling for Spatial Accelerators

Die Arbeit stellt GOMA vor, ein neuartiges Framework zur analytischen Modellierung und geometrischen Abstraktion, das die globale Optimalität bei der Zuordnung von GEMM-Workloads auf räumliche Beschleuniger garantiert und dabei im Vergleich zu aktuellen State-of-the-Art-Lösungen sowohl die Energie-Latenz-Produkte als auch die Suchzeit drastisch verbessert.

Wulve Yang, Hailong Zou, Rui Zhou, Jionghao Zhang, Qiang Li, Gang Li, Yi Zhan, Shushan QiaoTue, 10 Ma💻 cs

Why Learn What Physics Already Knows? Realizing Agile mmWave-based Human Pose Estimation via Physics-Guided Preprocessing

Diese Arbeit stellt einen physikbasierten Ansatz zur Vorverarbeitung von mmWave-Daten für die menschliche Pose-Schätzung vor, der durch die explizite Modellierung physikalischer Korrelationen und Kinematik im Vergleich zu datengetriebenen Baselines die Parameteranzahl drastisch reduziert und eine Echtzeit-Implementierung auf ressourcenbeschränkter Hardware ermöglicht.

Shuntian Zheng, Jiaqi Li, Minzhe Ni, Xiaoman Lu, Yu GuanTue, 10 Ma💻 cs

Trust Nothing: RTOS Security without Run-Time Software TCB (Extended Version)

Dieses Papier stellt eine neue Capability-Architektur vor, die auf einer FPGA-Implementierung und einem disaggregierten Zephyr-Betriebssystem basiert, um Echtzeit-Embedded-Systeme ohne vertrauenswürdigen Software-Kernel (TCB) gegen Angriffe von Anwendungen, dem Betriebssystem und Peripheriegeräten zu schützen.

Eric Ackermann, Sven BugielTue, 10 Ma💻 cs

Managing Classical Processing Requirements for Quantum Error Correction

Die vorgestellte Arbeit adressiert die Herausforderung der schwankenden Nachfrage nach Decodierern für die Quantenfehlerkorrektur durch ein zweistufiges Framework, das Decodierer als gemeinsam genutzte Beschleuniger verwaltet und so den Hardwarebedarf um 10–40 % senkt, um fehlertolerantes Quantencomputing praktikabler zu machen.

Satvik Maurya, Abtin Molavi, Aws Albarghouthi, Swamit TannuThu, 12 Ma⚛️ quant-ph

Machine Learning on Heterogeneous, Edge, and Quantum Hardware for Particle Physics (ML-HEQUPP)

Dieses Whitepaper präsentiert eine gemeinschaftlich erarbeitete Vision, die Forschungs- und Entwicklungsmöglichkeiten für hardwarebasierte maschinelle Lernsysteme und deren physikalische Anwendungen priorisiert, um die Herausforderungen der nächsten Generation von Teilchenphysik-Experimenten im Hinblick auf extreme Datenraten und Umgebungen zu bewältigen.

Julia Gonski (Sunny), Jenni Ott (Sunny), Shiva Abbaszadeh (Sunny), Sagar Addepalli (Sunny), Matteo Cremonesi (Sunny), Jennet Dickinson (Sunny), Giuseppe Di Guglielmo (Sunny), Erdem Yigit Ertorer (Sunny), Lindsey Gray (Sunny), Ryan Herbst (Sunny), Christian Herwig (Sunny), Tae Min Hong (Sunny), Benedikt Maier (Sunny), Maryam Bayat Makou (Sunny), David Miller (Sunny), Mark S. Neubauer (Sunny), Cristián Peña (Sunny), Dylan Rankin (Sunny), Seon-Hee (Sunny), Seo, Giordon Stark, Alexander Tapper, Audrey Corbeil Therrien, Ioannis Xiotidis, Keisuke Yoshihara, G Abarajithan, Sagar Addepalli, Nural Akchurin, Carlos Argüelles, Saptaparna Bhattacharya, Lorenzo Borella, Christian Boutan, Tom Braine, James Brau, Martin Breidenbach, Antonio Chahine, Talal Ahmed Chowdhury, Yuan-Tang Chou, Seokju Chung, Alberto Coppi, Mariarosaria D'Alfonso, Abhilasha Dave, Chance Desmet, Angela Di Fulvio, Karri DiPetrillo, Javier Duarte, Auralee Edelen, Jan Eysermans, Yongbin Feng, Emmett Forrestel, Dolores Garcia, Loredana Gastaldo, Julián García Pardiñas, Lino Gerlach, Loukas Gouskos, Katya Govorkova, Carl Grace, Christopher Grant, Philip Harris, Ciaran Hasnip, Timon Heim, Abraham Holtermann, Tae Min Hong, Gian Michele Innocenti, Koji Ishidoshiro, Miaochen Jin, Jyothisraj Johnson, Stephen Jones, Andreas Jung, Georgia Karagiorgi, Ryan Kastner, Nicholas Kamp, Doojin Kim, Kyoungchul Kong, Katie Kudela, Jelena Lalic, Bo-Cheng Lai, Yun-Tsung Lai, Tommy Lam, Jeffrey Lazar, Aobo Li, Zepeng Li, Haoyun Liu, Vladimir Lončar, Luca Macchiarulo, Christopher Madrid, Benedikt Maier, Zhenghua Ma, Prashansa Mukim, Mark S. Neubauer, Victoria Nguyen, Sungbin Oh, Isobel Ojalvo, Hideyoshi Ozaki, Simone Pagan Griso, Myeonghun Park, Christoph Paus, Santosh Parajuli, Benjamin Parpillon, Sara Pozzi, Ema Puljak, Benjamin Ramhorst, Amy Roberts, Larry Ruckman, Kate Scholberg, Sebastian Schmitt, Noah Singer, Eluned Anne Smith, Alexandre Sousa, Michael Spannowsky, Sioni Summers, Yanwen Sun, Daniel Tapia Takaki, Antonino Tumeo, Caterina Vernieri, Belina von Krosigk, Yash Vora, Linyan Wan, Michael H. L. S. Wang, Amanda Weinstein, Andy White, Simon Williams, Felix YuThu, 12 Ma⚛️ hep-ex

RedFuser: An Automatic Operator Fusion Framework for Cascaded Reductions on AI Accelerators

Das Paper stellt RedFuser vor, ein automatisches Framework, das mithilfe einer formalen theoretischen Methode kaskadierte Reduktionsoperationen in AI-Beschleunigern effizient fusioniert und damit im Vergleich zu aktuellen Compilern Geschwindigkeitssteigerungen von bis zu 5-fach erzielt.

Xinsheng Tang, Yangcheng Li, Nan Wang, Zhiyi Shu, Xingyu Ling, Junna Xing, Peng Zhou, Qiang LiuThu, 12 Ma🤖 cs.AI

The DMA Streaming Framework: Kernel-Level Buffer Orchestration for High-Performance AI Data Paths

Die Arbeit stellt dmaplane vor, ein Linux-Kernel-Modul, das durch explizite Puffer-Orchestrierung, NUMA-bewusste Verwaltung und RDMA-Integration eine stabile Schnittstelle für hochperformante, sicherheitskritische Datenpfade in KI-Anwendungen bereitstellt.

Marco GrazianoThu, 12 Ma🤖 cs.AI

Architecture-Aware LLM Inference Optimization on AMD Instinct GPUs: A Comprehensive Benchmark and Deployment Study

Diese Studie präsentiert eine umfassende Benchmark- und Deployment-Analyse der LLM-Inferenz auf AMD Instinct MI325X-GPUs, die zeigt, dass architekturspezifische Optimierungen wie die selektive Nutzung des AITER-Runtimes und angepasste Blockgrößen entscheidend für die Leistung sind, während alle getesteten Modelle bei hohen Parallelitätsgraden an eine Speicherbandbreitenbegrenzung stoßen, aber dennoch eine hohe Zuverlässigkeit aufweisen.

Athos GeorgiouThu, 12 Ma🤖 cs.AI

HTM-EAR: Importance-Preserving Tiered Memory with Hybrid Routing under Saturation

Die Arbeit stellt HTM-EAR vor, ein hierarchisches Tiered-Memory-System mit hybrider Routing-Strategie und bewusster Verdrängung, das unter Sättigungsbedingungen durch den Erhalt wichtiger Informationen und gezieltes Vergessen veralteter Fakten die Abfragepräzision signifikant verbessert.

Shubham Kumar SinghThu, 12 Ma🤖 cs.AI

Multi-Agent Memory from a Computer Architecture Perspective: Visions and Challenges Ahead

Diese Positionspapier betrachtet Multi-Agenten-Speicher als Computer-Architekturproblem, schlägt eine dreischichtige Speicherhierarchie vor und identifiziert die Konsistenz des Multi-Agenten-Speichers als die dringendste offene Herausforderung für zuverlässige und skalierbare Systeme.

Zhongming Yu, Naicheng Yu, Hejia Zhang, Wentao Ni, Mingrui Yin, Jiaying Yang, Yujie Zhao, Jishen ZhaoThu, 12 Ma🤖 cs.AI

Pooling Engram Conditional Memory in Large Language Models using CXL

Die vorgestellte Arbeit schlägt vor, Engramm-basierte konditionelle Gedächtnisstrukturen für Large Language Models über einen CXL-Memory-Pool auszulagern, um durch feingranularen Zugriff und Prefetching eine skalierbare, kosteneffiziente Lösung zu bieten, die die Inferenzleistung im Vergleich zu DRAM kaum beeinträchtigt.

Ruiyang Ma, Teng Ma, Zhiyuan Su, Hantian Zha, Xinpeng Zhao, Xuchun Shang, Xingrui Yi, Zheng Liu, Zhu Cao, An Wu, Zhichong Dou, Ziqian Liu, Daikang Kuang, Guojie LuoThu, 12 Ma💻 cs

Hardware Efficient Approximate Convolution with Tunable Error Tolerance for CNNs

Die Arbeit stellt einen hardwareeffizienten Ansatz für CNNs vor, der mittels einer „weichen Sparsity"-Strategie und einer MSB-basierten Proxy-Methode als RISC-V-Instruktion signifikante Reduktionen bei MAC-Operationen und Energieverbrauch erreicht, ohne dabei die Genauigkeit zu beeinträchtigen.

Vishal Shashidhar, Anupam Kumari, Roy P PailyThu, 12 Ma🤖 cs.LG

In-Memory ADC-Based Nonlinear Activation Quantization for Efficient In-Memory Computing

Diese Arbeit stellt die Boundary Suppressed K-Means Quantisierung (BS-KMQ) vor, eine neuartige nichtlineare Quantisierungsmethode, die durch Unterdrückung von Randausreißern die Auflösung von Analog-Digital-Wandlern in In-Memory-Computing-Systemen reduziert und damit im Vergleich zu bestehenden Methoden eine signifikant höhere Energieeffizienz, Geschwindigkeit und Genauigkeit bei der Post-Training-Quantisierung erreicht.

Shuai Dong, Junyi Yang, Biyan Zhou, Hongyang Shang, Gourav Datta, Arindam BasuThu, 12 Ma💻 cs

An FPGA Implementation of Displacement Vector Search for Intra Pattern Copy in JPEG XS

Diese Arbeit stellt eine effiziente, pipelinierte FPGA-Architektur für die Verschiebungsvektorsuche im Intra-Pattern-Copy-Modul von JPEG XS vor, die durch optimierte Speicherorganisation eine hohe Durchsatzrate von 38,3 Megapixeln pro Sekunde bei geringem Energieverbrauch erreicht und somit die praktische Hardware-Implementierung ermöglicht.

Qiyue Chen, Yao Li, Jie Tao, Song Chen, Li Li, Dong LiuThu, 12 Ma⚡ eess

Reference Architecture of a Quantum-Centric Supercomputer

Der Artikel stellt eine Referenzarchitektur und einen Fahrplan für Quanten-zentrierte Supercomputer (QCSC) vor, die durch die nahtlose Integration von Quanten-, Grafik- und Prozessoren in drei Entwicklungsphasen die manuelle Orchestrierung überwinden und hybride Quanten-Klassische Algorithmen für komplexe Anwendungen in Chemie und Materialwissenschaft beschleunigen sollen.

Seetharami Seelam, Jerry M. Chow, Antonio Córcoles, Sarah Sheldon, Tushar Mittal, Abhinav Kandala, Sean Dague, Ian Hincks, Hiroshi Horii, Blake Johnson, Michael Le, Hani Jamjoom, Jay M. GambettaThu, 12 Ma⚡ eess

Estimation of Energy-dissipation Lower-bounds for Neuromorphic Learning-in-memory

Diese Arbeit leitet modellunabhängige theoretische Untergrenzen für den Energieverbrauch neuromorpher Lern-in-Speicher-Optimierer ab, die durch die Anpassung physikalischer Speicherbarrieren an die Optimierungsdynamik die Energieeffizienz bei großen KI-Workloads maximieren.

Zihao Chen, Faiek Ahsan, Johannes Leugering, Gert Cauwenberghs, Shantanu ChakrabarttyMon, 09 Ma🤖 cs.AI

Linear Layouts: Robust Code Generation of Efficient Tensor Computation Using $\mathbb{F}_2$

Die Arbeit stellt „Linear Layouts" vor, einen neuartigen Ansatz zur effizienten Generierung von Tensor-Berechnungen, der Tensor-Layouts mithilfe linearer Algebra über $\mathbb{F}_2$ modelliert, um eine generische Definition und Konvertierung zu ermöglichen, den Engineering-Aufwand zu reduzieren und die Leistung von Triton-Operatoren zu optimieren.

Keren Zhou, Mario Lezcano, Adam Goucher, Akhmed Rakhmati, Jeff Niu, Justin Lebar, Pawel Szczerbuk, Peter Bell, Phil Tillet, Thomas Raoux, Zahi MoudallalMon, 09 Ma💻 cs

Scalable Digital Compute-in-Memory Ising Machines for Robustness Verification of Binary Neural Networks

Diese Arbeit stellt einen skalierbaren, digitalen Compute-in-Memory-Ising-Maschinen-Ansatz auf SRAM-Basis vor, der die Robustheitsverifikation von binären neuronalen Netzen durch Umformulierung als QUBO-Problem und effiziente Suche nach adversariellen Störungen mittels unvollkommener Lösungen drastisch beschleunigt und den Energieverbrauch im Vergleich zu herkömmlichen CPU-Implementierungen erheblich senkt.

Madhav Vadlamani, Rahul Singh, Yuyao Kong, Zheng Zhang, Shimeng YuMon, 09 Ma💻 cs

LUMINA: LLM-Guided GPU Architecture Exploration via Bottleneck Analysis

Das Paper stellt LUMINA vor, ein von Large Language Models (LLMs) gesteuertes Framework zur effizienten GPU-Architekturoptimierung, das durch automatische Analyse von Engpässen und selbstkorrigierende Regeln eine deutlich höhere Sucheffizienz und bessere Designergebnisse als herkömmliche maschinelle Lernansätze erzielt.

Tao Zhang, Rui Ma, Shuotao Xu, Peng Cheng, Yongqiang XiongMon, 09 Ma🤖 cs.AI

A Persistent-State Dataflow Accelerator for Memory-Bound Linear Attention Decode on FPGA

Die Autoren stellen einen FPGA-beschleuniger vor, der durch die persistente Speicherung des GDN-Zustands auf dem Chip die speichergebundenen Engpässe bei der Dekodierung linearer Aufmerksamkeit überwindet und damit im Vergleich zu einer NVIDIA H100-GPU eine 4,5-fache Geschwindigkeitssteigerung sowie eine bis zu 60-fach höhere Energieeffizienz pro Token erreicht.

Neelesh Gupta, Peter Wang, Rajgopal Kannan, Viktor K. PrasannaMon, 09 Ma🤖 cs.LG

← Zurück Weiter →

cs.AR