cs.AR articles | Gist.Science

GOMA: Geometrically Optimal Mapping via Analytical Modeling for Spatial Accelerators

Le papier présente GOMA, un cadre d'optimisation globale pour le mappage des multiplications matricielles sur des accélérateurs spatiaux, qui utilise une modélisation analytique géométrique pour garantir l'optimalité tout en réduisant considérablement le temps de recherche et en améliorant l'efficacité énergétique par rapport aux méthodes actuelles.

Wulve Yang, Hailong Zou, Rui Zhou, Jionghao Zhang, Qiang Li, Gang Li, Yi Zhan, Shushan QiaoTue, 10 Ma💻 cs

Why Learn What Physics Already Knows? Realizing Agile mmWave-based Human Pose Estimation via Physics-Guided Preprocessing

Cet article propose une méthode d'estimation de la pose humaine par ondes millimétriques guidée par la physique, qui remplace les modules de prétraitement basés sur l'apprentissage par des modèles explicites exploitant les corrélations physiques des signaux, permettant ainsi de réduire considérablement les paramètres et les besoins de calcul tout en maintenant une précision compétitive et en facilitant le déploiement en temps réel sur Raspberry Pi.

Shuntian Zheng, Jiaqi Li, Minzhe Ni, Xiaoman Lu, Yu GuanTue, 10 Ma💻 cs

Trust Nothing: RTOS Security without Run-Time Software TCB (Extended Version)

Cet article présente une architecture de capacité novatrice et une implémentation FPGA d'un système d'exploitation temps réel (basé sur Zephyr) qui élimine la nécessité d'un noyau logiciel de confiance à l'exécution en isolant strictement tous les composants logiciels et périphériques, même sur du matériel hérité.

Eric Ackermann, Sven BugielTue, 10 Ma💻 cs

Managing Classical Processing Requirements for Quantum Error Correction

Cet article propose un cadre de gestion à deux niveaux pour les décodeurs de correction d'erreurs quantiques, traités comme des accélérateurs partagés par un système d'exploitation quantique, afin de résoudre les défis de planification de capacité et de réduire les besoins matériels de 10 à 40 %.

Satvik Maurya, Abtin Molavi, Aws Albarghouthi, Swamit TannuThu, 12 Ma⚛️ quant-ph

Machine Learning on Heterogeneous, Edge, and Quantum Hardware for Particle Physics (ML-HEQUPP)

Ce document blanc présente une vision communautaire visant à identifier et prioriser les opportunités de recherche et de développement dans les systèmes matériels d'apprentissage automatique et leurs applications en physique des particules, afin de relever les défis liés aux débits de données sans précédent et aux environnements extrêmes des futures expériences.

Julia Gonski (Sunny), Jenni Ott (Sunny), Shiva Abbaszadeh (Sunny), Sagar Addepalli (Sunny), Matteo Cremonesi (Sunny), Jennet Dickinson (Sunny), Giuseppe Di Guglielmo (Sunny), Erdem Yigit Ertorer (Sunny), Lindsey Gray (Sunny), Ryan Herbst (Sunny), Christian Herwig (Sunny), Tae Min Hong (Sunny), Benedikt Maier (Sunny), Maryam Bayat Makou (Sunny), David Miller (Sunny), Mark S. Neubauer (Sunny), Cristián Peña (Sunny), Dylan Rankin (Sunny), Seon-Hee (Sunny), Seo, Giordon Stark, Alexander Tapper, Audrey Corbeil Therrien, Ioannis Xiotidis, Keisuke Yoshihara, G Abarajithan, Sagar Addepalli, Nural Akchurin, Carlos Argüelles, Saptaparna Bhattacharya, Lorenzo Borella, Christian Boutan, Tom Braine, James Brau, Martin Breidenbach, Antonio Chahine, Talal Ahmed Chowdhury, Yuan-Tang Chou, Seokju Chung, Alberto Coppi, Mariarosaria D'Alfonso, Abhilasha Dave, Chance Desmet, Angela Di Fulvio, Karri DiPetrillo, Javier Duarte, Auralee Edelen, Jan Eysermans, Yongbin Feng, Emmett Forrestel, Dolores Garcia, Loredana Gastaldo, Julián García Pardiñas, Lino Gerlach, Loukas Gouskos, Katya Govorkova, Carl Grace, Christopher Grant, Philip Harris, Ciaran Hasnip, Timon Heim, Abraham Holtermann, Tae Min Hong, Gian Michele Innocenti, Koji Ishidoshiro, Miaochen Jin, Jyothisraj Johnson, Stephen Jones, Andreas Jung, Georgia Karagiorgi, Ryan Kastner, Nicholas Kamp, Doojin Kim, Kyoungchul Kong, Katie Kudela, Jelena Lalic, Bo-Cheng Lai, Yun-Tsung Lai, Tommy Lam, Jeffrey Lazar, Aobo Li, Zepeng Li, Haoyun Liu, Vladimir Lončar, Luca Macchiarulo, Christopher Madrid, Benedikt Maier, Zhenghua Ma, Prashansa Mukim, Mark S. Neubauer, Victoria Nguyen, Sungbin Oh, Isobel Ojalvo, Hideyoshi Ozaki, Simone Pagan Griso, Myeonghun Park, Christoph Paus, Santosh Parajuli, Benjamin Parpillon, Sara Pozzi, Ema Puljak, Benjamin Ramhorst, Amy Roberts, Larry Ruckman, Kate Scholberg, Sebastian Schmitt, Noah Singer, Eluned Anne Smith, Alexandre Sousa, Michael Spannowsky, Sioni Summers, Yanwen Sun, Daniel Tapia Takaki, Antonino Tumeo, Caterina Vernieri, Belina von Krosigk, Yash Vora, Linyan Wan, Michael H. L. S. Wang, Amanda Weinstein, Andy White, Simon Williams, Felix YuThu, 12 Ma⚛️ hep-ex

RedFuser: An Automatic Operator Fusion Framework for Cascaded Reductions on AI Accelerators

Ce papier présente RedFuser, un cadre de fusion automatique d'opérateurs conçu pour optimiser les réductions en cascade sur les accélérateurs d'IA en générant des noyaux exécutables qui surpassent les compilateurs actuels et rivalisent avec des implémentations manuelles.

Xinsheng Tang, Yangcheng Li, Nan Wang, Zhiyi Shu, Xingyu Ling, Junna Xing, Peng Zhou, Qiang LiuThu, 12 Ma🤖 cs.AI

The DMA Streaming Framework: Kernel-Level Buffer Orchestration for High-Performance AI Data Paths

Ce papier présente dmaplane, un module noyau Linux qui orchestre la gestion des buffers et l'exportation DMA pour optimiser les flux de données IA, en permettant notamment l'inférence désagrégée via des transferts RDMA entre machines.

Marco GrazianoThu, 12 Ma🤖 cs.AI

Architecture-Aware LLM Inference Optimization on AMD Instinct GPUs: A Comprehensive Benchmark and Deployment Study

Cette étude présente une évaluation comparative de l'inférence de grands modèles de langage sur les GPU AMD Instinct MI325X, démontrant que l'optimisation adaptée à l'architecture est cruciale pour maximiser le débit et la stabilité, tout en validant des performances élevées et une fiabilité totale sur des modèles allant jusqu'à 1 trillion de paramètres.

Athos GeorgiouThu, 12 Ma🤖 cs.AI

HTM-EAR: Importance-Preserving Tiered Memory with Hybrid Routing under Saturation

Ce papier présente HTM-EAR, un système de mémoire hiérarchique intégrant un routage hybride et une éviction basée sur l'importance, qui maintient une haute précision de requête sous saturation tout en permettant un oubli contrôlé des données obsolètes.

Shubham Kumar SinghThu, 12 Ma🤖 cs.AI

Multi-Agent Memory from a Computer Architecture Perspective: Visions and Challenges Ahead

Ce papier de position propose de traiter la mémoire des systèmes multi-agents comme un problème d'architecture informatique en définissant une hiérarchie à trois couches et en identifiant la cohérence de la mémoire comme le défi le plus critique à relever pour assurer l'évolutivité et la fiabilité de ces systèmes.

Zhongming Yu, Naicheng Yu, Hejia Zhang, Wentao Ni, Mingrui Yin, Jiaying Yang, Yujie Zhao, Jishen ZhaoThu, 12 Ma🤖 cs.AI

Pooling Engram Conditional Memory in Large Language Models using CXL

Ce papier propose d'utiliser un pool de mémoire CXL pour stocker la mémoire conditionnelle des engrammes dans les grands modèles de langage, offrant une solution de stockage évolutive et rentable qui maintient des performances d'inférence proches de celles de la DRAM grâce à l'intégration dans SGLang.

Ruiyang Ma, Teng Ma, Zhiyuan Su, Hantian Zha, Xinpeng Zhao, Xuchun Shang, Xingrui Yi, Zheng Liu, Zhu Cao, An Wu, Zhichong Dou, Ziqian Liu, Daikang Kuang, Guojie LuoThu, 12 Ma💻 cs

Hardware Efficient Approximate Convolution with Tunable Error Tolerance for CNNs

Cet article propose une méthode d'épissage « doux » basée sur un proxy de bit de poids fort intégré à une instruction RISC-V personnalisée, qui permet de réduire considérablement le nombre d'opérations MAC et la consommation énergétique des CNNs sur des dispositifs embarqués sans perte de précision, surpassant ainsi les techniques d'épissage traditionnelles.

Vishal Shashidhar, Anupam Kumari, Roy P PailyThu, 12 Ma🤖 cs.LG

In-Memory ADC-Based Nonlinear Activation Quantization for Efficient In-Memory Computing

Ce papier présente la quantification K-moyennes à suppression de frontières (BS-KMQ), une méthode innovante qui atténue les biais d'activation dans le calcul en mémoire pour réduire les exigences de résolution des convertisseurs analogique-numérique, tout en améliorant significativement la précision, la surface et l'efficacité énergétique des réseaux de neurones profonds.

Shuai Dong, Junyi Yang, Biyan Zhou, Hongyang Shang, Gourav Datta, Arindam BasuThu, 12 Ma💻 cs

An FPGA Implementation of Displacement Vector Search for Intra Pattern Copy in JPEG XS

Cet article propose une architecture FPGA pipeline optimisée pour la recherche de vecteurs de déplacement dans l'outil de copie de motifs intra (IPC) de JPEG XS, permettant d'atteindre un débit de 38,3 Mpixels/s avec une consommation de 277 mW et facilitant ainsi le déploiement matériel de cette technologie de compression d'images.

Qiyue Chen, Yao Li, Jie Tao, Song Chen, Li Li, Dong LiuThu, 12 Ma⚡ eess

Reference Architecture of a Quantum-Centric Supercomputer

Cet article présente une architecture de référence et une feuille de route pour les supercalculateurs centrés sur le quantum (QCSC), qui visent à intégrer de manière transparente les unités de traitement quantique, graphique et centrale afin de surmonter les limites actuelles de l'orchestration manuelle et d'accélérer la découverte d'algorithmes hybrides pour des applications critiques.

Seetharami Seelam, Jerry M. Chow, Antonio Córcoles, Sarah Sheldon, Tushar Mittal, Abhinav Kandala, Sean Dague, Ian Hincks, Hiroshi Horii, Blake Johnson, Michael Le, Hani Jamjoom, Jay M. GambettaThu, 12 Ma⚡ eess

Estimation of Energy-dissipation Lower-bounds for Neuromorphic Learning-in-memory

Cet article établit des bornes inférieures théoriques pour l'énergie nécessaire à la résolution de problèmes par des optimiseurs neuromorphiques utilisant l'apprentissage en mémoire, en modélisant la thermodynamique hors équilibre de ces systèmes pour en déduire une efficacité énergétique dépendant uniquement du nombre d'opérations, de la taille du modèle, de la vitesse de convergence et de la précision.

Zihao Chen, Faiek Ahsan, Johannes Leugering, Gert Cauwenberghs, Shantanu ChakrabarttyMon, 09 Ma🤖 cs.AI

Linear Layouts: Robust Code Generation of Efficient Tensor Computation Using $\mathbb{F}_2$

Ce papier présente « Linear Layouts », une approche novatrice modélisant les agencements de tenseurs via l'algèbre linéaire sur $\mathbb{F}_2$ pour permettre une définition générique et des conversions efficaces, réduisant ainsi l'effort d'ingénierie et les bogues dans le backend du compilateur Triton.

Keren Zhou, Mario Lezcano, Adam Goucher, Akhmed Rakhmati, Jeff Niu, Justin Lebar, Pawel Szczerbuk, Peter Bell, Phil Tillet, Thomas Raoux, Zahi MoudallalMon, 09 Ma💻 cs

Scalable Digital Compute-in-Memory Ising Machines for Robustness Verification of Binary Neural Networks

Cet article présente une machine d'Ising numérique basée sur la mémoire de calcul (DCIM) qui reformule la vérification de robustesse des réseaux de neurones binaires sous forme de problème d'optimisation binaire pour identifier efficacement des perturbations adverses, offrant ainsi une accélération de 178 fois et une amélioration de l'efficacité énergétique de 1538 fois par rapport aux implémentations CPU classiques.

Madhav Vadlamani, Rahul Singh, Yuyao Kong, Zheng Zhang, Shimeng YuMon, 09 Ma💻 cs

LUMINA: LLM-Guided GPU Architecture Exploration via Bottleneck Analysis

LUMINA est un cadre d'exploration architecturale de GPU piloté par les grands modèles de langage (LLM) qui améliore l'efficacité et la qualité de la conception pour les charges de travail d'IA en automatisant l'analyse des goulots d'étranglement et en générant des règles de conception auto-correctives, surpassant ainsi les méthodes d'apprentissage automatique traditionnelles avec un coût de recherche considérablement réduit.

Tao Zhang, Rui Ma, Shuotao Xu, Peng Cheng, Yongqiang XiongMon, 09 Ma🤖 cs.AI

A Persistent-State Dataflow Accelerator for Memory-Bound Linear Attention Decode on FPGA

Cet article présente un accélérateur FPGA qui résout le goulot d'étranglement mémoire du décodage Gated DeltaNet en hébergeant l'état récurrent persistant dans la BRAM embarquée, permettant ainsi d'atteindre une latence 4,5 fois inférieure et une efficacité énergétique 60 fois supérieure par rapport aux GPU NVIDIA H100.

Neelesh Gupta, Peter Wang, Rajgopal Kannan, Viktor K. PrasannaMon, 09 Ma🤖 cs.LG

← Précédent Suivant →

cs.AR