cs.AR articoli | Gist.Science

GOMA: Geometrically Optimal Mapping via Analytical Modeling for Spatial Accelerators

Il paper presenta GOMA, un framework di mappatura globale ottimale per acceleratori spaziali basato su un modello analitico geometrico, che garantisce la ricerca della soluzione migliore con una complessità di valutazione costante, migliorando significativamente l'efficienza energetica e riducendo i tempi di esplorazione rispetto agli approcci esistenti.

Wulve Yang, Hailong Zou, Rui Zhou, Jionghao Zhang, Qiang Li, Gang Li, Yi Zhan, Shushan QiaoTue, 10 Ma💻 cs

Why Learn What Physics Already Knows? Realizing Agile mmWave-based Human Pose Estimation via Physics-Guided Preprocessing

Questo paper propone un approccio di pre-elaborazione guidato dalla fisica per la stima della posa umana tramite onde millimetriche, che sostituendo i moduli basati sui dati con modelli espliciti delle correlazioni fisiche e della cinematica umana, riduce drasticamente i parametri e il costo computazionale mantenendo un'accuratezza competitiva e abilitando il deployment in tempo reale su Raspberry Pi.

Shuntian Zheng, Jiaqi Li, Minzhe Ni, Xiaoman Lu, Yu GuanTue, 10 Ma💻 cs

Trust Nothing: RTOS Security without Run-Time Software TCB (Extended Version)

Questo lavoro presenta un'architettura di capacità innovativa e un'implementazione FPGA che, disaggregando il sistema operativo Zephyr in componenti isolati, garantisce la sicurezza dei dispositivi embedded senza richiedere modifiche hardware alle periferiche e rendendo tutti i componenti software a runtime non attendibili.

Eric Ackermann, Sven BugielTue, 10 Ma💻 cs

Managing Classical Processing Requirements for Quantum Error Correction

Il documento propone un framework di pianificazione e scheduling a due livelli gestito dal sistema operativo quantistico per ottimizzare l'uso degli acceleratori classici nei decoder di correzione degli errori, riducendo i requisiti hardware del 10-40% e affrontando le fluttuazioni imprevedibili della domanda computazionale.

Satvik Maurya, Abtin Molavi, Aws Albarghouthi, Swamit TannuThu, 12 Ma⚛️ quant-ph

Machine Learning on Heterogeneous, Edge, and Quantum Hardware for Particle Physics (ML-HEQUPP)

Questo documento presenta una visione comunitaria per identificare e prioritizzare le opportunità di ricerca e sviluppo nei sistemi hardware basati sull'intelligenza artificiale e nel loro utilizzo nella fisica delle particelle, al fine di affrontare le sfide poste dai futuri esperimenti caratterizzati da volumi di dati senza precedenti e ambienti operativi estremi.

Julia Gonski (Sunny), Jenni Ott (Sunny), Shiva Abbaszadeh (Sunny), Sagar Addepalli (Sunny), Matteo Cremonesi (Sunny), Jennet Dickinson (Sunny), Giuseppe Di Guglielmo (Sunny), Erdem Yigit Ertorer (Sunny), Lindsey Gray (Sunny), Ryan Herbst (Sunny), Christian Herwig (Sunny), Tae Min Hong (Sunny), Benedikt Maier (Sunny), Maryam Bayat Makou (Sunny), David Miller (Sunny), Mark S. Neubauer (Sunny), Cristián Peña (Sunny), Dylan Rankin (Sunny), Seon-Hee (Sunny), Seo, Giordon Stark, Alexander Tapper, Audrey Corbeil Therrien, Ioannis Xiotidis, Keisuke Yoshihara, G Abarajithan, Sagar Addepalli, Nural Akchurin, Carlos Argüelles, Saptaparna Bhattacharya, Lorenzo Borella, Christian Boutan, Tom Braine, James Brau, Martin Breidenbach, Antonio Chahine, Talal Ahmed Chowdhury, Yuan-Tang Chou, Seokju Chung, Alberto Coppi, Mariarosaria D'Alfonso, Abhilasha Dave, Chance Desmet, Angela Di Fulvio, Karri DiPetrillo, Javier Duarte, Auralee Edelen, Jan Eysermans, Yongbin Feng, Emmett Forrestel, Dolores Garcia, Loredana Gastaldo, Julián García Pardiñas, Lino Gerlach, Loukas Gouskos, Katya Govorkova, Carl Grace, Christopher Grant, Philip Harris, Ciaran Hasnip, Timon Heim, Abraham Holtermann, Tae Min Hong, Gian Michele Innocenti, Koji Ishidoshiro, Miaochen Jin, Jyothisraj Johnson, Stephen Jones, Andreas Jung, Georgia Karagiorgi, Ryan Kastner, Nicholas Kamp, Doojin Kim, Kyoungchul Kong, Katie Kudela, Jelena Lalic, Bo-Cheng Lai, Yun-Tsung Lai, Tommy Lam, Jeffrey Lazar, Aobo Li, Zepeng Li, Haoyun Liu, Vladimir Lončar, Luca Macchiarulo, Christopher Madrid, Benedikt Maier, Zhenghua Ma, Prashansa Mukim, Mark S. Neubauer, Victoria Nguyen, Sungbin Oh, Isobel Ojalvo, Hideyoshi Ozaki, Simone Pagan Griso, Myeonghun Park, Christoph Paus, Santosh Parajuli, Benjamin Parpillon, Sara Pozzi, Ema Puljak, Benjamin Ramhorst, Amy Roberts, Larry Ruckman, Kate Scholberg, Sebastian Schmitt, Noah Singer, Eluned Anne Smith, Alexandre Sousa, Michael Spannowsky, Sioni Summers, Yanwen Sun, Daniel Tapia Takaki, Antonino Tumeo, Caterina Vernieri, Belina von Krosigk, Yash Vora, Linyan Wan, Michael H. L. S. Wang, Amanda Weinstein, Andy White, Simon Williams, Felix YuThu, 12 Ma⚛️ hep-ex

RedFuser: An Automatic Operator Fusion Framework for Cascaded Reductions on AI Accelerators

Il paper presenta RedFuser, un framework automatico che ottimizza le prestazioni degli acceleratori AI fondendo in un singolo ciclo le operazioni di riduzione concatenate, superando i limiti dei compilatori esistenti e raggiungendo velocità fino a 5 volte superiori.

Xinsheng Tang, Yangcheng Li, Nan Wang, Zhiyi Shu, Xingyu Ling, Junna Xing, Peng Zhou, Qiang LiuThu, 12 Ma🤖 cs.AI

The DMA Streaming Framework: Kernel-Level Buffer Orchestration for High-Performance AI Data Paths

Questo articolo presenta dmaplane, un modulo del kernel Linux che orchestra la gestione dei buffer a livello di sistema per ottimizzare i percorsi dei dati nell'IA, abilitando funzionalità avanzate come la condivisione cross-device tramite dma-buf, il controllo di flusso basato su crediti e l'inferenza disaggregata end-to-end su RDMA.

Marco GrazianoThu, 12 Ma🤖 cs.AI

Architecture-Aware LLM Inference Optimization on AMD Instinct GPUs: A Comprehensive Benchmark and Deployment Study

Questo studio presenta una valutazione trasversale dell'inferenza di LLM su GPU AMD Instinct MI325X, dimostrando che l'ottimizzazione consapevole dell'architettura è fondamentale per massimizzare il throughput e la stabilità, evidenziando come modelli MoE+MLA e GQA richiedano configurazioni specifiche del runtime AITER e blocchi di cache diversi per raggiungere prestazioni competitive.

Athos GeorgiouThu, 12 Ma🤖 cs.AI

HTM-EAR: Importance-Preserving Tiered Memory with Hybrid Routing under Saturation

Il paper introduce HTM-EAR, un sistema di memoria gerarchica che combina memoria di lavoro basata su HNSW e archiviazione a lungo termine con un routing ibrido e meccanismi di evizione consapevoli dell'importanza, dimostrando di preservare l'accuratezza delle query attive e di gestire efficacemente il contesto limitato anche in condizioni di saturazione estrema.

Shubham Kumar SinghThu, 12 Ma🤖 cs.AI

Multi-Agent Memory from a Computer Architecture Perspective: Visions and Challenges Ahead

Questo articolo di posizione inquadra la memoria dei sistemi multi-agente come un problema di architettura informatica, proponendo una gerarchia a tre livelli e identificando la coerenza della memoria come la sfida aperta più critica per garantire sistemi scalabili e affidabili.

Zhongming Yu, Naicheng Yu, Hejia Zhang, Wentao Ni, Mingrui Yin, Jiaying Yang, Yujie Zhao, Jishen ZhaoThu, 12 Ma🤖 cs.AI

Pooling Engram Conditional Memory in Large Language Models using CXL

Questo articolo propone l'utilizzo di un pool di memoria CXL per archiviare la memoria engramma condizionale nei grandi modelli linguistici, integrandolo in SGLang per ottenere prestazioni end-to-end vicine a quelle della DRAM e offrire una soluzione di storage scalabile ed economica senza compromettere l'inferenza.

Ruiyang Ma, Teng Ma, Zhiyuan Su, Hantian Zha, Xinpeng Zhao, Xuchun Shang, Xingrui Yi, Zheng Liu, Zhu Cao, An Wu, Zhichong Dou, Ziqian Liu, Daikang Kuang, Guojie LuoThu, 12 Ma💻 cs

Hardware Efficient Approximate Convolution with Tunable Error Tolerance for CNNs

Il paper propone un paradigma di "sparsità morbida" basato su un proxy hardware efficiente dei bit più significativi, integrato come istruzione RISC-V, che riduce drasticamente le operazioni MAC e il consumo energetico nelle CNN senza compromettere l'accuratezza, superando di cinque volte le tecniche tradizionali di skipping degli zeri.

Vishal Shashidhar, Anupam Kumari, Roy P PailyThu, 12 Ma🤖 cs.LG

In-Memory ADC-Based Nonlinear Activation Quantization for Efficient In-Memory Computing

Questo articolo presenta la quantizzazione K-Means a soppressione dei bordi (BS-KMQ), un nuovo metodo di quantizzazione non lineare che riduce i requisiti di risoluzione degli ADC e migliora l'efficienza energetica e le prestazioni nei sistemi di calcolo in memoria, ottenendo significativi guadagni di velocità ed energia rispetto alle tecniche esistenti.

Shuai Dong, Junyi Yang, Biyan Zhou, Hongyang Shang, Gourav Datta, Arindam BasuThu, 12 Ma💻 cs

An FPGA Implementation of Displacement Vector Search for Intra Pattern Copy in JPEG XS

Questo articolo presenta un'architettura FPGA pipeline ottimizzata per la ricerca del vettore di spostamento nello strumento Intra Pattern Copy di JPEG XS, che raggiunge una velocità di elaborazione di 38,3 Mpixels/s con un consumo di 277 mW, facilitando così l'implementazione hardware pratica di questa tecnica di compressione.

Qiyue Chen, Yao Li, Jie Tao, Song Chen, Li Li, Dong LiuThu, 12 Ma⚡ eess

Reference Architecture of a Quantum-Centric Supercomputer

Questo articolo presenta un'architettura di riferimento e una roadmap per i supercomputer centrati sul quantum (QCSC), sistemi co-progettati che integrano unità di elaborazione quantistica, GPU e CPU per superare le limitazioni attuali e accelerare la scoperta di algoritmi ibridi in ambiti come la chimica e la scienza dei materiali.

Seetharami Seelam, Jerry M. Chow, Antonio Córcoles, Sarah Sheldon, Tushar Mittal, Abhinav Kandala, Sean Dague, Ian Hincks, Hiroshi Horii, Blake Johnson, Michael Le, Hani Jamjoom, Jay M. GambettaThu, 12 Ma⚡ eess

Estimation of Energy-dissipation Lower-bounds for Neuromorphic Learning-in-memory

Questo articolo deriva stime teoriche sui limiti inferiori del consumo energetico per ottimizzatori neuromorfici basati sull'apprendimento in memoria, analizzando la termodinamica fuori equilibrio per determinare l'efficienza energetica in funzione di operazioni, dimensioni del modello, velocità di convergenza e precisione.

Zihao Chen, Faiek Ahsan, Johannes Leugering, Gert Cauwenberghs, Shantanu ChakrabarttyMon, 09 Ma🤖 cs.AI

Linear Layouts: Robust Code Generation of Efficient Tensor Computation Using $\mathbb{F}_2$

Il paper introduce "Linear Layouts", un approccio innovativo che modella le disposizioni dei tensori tramite algebra lineare su $\mathbb{F}_2$ per generare codice efficiente, offrire definizioni generiche e conversioni flessibili, riducendo l'errore umano e i costi computazionali nell'integrazione con Triton.

Keren Zhou, Mario Lezcano, Adam Goucher, Akhmed Rakhmati, Jeff Niu, Justin Lebar, Pawel Szczerbuk, Peter Bell, Phil Tillet, Thomas Raoux, Zahi MoudallalMon, 09 Ma💻 cs

Scalable Digital Compute-in-Memory Ising Machines for Robustness Verification of Binary Neural Networks

Questo lavoro propone una macchina di Ising digitale basata su SRAM e compute-in-memory che riformula la verifica della robustezza delle reti neurali binarie come un problema di ottimizzazione QUBO, ottenendo proiettati significativi in termini di accelerazione e efficienza energetica rispetto alle implementazioni CPU tradizionali.

Madhav Vadlamani, Rahul Singh, Yuyao Kong, Zheng Zhang, Shimeng YuMon, 09 Ma💻 cs

LUMINA: LLM-Guided GPU Architecture Exploration via Bottleneck Analysis

LUMINA è un framework di esplorazione architetturale GPU guidato da modelli linguistici (LLM) che, attraverso l'analisi automatizzata dei colli di bottiglia e l'auto-correzione delle regole di ottimizzazione, identifica in modo efficiente design superiori rispetto all'A100 con un costo di ricerca drasticamente inferiore rispetto ai metodi tradizionali e basati su machine learning.

Tao Zhang, Rui Ma, Shuotao Xu, Peng Cheng, Yongqiang XiongMon, 09 Ma🤖 cs.AI

A Persistent-State Dataflow Accelerator for Memory-Bound Linear Attention Decode on FPGA

Il paper presenta un acceleratore FPGA che risolve il collo di bottiglia di memoria nella decodifica di Gated DeltaNet mantenendo lo stato ricorrente persistente nella memoria on-chip, ottenendo così una velocità 4,5 volte superiore e un'efficienza energetica fino a 60 volte migliore rispetto alle GPU.

Neelesh Gupta, Peter Wang, Rajgopal Kannan, Viktor K. PrasannaMon, 09 Ma🤖 cs.LG

← Precedente Successivo →

cs.AR