cs.AR articoli | Gist.Science

ChatNeuroSim: An LLM Agent Framework for Automated Compute-in-Memory Accelerator Deployment and Optimization

Il paper presenta ChatNeuroSim, un framework basato su agenti LLM che automatizza il deployment e l'ottimizzazione degli acceleratori Compute-in-Memory, riducendo significativamente il tempo necessario per l'esplorazione dello spazio di progettazione e l'identificazione delle configurazioni ottimali per carichi di lavoro DNN.

Ming-Yen Lee, Shimeng YuWed, 11 Ma💻 cs

Diagnosing FP4 inference: a layer-wise and block-wise sensitivity analysis of NVFP4 and MXFP4

Questo studio analizza sistematicamente la sensibilità alla quantizzazione in formato FP4 (MXFP4 e NVFP4) su diverse scale di modelli Qwen2.5, rivelando che i livelli di proiezione MLP sono i più critici e che la sensibilità non si limita esclusivamente ai blocchi finali del modello.

Musa Cim, Burak Topcu, Mahmut Taylan KandemirWed, 11 Ma🤖 cs.AI

bsort: A theoretically efficient non-comparison-based sorting algorithm for integer and floating-point numbers

Il documento presenta bsort, un algoritmo di ordinamento non basato su confronti per interi e numeri in virgola mobile che unifica i casi di segno e floating-point tramite un approccio derivato dal binary quicksort, ottenendo una complessità temporale di $O(wn)$ e uno spazio ausiliario di $O(w)$ .

Benjamín GuzmánWed, 11 Ma💻 cs

The $qs$ Inequality: Quantifying the Double Penalty of Mixture-of-Experts at Inference

Il paper introduce la disuguaglianza $qs$ , un criterio predittivo che dimostra come le architetture Mixture-of-Experts subiscano una "doppia penalità" strutturale durante l'inferenza a causa della frammentazione della memoria e del routing, rendendole spesso meno efficienti rispetto a modelli densi di qualità equivalente, specialmente in contesti lunghi.

Vignesh Adhinarayanan, Nuwan JayasenaWed, 11 Ma🤖 cs.LG

Two Teachers Better Than One: Hardware-Physics Co-Guided Distributed Scientific Machine Learning

Il paper introduce EPIC, un framework di apprendimento automatico scientifico distribuito che, combinando guida hardware e fisica, riduce drasticamente latenza e consumo energetico mantenendo l'accuratezza fisica attraverso la trasmissione di caratteristiche latenti compatte invece dei dati grezzi.

Yuchen Yuan, Junhuan Yang, Hao Wan, Yipei Liu, Hanhan Wu, Youzuo Lin, Lei YangWed, 11 Ma🤖 cs.LG

Wrong Code, Right Structure: Learning Netlist Representations from Imperfect LLM-Generated RTL

Questo lavoro propone un framework di apprendimento che sfrutta la struttura preservata negli RTL generati da LLM, anche quando funzionalmente imperfetti, per superare la scarsità di dati etichettati e migliorare l'analisi delle reti logiche reali.

Siyang Cai, Cangyuan Li, Yinhe Han, Ying WangWed, 11 Ma🤖 cs.AI

DendroNN: Dendrocentric Neural Networks for Energy-Efficient Classification of Event-Based Data

Il paper presenta DendroNN, una rete neurale ispirata ai dendriti biologici che utilizza un meccanismo di ricollegamento senza gradienti e un'architettura hardware asincrona per classificare efficientemente dati basati su eventi, raggiungendo un'efficienza energetica fino a 4 volte superiore rispetto alle soluzioni neuromorfiche esistenti.

Jann Krausse, Zhe Su, Kyrus Mama, Maryada, Klaus Knobloch, Giacomo Indiveri, Jürgen BeckerWed, 11 Ma🤖 cs.AI

TrainDeeploy: Hardware-Accelerated Parameter-Efficient Fine-Tuning of Small Transformer Models at the Extreme Edge

Il paper presenta TrainDeeploy, un framework che abilita il primo addestramento end-to-end di modelli Transformer e CNN su SoC ultra-low-power basati su RISC-V, ottimizzando l'efficienza hardware e riducendo l'uso di memoria attraverso strategie di fine-tuning parametrico come LoRA.

Run Wang, Victor J. B. Jung, Philip Wiese, Francesco Conti, Alessio Burrello, Luca BeniniWed, 11 Ma🤖 cs.LG

Nemo: A Low-Write-Amplification Cache for Tiny Objects on Log-Structured Flash Devices

Il paper presenta Nemo, una nuova architettura di cache per dispositivi flash che riduce l'amplificazione di scrittura nei carichi di lavoro con oggetti di piccole dimensioni aumentando la probabilità di collisione hash e utilizzando un indicizzazione basata su filtro di Bloom e un tracciamento ibrido della "calorezza" per garantire alta efficienza di memoria e basso tasso di mancate.

Xufeng Yang, Tingting Tan, Jingxin Hu, Congming Gao, Mingyang Liu, Tianyang Jiang, Jian Chen, Linbo Long, Yina Lv, Jiwu ShuWed, 11 Ma💻 cs

HaLoRA: Hardware-aware Low-Rank Adaptation for Large Language Models Based on Hybrid Compute-in-Memory Architecture

Il paper propone HaLoRA, un metodo di adattamento a basso rango consapevole dell'hardware che combina architetture di calcolo in memoria ibride (RRAM per i pesi preaddestrati e SRAM per i rami LoRA) con una nuova strategia di addestramento robusto al rumore, ottenendo un drastico risparmio energetico (circa il 3% rispetto a una GPU Nvidia A100) e un miglioramento delle prestazioni fino al 22,7% su modelli LLM come Qwen e LLaMA.

Taiqiang Wu, Chenchen Ding, Wenyong Zhou, Yuxin Cheng, Xincheng Feng, Shuqi Wang, Wendong Xu, Chufan Shi, Zhengwu Liu, Ngai WongTue, 10 Ma💬 cs.CL

HDLxGraph: Bridging Large Language Models and HDL Repositories via HDL Graph Databases

Il paper presenta HDLxGraph, un nuovo framework che integra le caratteristiche grafiche intrinseche dei linguaggi HDL (tramite AST e DFG) nei sistemi RAG per migliorare significativamente le prestazioni di ricerca, debug e completamento del codice rispetto agli approcci basati sulla similarità semantica, supportato dal nuovo benchmark HDLSearch.

Pingqing Zheng (Katie), Jiayin Qin (Katie), Fuqi Zhang (Katie), Niraj Chitla (Katie), Zishen Wan (Katie), Shang Wu (Katie), Yu Cao (Katie), Caiwen Ding (Katie), Yang (Katie), ZhaoTue, 10 Ma🤖 cs.LG

Optimized Many-Hypercube Codes toward Lower Logical Error Rates and Earlier Realization

Il paper propone l'ottimizzazione dei codici many-hypercube utilizzando configurazioni più piccole come $D_{6,4,4}$ , che, nonostante blocchi di qubit più grandi, offrono tassi di errore logico inferiori e una riduzione del 60% dell'overhead rispetto ai progetti originali, facilitando così una realizzazione sperimentale precoce del calcolo quantistico tollerante ai guasti ad alto tasso.

Hayato GotoTue, 10 Ma⚛️ quant-ph

Continuous-Flow Data-Rate-Aware CNN Inference on FPGA

Questo lavoro presenta un'architettura CNN a flusso continuo e consapevole del tasso di dati per FPGA che risolve il problema del sottoutilizzo delle unità hardware nelle reti convoluzionali, garantendo un utilizzo vicino al 100% e permettendo l'implementazione di modelli complessi come MobileNet su un singolo dispositivo con elevata efficienza.

Tobias Habermann, Michael Mecik, Zhenyu Wang, César David Vera, Martin Kumm, Mario GarridoTue, 10 Ma🤖 cs.LG

Orion: Characterizing and Programming Apple's Neural Engine for LLM Training and Inference

Il paper presenta Orion, il primo sistema end-to-end open che bypassa CoreML per abilitare l'addestramento e l'inferenza di modelli linguistici direttamente sul Neural Engine di Apple, superando le limitazioni di compilazione tramite tecniche di patching dei pesi e ottenendo un significativo aumento della velocità di addestramento.

Ramchand KumaresanTue, 10 Ma🤖 cs.LG

Space-Control: Process-Level Isolation for Sharing CXL-based Disaggregated Memory

Il paper presenta Space-Control, un progetto hardware-software che colma il divario di sicurezza nella memoria disaggregata CXL fornendo isolamento a livello di processo con un overhead prestazionale minimo del 3,3%.

Kaustav Goswami, Sean Peisert, Venkatesh Akella, Jason Lowe-PowerTue, 10 Ma💻 cs

Mozart: Modularized and Efficient MoE Training on 3.5D Wafer-Scale Chiplet Architectures

Il paper presenta Mozart, un framework di co-progettazione algoritmo-hardware che ottimizza l'addestramento efficiente dei modelli LLM basati su Mixture-of-Experts su architetture di chiplet su scala wafer 3.5D, risolvendo le sfide di località della memoria e sovraccarico di comunicazione attraverso strategie di allocazione degli esperti e meccanismi di scheduling a grana fine.

Shuqing Luo (Katie), Ye Han (Katie), Pingzhi Li (Katie), Jiayin Qin (Katie), Jie Peng (Katie), Yang (Katie), Zhao (Kevin), Yu (Kevin), Cao, Tianlong ChenTue, 10 Ma💻 cs

Explainable and Hardware-Efficient Jamming Detection for 5G Networks Using the Convolutional Tsetlin Machine

Questo articolo presenta un metodo di rilevamento del jamming per le reti 5G basato sulla Convolutional Tsetlin Machine (CTM), che offre un'alternativa efficiente in termini di risorse, interpretabile e adatta all'hardware rispetto alle reti neurali convoluzionali, garantendo prestazioni comparabili con tempi di addestramento ridotti e un minore consumo di memoria su dispositivi edge.

Vojtech Halenka, Mohammadreza Amini, Per-Arne Andersen, Ole-Christoffer Granmo, Burak KantarciTue, 10 Ma🤖 cs.LG

Accelerating Diffusion Models for Generative AI Applications with Silicon Photonics

Questo articolo presenta un nuovo acceleratore basato sulla fotonica del silicio per i modelli di diffusione, che garantisce un'efficienza energetica tre volte superiore e un throughput 5,5 volte migliore rispetto alle soluzioni elettroniche attuali, affrontando così le sfide di sostenibilità nell'IA generativa.

Tharini Suresh, Salma Afifi, Sudeep PasrichaTue, 10 Ma🤖 cs.LG

Mitigating the Memory Bottleneck with Machine Learning-Driven and Data-Aware Microarchitectural Techniques

Questa tesi dimostra che l'adozione di tecniche microarchitettoniche guidate dai dati e dall'apprendimento automatico, che sfruttano le caratteristiche semantiche delle applicazioni e i comportamenti di esecuzione osservati, supera efficacemente i colli di bottiglia della memoria, migliorando significativamente le prestazioni e l'efficienza energetica rispetto alle soluzioni tradizionali.

Rahul BeraTue, 10 Ma🤖 cs.LG

ConnChecker: Automated Root-Cause Analysis for Formal Connectivity Check via Graph

Il paper presenta ConnChecker, un approccio basato su grafi che automatizza l'analisi delle cause profonde nei controlli di connettività formale, riducendo fino all'80% i tempi di debug su complessi SoC industriali.

Do Ngoc Tiep, Nguyen Linh Anh, Luu Danh MinhTue, 10 Ma💻 cs

← Precedente Successivo →

cs.AR