cs.AR articoli | Gist.Science

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

Questo articolo presenta l'architettura numerica ibrida HRFNA, un sistema basato su aritmetica residua e scalatura esponenziale che, grazie a una rigorosa fondazione matematica e a un'implementazione FPGA ottimizzata, offre un elevato throughput, una riduzione delle risorse e un'efficienza energetica superiore rispetto all'IEEE 754 FP32, mantenendo al contempo errori numerici strettamente limitati.

Mostafa DarvishiWed, 11 Ma💻 cs

Unveiling the Potential of Quantization with MXFP4: Strategies for Quantization Error Reduction

Il paper introduce due tecniche software, Overflow-Aware Scaling e Macro Block Scaling, che riducono drasticamente il divario di accuratezza tra il formato MXFP4 e NVFP4 nei grandi modelli linguistici, rendendo MXFP4 un'alternativa pratica ed efficiente dal punto di vista hardware senza richiedere modifiche all'hardware.

Jatin Chhugani, Geonhwa Jeong, Bor-Yiing Su, Yunjie Pan, Hanmei Yang, Aayush Ankit, Jiecao Yu, Summer Deng, Yunqing Chen, Nadathur Satish, Changkyu KimWed, 11 Ma🤖 cs.AI

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

Questo studio empirico mappizza le interazioni tra modelli linguistici e strategie di prompting nella generazione di codice Verilog, valutando l'impatto di diverse tecniche di ingegneria dei prompt e di ottimizzazione evolutiva su una vasta gamma di modelli di dimensioni e specializzazioni diverse.

Luca Collini, Andrew Hennesee, Patrick Yubeaton, Siddharth Garg, Ramesh KarriWed, 11 Ma💻 cs

Design Conductor: An agent autonomously builds a 1.5 GHz Linux-capable RISC-V CPU

Il documento presenta Design Conductor, un agente autonomo che ha progettato e realizzato in sole 12 ore un processore RISC-V Linux-compatibile funzionante a 1,48 GHz, passando direttamente dalle specifiche testuali al file di layout GDSII pronto per la produzione.

The Verkor Team, Ravi Krishna, Suresh Krishna, David ChinWed, 11 Ma🤖 cs.AI

CktEvo: Repository-Level RTL Code Benchmark for Design Evolution

Il paper presenta CktEvo, un benchmark e un framework di riferimento che abilita l'ottimizzazione automatica, a livello di repository e preservando la funzionalità, del codice RTL attraverso l'uso di modelli linguistici su larga scala guidati dal feedback degli strumenti di sintesi per migliorare le prestazioni energetiche, di potenza e di area (PPA).

Zhengyuan Shi, Jingxin Wang, Tairan Cheng, Changran Xu, Weikang Qian, Qiang XuWed, 11 Ma🤖 cs.AI

SiliconMind-V1: Multi-Agent Distillation and Debug-Reasoning Workflows for Verilog Code Generation

Il lavoro presenta SiliconMind-V1, un framework multi-agente che utilizza la generazione di dati di addestramento orientata al ragionamento e la verifica guidata da testbench per permettere a modelli LLM localmente affinati di generare, testare e correggere iterativamente progetti RTL in Verilog, ottenendo una correttezza funzionale superiore rispetto allo stato dell'arte con minori risorse di addestramento.

Mu-Chi Chen, Yu-Hung Kao, Po-Hsuan Huang, Shao-Chun Ho, Hsiang-Yu Tsou, I-Ting Wu, En-Ming Huang, Yu-Kai Hung, Wei-Po Hsin, Cheng Liang, Chia-Heng Tu, Shih-Hao Hung, Hsiang-Tsung KungWed, 11 Ma🤖 cs.AI

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Il paper presenta AnalogToBi, un framework che genera automaticamente topologie di circuiti analogici a livello di dispositivo con alta validità e novità, combinando una rappresentazione a grafo bipartito, un controllo funzionale esplicito e un decoding guidato da grammatica per garantire la validità elettrica.

Seungmin Kim, Mingun Kim, Yuna Lee, Yulhwa KimWed, 11 Ma💻 cs

KernelCraft: Benchmarking for Agentic Close-to-Metal Kernel Generation on Emerging Hardware

Il paper presenta KernelCraft, il primo benchmark che valuta la capacità di agenti LLM di generare e ottimizzare automaticamente kernel a basso livello per acceleratori emergenti con nuove ISAs, dimostrando come un flusso di lavoro guidato da feedback possa ridurre i costi di sviluppo e produrre kernel validi ed efficienti.

Jiayi Nie, Haoran Wu, Yao Lai, Zeyu Cao, Cheng Zhang, Binglei Lou, Erwei Wang, Jianyi Cheng, Timothy M. Jones, Robert Mullins, Rika Antonova, Yiren ZhaoWed, 11 Ma🤖 cs.LG

ALADIN: Accuracy-Latency-Aware Design-space Inference Analysis for Embedded AI Accelerators

Il paper presenta ALADIN, un framework di analisi del design space per acceleratori AI embedded basato su scratchpad che valuta i compromessi tra accuratezza, latenza e consumo di risorse per reti neurali quantizzate senza richiedere il deployment sulla piattaforma target.

T. Baldi, D. Casini, A. BiondiWed, 11 Ma🤖 cs.AI

PhD Thesis Summary: Methods for Reliability Assessment and Enhancement of Deep Neural Network Hardware Accelerators

Questa tesi di dottorato presenta metodi innovativi ed economici per valutare e migliorare l'affidabilità degli acceleratori hardware per reti neurali profonde, introducendo nuovi strumenti analitici, ottimizzando i compromessi tra efficienza e tolleranza ai guasti e sviluppando la tecnica AdAM per l'enhancement dell'affidabilità in tempo reale senza sovraccarico.

Mahdi TaheriWed, 11 Ma🤖 cs.AI

Performance Analysis of Edge and In-Sensor AI Processors: A Comparative Review

Questo articolo offre una revisione comparativa dei processori AI edge e in-sensor, integrando un'analisi architetturale con benchmark empirici su tre piattaforme rappresentative (GAP9, STM32N6 e Sony IMX500) per evidenziare i compromessi tra latenza, efficienza energetica e il crescente potenziale dell'elaborazione direttamente nel sensore.

Luigi Capogrosso, Pietro Bonazzi, Michele MagnoWed, 11 Ma🤖 cs.LG

Data-Rate-Aware High-Speed CNN Inference on FPGAs

Questo articolo presenta un'architettura acceleratore CNN per FPGA che, attraverso l'esplorazione dello spazio di progettazione e l'elaborazione multi-pixel, adatta dinamicamente l'implementazione hardware alle variazioni del tasso di dati tra i layer, massimizzando l'utilizzo delle risorse e riducendo il consumo di componenti aritmetici per l'esecuzione efficiente di reti complesse.

Tobias Habermann, Martin KummWed, 11 Ma🤖 cs.LG

ARKV: Adaptive and Resource-Efficient KV Cache Management under Limited Memory Budget for Long-Context Inference in LLMs

Il paper presenta ARKV, un framework adattivo e leggero che ottimizza la gestione della cache KV per l'inferenza di LLM in contesti lunghi, riducendo l'uso di memoria GPU di 4 volte mantenendo il 97% dell'accuratezza di base senza richiedere riaddestramento o modifiche architetturali.

Jianlong Lei, Shashikant IlagerWed, 11 Ma🤖 cs.AI

Fair and Square: Replacing One Real Multiplication with a Single Square and One Complex Multiplication with Three Squares When Performing Matrix Multiplication and Convolutions

Questo articolo dimostra che è possibile sostituire asintoticamente ogni moltiplicazione reale con un singolo quadrato e ogni moltiplicazione complessa con tre quadrati nelle moltiplicazioni di matrici e nelle convoluzioni, ottenendo così significativi risparmi di risorse hardware grazie alla minore complessità dei circuiti di elevamento al quadrato rispetto ai moltiplicatori.

Vincenzo LiguoriWed, 11 Ma💻 cs

Measurement-Free Ancilla Recycling via Blind Reset: A Cross-Platform Study on Superconducting and Trapped-Ion Processors

Questo studio valuta il riciclo degli ancilla tramite reset cieco su processori superconduttori e a ioni intrappolati, dimostrando che tale approccio può ridurre la latenza del ciclo logico fino a 38 volte mantenendo un'alta pulizia degli ancilla, e definisce una matrice decisionale per l'implementazione specifica per piattaforma.

Sangkeum LeeWed, 11 Ma⚛️ quant-ph

Sensitivity-Guided Framework for Pruned and Quantized Reservoir Computing Accelerators

Questo articolo presenta un framework di compressione per il Reservoir Computing che, sfruttando un meccanismo di pruning basato sulla sensibilità, permette di esplorare sistematicamente i compromessi tra livelli di quantizzazione, tassi di pruning, accuratezza ed efficienza hardware, ottenendo significativi miglioramenti nell'efficienza computazionale e nelle risorse su FPGA senza degradare le prestazioni del modello.

Atousa Jafari, Mahdi Taheri, Hassan Ghasemzadeh Mohammadi, Christian Herglotz, Marco PlatznerWed, 11 Ma🤖 cs.AI

FormalRTL: Verified RTL Synthesis at Scale

Il paper presenta FormalRTL, un innovativo framework multi-agente che integra modelli di riferimento software come specifiche formali per guidare la generazione e la verifica di codice RTL, superando le sfide di scalabilità e affidabilità nella sintesi hardware industriale.

Kezhi Li, Min Li, Xiangyu Wen, Shibo Zhao, Jieying Wu, Junhua Huang, Qiang XuWed, 11 Ma💻 cs

Adaptive Multi-Objective Tiered Storage Configuration for KV Cache in LLM Service

Il paper presenta Kareto, un ottimizzatore adattivo che risolve il problema di configurazione multi-obiettivo della memoria tiered per il KV cache nei servizi LLM, identificando efficientemente il fronte di Pareto per bilanciare costi, throughput e latenza e superando le strategie statiche con miglioramenti significativi nelle prestazioni.

Xianzhe Zheng, Zhengheng Wang, Ruiyan Ma, Rui Wang, Xiyu Wang, Rui Chen, Peng Zhang, Sicheng Pan, Zhangheng Huang, Chenxin Wu, Yi Zhang, Bo Cai, Kan Liu, Teng Ma, Yin Du, Dong Deng, Sai Wu, Guoyun Zhu, Wei Zhang, Feifei LiWed, 11 Ma💻 cs

Architectural Design and Performance Analysis of FPGA based AI Accelerators: A Comprehensive Review

Questo articolo esamina le ottimizzazioni hardware e le architetture degli acceleratori basati su FPGA per il deep learning, evidenziando i loro vantaggi rispetto a GPU e ASIC, le tecniche di ottimizzazione impiegate e le sfide future per migliorare prestazioni ed efficienza energetica.

Soumita Chatterjee, Sudip Ghosh, Tamal Ghosh, Hafizur RahamanWed, 11 Ma🤖 cs.AI

The AetherFloat Family: Block-Scale-Free Quad-Radix Floating-Point Architectures for AI Accelerators

Il documento presenta la famiglia AetherFloat, un'architettura di punto flottante quad-radice (base-4) con mantissa esplicita progettata per acceleratori AI che elimina la necessità di blocchi di scalatura dinamica, riducendo significativamente area, potenza e ritardo critico rispetto agli standard IEEE 754.

Keita MorisakiWed, 11 Ma🤖 cs.LG