cs.AR Arbeiten | Gist.Science

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

Diese Arbeit stellt die Hybrid Residue Floating Numerical Architecture (HRFNA) vor, eine neuartige numerische Architektur für FPGAs, die durch die Kombination von residueller Arithmetik und Exponenten-Skalierung hohe Durchsatzraten und Energieeffizienz bei formal nachweisbaren Fehlergrenzen erreicht.

Mostafa DarvishiWed, 11 Ma💻 cs

Unveiling the Potential of Quantization with MXFP4: Strategies for Quantization Error Reduction

Die Studie stellt zwei rein softwarebasierte Techniken, Overflow-Aware Scaling (OAS) und Macro Block Scaling (MBS), vor, die die Genauigkeit des MXFP4-Formats für Large Language Models signifikant verbessern und die Leistungslücke zu NVFP4 von durchschnittlich 10 % auf unter 1 % verringern, ohne Hardwareänderungen vorzunehmen.

Jatin Chhugani, Geonhwa Jeong, Bor-Yiing Su, Yunjie Pan, Hanmei Yang, Aayush Ankit, Jiecao Yu, Summer Deng, Yunqing Chen, Nadathur Satish, Changkyu KimWed, 11 Ma🤖 cs.AI

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

Die Studie „VeriInteresting" liefert eine empirische Analyse der Wechselwirkungen zwischen verschiedenen Sprachmodellklassen und Prompt-Strategien bei der Verilog-Code-Generierung und identifiziert generalisierbare Muster sowie modellspezifische Trends.

Luca Collini, Andrew Hennesee, Patrick Yubeaton, Siddharth Garg, Ramesh KarriWed, 11 Ma💻 cs

Design Conductor: An agent autonomously builds a 1.5 GHz Linux-capable RISC-V CPU

Der autonome Agent „Design Conductor" hat es erstmals geschafft, innerhalb von 12 Stunden vollständig eigenständig einen funktionsfähigen RISC-V-Prozessor (VerCore) mit einer Taktfrequenz von 1,48 GHz von der Anforderungsspezifikation bis zur fertigen GDSII-Layoutdatei zu entwerfen und zu verifizieren.

The Verkor Team, Ravi Krishna, Suresh Krishna, David ChinWed, 11 Ma🤖 cs.AI

CktEvo: Repository-Level RTL Code Benchmark for Design Evolution

Das Paper stellt CktEvo vor, ein Benchmark und Referenzrahmen für die evolutionäre Optimierung von RTL-Code auf Repository-Ebene, der mittels eines geschlossenen Regelkreises aus LLM-Änderungen und Toolchain-Feedback funktionserhaltende Verbesserungen von Leistung, Leistungsaufnahme und Flächennutzung (PPA) in realen Hardware-Designs ohne menschliches Eingreifen ermöglicht.

Zhengyuan Shi, Jingxin Wang, Tairan Cheng, Changran Xu, Weikang Qian, Qiang XuWed, 11 Ma🤖 cs.AI

SiliconMind-V1: Multi-Agent Distillation and Debug-Reasoning Workflows for Verilog Code Generation

Die Arbeit stellt SiliconMind-V1 vor, ein einheitliches Multi-Agenten-Framework, das durch testgestützte Verifikation und Debugging-Workflows lokal feinabgestimmte Sprachmodelle befähigt, funktional korrekten Verilog-Code effizienter zu generieren als bisherige State-of-the-Art-Ansätze.

Mu-Chi Chen, Yu-Hung Kao, Po-Hsuan Huang, Shao-Chun Ho, Hsiang-Yu Tsou, I-Ting Wu, En-Ming Huang, Yu-Kai Hung, Wei-Po Hsin, Cheng Liang, Chia-Heng Tu, Shih-Hao Hung, Hsiang-Tsung KungWed, 11 Ma🤖 cs.AI

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Das Paper stellt AnalogToBi vor, ein Framework zur automatischen Generierung von analogen Schaltungstopologien auf Bauteilebene, das durch eine bipartite Graphendarstellung, grammatikgesteuertes Decodieren und Daten-Augmentierung elektrische Validität sowie hohe Neuheit sicherstellt und dabei die Leistungsfähigkeit bestehender Methoden übertrifft.

Seungmin Kim, Mingun Kim, Yuna Lee, Yulhwa KimWed, 11 Ma💻 cs

KernelCraft: Benchmarking for Agentic Close-to-Metal Kernel Generation on Emerging Hardware

Die Arbeit stellt KernelCraft vor, den ersten Benchmark, der nachweist, dass agentic LLM-Systeme durch einen feedbackgesteuerten Workflow effizient und korrekt optimierte Low-Level-Kernel für neuartige Hardware-Architekturen mit bisher unbekannten Instruktionssätzen generieren können.

Jiayi Nie, Haoran Wu, Yao Lai, Zeyu Cao, Cheng Zhang, Binglei Lou, Erwei Wang, Jianyi Cheng, Timothy M. Jones, Robert Mullins, Rika Antonova, Yiren ZhaoWed, 11 Ma🤖 cs.LG

ALADIN: Accuracy-Latency-Aware Design-space Inference Analysis for Embedded AI Accelerators

Die Arbeit stellt ALADIN vor, ein Framework zur genauigkeits- und latenzbewussten Analyse des Designraums für gemischt-präzise quantisierte neuronale Netze auf eingebetteten KI-Beschleunigern, das die Bewertung von Trade-offs zwischen Genauigkeit, Latenz und Ressourcenverbrauch ohne physische Bereitstellung auf der Zielplattform ermöglicht.

T. Baldi, D. Casini, A. BiondiWed, 11 Ma🤖 cs.AI

PhD Thesis Summary: Methods for Reliability Assessment and Enhancement of Deep Neural Network Hardware Accelerators

Diese Doktorarbeit stellt neuartige, kosteneffiziente Methoden zur Zuverlässigkeitsbewertung und -verbesserung von Deep-Learning-Hardware-Beschleunigern vor, darunter analytische Bewertungswerkzeuge, optimierte Kompromisse zwischen Quantisierung und Fehlertoleranz sowie die Echtzeit-Technik AdAM, die eine hohe Zuverlässigkeit bei deutlich reduzierten Hardwarekosten ermöglicht.

Mahdi TaheriWed, 11 Ma🤖 cs.AI

Performance Analysis of Edge and In-Sensor AI Processors: A Comparative Review

Diese Arbeit bietet eine umfassende Analyse und einen empirischen Vergleich von Edge- und In-Sensor-AI-Prozessoren, wobei Benchmarks auf GAP9, STM32N6 und Sony IMX500 die überlegene Energieeffizienz und den Reifegrad von In-Sensor-Verarbeitung im Vergleich zu herkömmlichen Mikrocontroller- und Beschleuniger-Architekturen unterstreichen.

Luigi Capogrosso, Pietro Bonazzi, Michele MagnoWed, 11 Ma🤖 cs.LG

Data-Rate-Aware High-Speed CNN Inference on FPGAs

Dieser Artikel stellt eine datenratenbewusste CNN-Beschleunigerarchitektur für FPGAs vor, die durch Multi-Pixel-Verarbeitung und eine optimierte Designraumexploration die Hardwareauslastung verbessert und den Einsatz komplexer CNNs auf einem einzigen FPGA bei verschiedenen Datenraten ermöglicht.

Tobias Habermann, Martin KummWed, 11 Ma🤖 cs.LG

ARKV: Adaptive and Resource-Efficient KV Cache Management under Limited Memory Budget for Long-Context Inference in LLMs

Das Paper stellt ARKV vor, einen adaptiven und ressourceneffizienten Rahmen zur Verwaltung des KV-Caches bei Large Language Models, der durch dynamische Zuweisung von Präzisionsniveaus basierend auf Aufmerksamkeitsdynamiken und Token-Wichtigkeit die Speichernutzung um den Faktor vier reduziert, während die Genauigkeit bei langen Kontexten nahezu erhalten bleibt.

Jianlong Lei, Shashikant IlagerWed, 11 Ma🤖 cs.AI

Fair and Square: Replacing One Real Multiplication with a Single Square and One Complex Multiplication with Three Squares When Performing Matrix Multiplication and Convolutions

Diese Arbeit zeigt, dass sich bei Matrixmultiplikationen und Faltungen asymptotisch jede reelle Multiplikation durch eine einzige Quadrierung und jede komplexe Multiplikation durch drei Quadrierungen ersetzen lässt, was aufgrund des geringeren Hardwareaufwands für Quadrierer zu erheblichen Ressourcenreduktionen führt.

Vincenzo LiguoriWed, 11 Ma💻 cs

Measurement-Free Ancilla Recycling via Blind Reset: A Cross-Platform Study on Superconducting and Trapped-Ion Processors

Diese Studie bewertet die blinden Reset-Verfahren zur ancilla-Wiederverwendung auf Superconducting- und Trapped-Ion-Plattformen und zeigt, dass durch sequenzbasiertes Recycling die Zykluslatenz um bis zu 38-fach reduziert werden kann, während die Ancilla-Reinheit und die logische Fehlerrate erhalten bleiben.

Sangkeum LeeWed, 11 Ma⚛️ quant-ph

Sensitivity-Guided Framework for Pruned and Quantized Reservoir Computing Accelerators

Diese Arbeit stellt einen Sensitivitäts-basierten Kompressionsrahmen für Reservoir Computing vor, der durch systematische Kombination von Pruning und Quantisierung die Hardware-Effizienz auf FPGAs erheblich steigert, ohne die Modellgenauigkeit zu beeinträchtigen.

Atousa Jafari, Mahdi Taheri, Hassan Ghasemzadeh Mohammadi, Christian Herglotz, Marco PlatznerWed, 11 Ma🤖 cs.AI

FormalRTL: Verified RTL Synthesis at Scale

Das Paper stellt FormalRTL vor, ein verifiziertes Multi-Agenten-Framework, das Software-Referenzmodelle als formale Spezifikationen nutzt, um die zuverlässige und skalierbare Generierung von industrietauglichem RTL-Code mittels großer Sprachmodelle zu ermöglichen.

Kezhi Li, Min Li, Xiangyu Wen, Shibo Zhao, Jieying Wu, Junhua Huang, Qiang XuWed, 11 Ma💻 cs

Adaptive Multi-Objective Tiered Storage Configuration for KV Cache in LLM Service

Die Arbeit stellt Kareto vor, einen adaptiven Optimierer für die mehrstufige Speicherkonfiguration von KV-Caches in LLM-Diensten, der durch effiziente Pareto-Frontier-Suche und feinkörnige Anpassung die Kosten, den Durchsatz und die Latenz unter variierenden Arbeitslasten signifikant verbessert.

Xianzhe Zheng, Zhengheng Wang, Ruiyan Ma, Rui Wang, Xiyu Wang, Rui Chen, Peng Zhang, Sicheng Pan, Zhangheng Huang, Chenxin Wu, Yi Zhang, Bo Cai, Kan Liu, Teng Ma, Yin Du, Dong Deng, Sai Wu, Guoyun Zhu, Wei Zhang, Feifei LiWed, 11 Ma💻 cs

Architectural Design and Performance Analysis of FPGA based AI Accelerators: A Comprehensive Review

Diese umfassende Übersicht untersucht FPGA-basierte KI-Beschleuniger, indem sie deren architektonische Vorteile gegenüber ASICs und GPUs hervorhebt, verschiedene Hardware-Optimierungstechniken analysiert und aktuelle Herausforderungen sowie zukünftige Innovationsmöglichkeiten für das Design solcher Beschleuniger aufzeigt.

Soumita Chatterjee, Sudip Ghosh, Tamal Ghosh, Hafizur RahamanWed, 11 Ma🤖 cs.AI

The AetherFloat Family: Block-Scale-Free Quad-Radix Floating-Point Architectures for AI Accelerators

Die Arbeit stellt die AetherFloat-Familie vor, eine hardwareoptimierte Quad-Radix-Gleitkomma-Architektur für KI-Beschleuniger, die durch den Verzicht auf Block-Skalierung und die Einführung expliziter Mantissen signifikante Verbesserungen bei Chipfläche, Energieverbrauch und Latenz ermöglicht, wobei AF8 speziell als Block-Scale-Free-Format für Inferenz mit Quantisierungsbewusstsein entwickelt wurde.

Keita MorisakiWed, 11 Ma🤖 cs.LG

Weiter →