Unveiling the Potential of Quantization with MXFP4: Strategies for Quantization Error Reduction

Die Studie stellt zwei rein softwarebasierte Techniken, Overflow-Aware Scaling (OAS) und Macro Block Scaling (MBS), vor, die die Genauigkeit des MXFP4-Formats für Large Language Models signifikant verbessern und die Leistungslücke zu NVFP4 von durchschnittlich 10 % auf unter 1 % verringern, ohne Hardwareänderungen vorzunehmen.

Jatin Chhugani, Geonhwa Jeong, Bor-Yiing Su, Yunjie Pan, Hanmei Yang, Aayush Ankit, Jiecao Yu, Summer Deng, Yunqing Chen, Nadathur Satish, Changkyu KimWed, 11 Ma🤖 cs.AI

CktEvo: Repository-Level RTL Code Benchmark for Design Evolution

Das Paper stellt CktEvo vor, ein Benchmark und Referenzrahmen für die evolutionäre Optimierung von RTL-Code auf Repository-Ebene, der mittels eines geschlossenen Regelkreises aus LLM-Änderungen und Toolchain-Feedback funktionserhaltende Verbesserungen von Leistung, Leistungsaufnahme und Flächennutzung (PPA) in realen Hardware-Designs ohne menschliches Eingreifen ermöglicht.

Zhengyuan Shi, Jingxin Wang, Tairan Cheng, Changran Xu, Weikang Qian, Qiang XuWed, 11 Ma🤖 cs.AI

SiliconMind-V1: Multi-Agent Distillation and Debug-Reasoning Workflows for Verilog Code Generation

Die Arbeit stellt SiliconMind-V1 vor, ein einheitliches Multi-Agenten-Framework, das durch testgestützte Verifikation und Debugging-Workflows lokal feinabgestimmte Sprachmodelle befähigt, funktional korrekten Verilog-Code effizienter zu generieren als bisherige State-of-the-Art-Ansätze.

Mu-Chi Chen, Yu-Hung Kao, Po-Hsuan Huang, Shao-Chun Ho, Hsiang-Yu Tsou, I-Ting Wu, En-Ming Huang, Yu-Kai Hung, Wei-Po Hsin, Cheng Liang, Chia-Heng Tu, Shih-Hao Hung, Hsiang-Tsung KungWed, 11 Ma🤖 cs.AI

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Das Paper stellt AnalogToBi vor, ein Framework zur automatischen Generierung von analogen Schaltungstopologien auf Bauteilebene, das durch eine bipartite Graphendarstellung, grammatikgesteuertes Decodieren und Daten-Augmentierung elektrische Validität sowie hohe Neuheit sicherstellt und dabei die Leistungsfähigkeit bestehender Methoden übertrifft.

Seungmin Kim, Mingun Kim, Yuna Lee, Yulhwa KimWed, 11 Ma💻 cs

KernelCraft: Benchmarking for Agentic Close-to-Metal Kernel Generation on Emerging Hardware

Die Arbeit stellt KernelCraft vor, den ersten Benchmark, der nachweist, dass agentic LLM-Systeme durch einen feedbackgesteuerten Workflow effizient und korrekt optimierte Low-Level-Kernel für neuartige Hardware-Architekturen mit bisher unbekannten Instruktionssätzen generieren können.

Jiayi Nie, Haoran Wu, Yao Lai, Zeyu Cao, Cheng Zhang, Binglei Lou, Erwei Wang, Jianyi Cheng, Timothy M. Jones, Robert Mullins, Rika Antonova, Yiren ZhaoWed, 11 Ma🤖 cs.LG

PhD Thesis Summary: Methods for Reliability Assessment and Enhancement of Deep Neural Network Hardware Accelerators

Diese Doktorarbeit stellt neuartige, kosteneffiziente Methoden zur Zuverlässigkeitsbewertung und -verbesserung von Deep-Learning-Hardware-Beschleunigern vor, darunter analytische Bewertungswerkzeuge, optimierte Kompromisse zwischen Quantisierung und Fehlertoleranz sowie die Echtzeit-Technik AdAM, die eine hohe Zuverlässigkeit bei deutlich reduzierten Hardwarekosten ermöglicht.

Mahdi TaheriWed, 11 Ma🤖 cs.AI

ARKV: Adaptive and Resource-Efficient KV Cache Management under Limited Memory Budget for Long-Context Inference in LLMs

Das Paper stellt ARKV vor, einen adaptiven und ressourceneffizienten Rahmen zur Verwaltung des KV-Caches bei Large Language Models, der durch dynamische Zuweisung von Präzisionsniveaus basierend auf Aufmerksamkeitsdynamiken und Token-Wichtigkeit die Speichernutzung um den Faktor vier reduziert, während die Genauigkeit bei langen Kontexten nahezu erhalten bleibt.

Jianlong Lei, Shashikant IlagerWed, 11 Ma🤖 cs.AI

Fair and Square: Replacing One Real Multiplication with a Single Square and One Complex Multiplication with Three Squares When Performing Matrix Multiplication and Convolutions

Diese Arbeit zeigt, dass sich bei Matrixmultiplikationen und Faltungen asymptotisch jede reelle Multiplikation durch eine einzige Quadrierung und jede komplexe Multiplikation durch drei Quadrierungen ersetzen lässt, was aufgrund des geringeren Hardwareaufwands für Quadrierer zu erheblichen Ressourcenreduktionen führt.

Vincenzo LiguoriWed, 11 Ma💻 cs

Adaptive Multi-Objective Tiered Storage Configuration for KV Cache in LLM Service

Die Arbeit stellt Kareto vor, einen adaptiven Optimierer für die mehrstufige Speicherkonfiguration von KV-Caches in LLM-Diensten, der durch effiziente Pareto-Frontier-Suche und feinkörnige Anpassung die Kosten, den Durchsatz und die Latenz unter variierenden Arbeitslasten signifikant verbessert.

Xianzhe Zheng, Zhengheng Wang, Ruiyan Ma, Rui Wang, Xiyu Wang, Rui Chen, Peng Zhang, Sicheng Pan, Zhangheng Huang, Chenxin Wu, Yi Zhang, Bo Cai, Kan Liu, Teng Ma, Yin Du, Dong Deng, Sai Wu, Guoyun Zhu, Wei Zhang, Feifei LiWed, 11 Ma💻 cs

Architectural Design and Performance Analysis of FPGA based AI Accelerators: A Comprehensive Review

Diese umfassende Übersicht untersucht FPGA-basierte KI-Beschleuniger, indem sie deren architektonische Vorteile gegenüber ASICs und GPUs hervorhebt, verschiedene Hardware-Optimierungstechniken analysiert und aktuelle Herausforderungen sowie zukünftige Innovationsmöglichkeiten für das Design solcher Beschleuniger aufzeigt.

Soumita Chatterjee, Sudip Ghosh, Tamal Ghosh, Hafizur RahamanWed, 11 Ma🤖 cs.AI

The AetherFloat Family: Block-Scale-Free Quad-Radix Floating-Point Architectures for AI Accelerators

Die Arbeit stellt die AetherFloat-Familie vor, eine hardwareoptimierte Quad-Radix-Gleitkomma-Architektur für KI-Beschleuniger, die durch den Verzicht auf Block-Skalierung und die Einführung expliziter Mantissen signifikante Verbesserungen bei Chipfläche, Energieverbrauch und Latenz ermöglicht, wobei AF8 speziell als Block-Scale-Free-Format für Inferenz mit Quantisierungsbewusstsein entwickelt wurde.

Keita MorisakiWed, 11 Ma🤖 cs.LG