Diagnosing FP4 inference: a layer-wise and block-wise sensitivity analysis of NVFP4 and MXFP4

Diese Studie führt eine systematische, schichten- und blockweise Sensitivitätsanalyse der FP4-Quantisierungsformate NVFP4 und MXFP4 auf verschiedenen Qwen2.5-Modellskalen durch und identifiziert dabei, dass MLP-Projektionsschichten die höchste Empfindlichkeit aufweisen, während die Sensitivität nicht ausschließlich auf die letzten Blöcke beschränkt ist.

Musa Cim, Burak Topcu, Mahmut Taylan KandemirWed, 11 Ma🤖 cs.AI

The qsqs Inequality: Quantifying the Double Penalty of Mixture-of-Experts at Inference

Die Arbeit führt die qsqs-Ungleichung ein, um zu zeigen, dass Mixture-of-Experts-Modelle aufgrund einer doppelten Ineffizienz bei der Inferenz – nämlich fragmentierter Gewichtswiederverwendung und begrenztem HBM-Speicher für den KV-Cache – bei langen Kontexten strukturell gegenüber dichteren Modellen benachteiligt sind, was ihre Trainings-FLOP-Effizienz nicht auf die Laufzeitleistung überträgt.

Vignesh Adhinarayanan, Nuwan JayasenaWed, 11 Ma🤖 cs.LG

DendroNN: Dendrocentric Neural Networks for Energy-Efficient Classification of Event-Based Data

Die Arbeit stellt DendroNN vor, ein neuartiges, dendritenzentrisches neuronales Netzwerk, das durch die Nachahmung von Sequenzerkennungsmechanismen in Dendriten und eine gradientenfreie Umverdrahtung energieeffiziente, hochpräzise Klassifizierung von ereignisbasierten Daten ermöglicht und dabei eine Hardware-Architektur mit bis zu vierfacher Effizienzsteigerung gegenüber bestehenden neuromorphen Systemen bietet.

Jann Krausse, Zhe Su, Kyrus Mama, Maryada, Klaus Knobloch, Giacomo Indiveri, Jürgen BeckerWed, 11 Ma🤖 cs.AI

TrainDeeploy: Hardware-Accelerated Parameter-Efficient Fine-Tuning of Small Transformer Models at the Extreme Edge

TrainDeeploy ist ein Framework, das die hardwarebeschleunigte, parameter-effiziente Feinabstimmung von kleinen Transformer- und CNN-Modellen direkt auf extrem ressourcenbeschränkten Edge-Geräten ermöglicht und damit erstmals einen vollständigen On-Device-Trainings-Pipeline für heterogene SoCs bereitstellt.

Run Wang, Victor J. B. Jung, Philip Wiese, Francesco Conti, Alessio Burrello, Luca BeniniWed, 11 Ma🤖 cs.LG

Nemo: A Low-Write-Amplification Cache for Tiny Objects on Log-Structured Flash Devices

Die Arbeit stellt Nemo vor, einen Cache für winzige Objekte auf logisch strukturierten Flash-Geräten, der durch eine erhöhte Hash-Kollisionswahrscheinlichkeit, einen Bloom-Filter-basierten Index und ein hybrides Hotness-Tracking gleichzeitig eine geringe Schreibverstärkung, hohe Speichereffizienz und eine niedrige Fehlerrate erreicht.

Xufeng Yang, Tingting Tan, Jingxin Hu, Congming Gao, Mingyang Liu, Tianyang Jiang, Jian Chen, Linbo Long, Yina Lv, Jiwu ShuWed, 11 Ma💻 cs

HaLoRA: Hardware-aware Low-Rank Adaptation for Large Language Models Based on Hybrid Compute-in-Memory Architecture

Die vorgestellte Arbeit stellt HaLoRA vor, eine hardwarebewusste Low-Rank-Adaptionsmethode, die durch die Kombination von RRAM-basierten Vorkenntnissen und SRAM-basierten LoRA-Zweigen die Energieeffizienz von LLMs drastisch verbessert und gleichzeitig die durch RRAM-Rauschen verursachten Genauigkeitsverluste durch ein neuartiges Trainingsverfahren kompensiert.

Taiqiang Wu, Chenchen Ding, Wenyong Zhou, Yuxin Cheng, Xincheng Feng, Shuqi Wang, Wendong Xu, Chufan Shi, Zhengwu Liu, Ngai WongTue, 10 Ma💬 cs.CL

HDLxGraph: Bridging Large Language Models and HDL Repositories via HDL Graph Databases

Das Paper stellt HDLxGraph vor, ein Framework, das durch die Integration von Abstract Syntax Trees und Data Flow Graphs in Retrieval-Augmented Generation die Lücken bei der Verarbeitung von Hardware-Beschreibungssprachen schließt und gleichzeitig einen neuen Benchmark namens HDLSearch einführt, um die Genauigkeit von Such-, Debugging- und Vervollständigungsaufgaben signifikant zu verbessern.

Pingqing Zheng (Katie), Jiayin Qin (Katie), Fuqi Zhang (Katie), Niraj Chitla (Katie), Zishen Wan (Katie), Shang Wu (Katie), Yu Cao (Katie), Caiwen Ding (Katie), Yang (Katie), ZhaoTue, 10 Ma🤖 cs.LG

Continuous-Flow Data-Rate-Aware CNN Inference on FPGA

Diese Arbeit stellt einen neuartigen Ansatz für datenratenbewusste, kontinuierliche CNN-Architekturen auf FPGAs vor, der durch geschicktes Interleaving von Signalen und Teilen von Hardwareeinheiten eine nahezu 100-prozentige Hardwareauslastung erreicht und so komplexe Modelle wie MobileNet mit hoher Durchsatzrate auf einem einzigen Chip implementierbar macht.

Tobias Habermann, Michael Mecik, Zhenyu Wang, César David Vera, Martin Kumm, Mario GarridoTue, 10 Ma🤖 cs.LG

Orion: Characterizing and Programming Apple's Neural Engine for LLM Training and Inference

Die Arbeit stellt Orion vor, ein Open-Source-System, das erstmals eine direkte Programmierung und effizientes Training von Large Language Models auf der Apple Neural Engine ermöglicht, indem es CoreML umgeht, eine detaillierte Charakterisierung der Hardware-Einschränkungen liefert und durch innovative Kompilierungs- und Patching-Techniken eine signifikante Beschleunigung des Trainings erreicht.

Ramchand KumaresanTue, 10 Ma🤖 cs.LG

Space-Control: Process-Level Isolation for Sharing CXL-based Disaggregated Memory

Die Arbeit stellt Space-Control vor, einen Hardware-Software-Co-Design-Ansatz, der durch Authentifizierung des Ausführungskontexts und cache-basierte Zugriffskontrolle eine prozessspezifische Isolation für gemeinsam genutzten CXL-basierten disaggregierten Speicher ermöglicht und dabei nur einen minimalen Performance-Overhead von 3,3 % verursacht.

Kaustav Goswami, Sean Peisert, Venkatesh Akella, Jason Lowe-PowerTue, 10 Ma💻 cs

Mozart: Modularized and Efficient MoE Training on 3.5D Wafer-Scale Chiplet Architectures

Das Paper stellt Mozart vor, einen neuartigen Algorithmus-Hardware-Co-Design-Rahmen, der durch eine modulare Expertenallokation und ein fein granulares Scheduling die effiziente Ausbildung von Mixture-of-Experts-LLMs auf 3,5D-Wafer-Scale-Chiplet-Architekturen ermöglicht.

Shuqing Luo (Katie), Ye Han (Katie), Pingzhi Li (Katie), Jiayin Qin (Katie), Jie Peng (Katie), Yang (Katie), Zhao (Kevin), Yu (Kevin), Cao, Tianlong ChenTue, 10 Ma💻 cs

Explainable and Hardware-Efficient Jamming Detection for 5G Networks Using the Convolutional Tsetlin Machine

Diese Studie stellt eine hardware-effiziente und erklärbare Störungserkennung für 5G-Netze vor, die auf dem Convolutional Tsetlin Machine (CTM) basiert und im Vergleich zu herkömmlichen neuronalen Netzen eine deutlich geringere Speichernutzung sowie schnellere Trainingszeiten bei vergleichbarer Genauigkeit auf realen SSB-Daten bietet.

Vojtech Halenka, Mohammadreza Amini, Per-Arne Andersen, Ole-Christoffer Granmo, Burak KantarciTue, 10 Ma🤖 cs.LG