cs.AR Arbeiten | Gist.Science

ChatNeuroSim: An LLM Agent Framework for Automated Compute-in-Memory Accelerator Deployment and Optimization

Die Arbeit stellt ChatNeuroSim vor, ein Framework auf Basis von Large Language Models, das den gesamten Workflow für die Bereitstellung und Optimierung von Compute-in-Memory-Beschleunigern automatisiert und durch Design-Space-Pruning die Identifizierung optimaler Konfigurationen für DNN-Workloads erheblich beschleunigt.

Ming-Yen Lee, Shimeng YuWed, 11 Ma💻 cs

Diagnosing FP4 inference: a layer-wise and block-wise sensitivity analysis of NVFP4 and MXFP4

Diese Studie führt eine systematische, schichten- und blockweise Sensitivitätsanalyse der FP4-Quantisierungsformate NVFP4 und MXFP4 auf verschiedenen Qwen2.5-Modellskalen durch und identifiziert dabei, dass MLP-Projektionsschichten die höchste Empfindlichkeit aufweisen, während die Sensitivität nicht ausschließlich auf die letzten Blöcke beschränkt ist.

Musa Cim, Burak Topcu, Mahmut Taylan KandemirWed, 11 Ma🤖 cs.AI

bsort: A theoretically efficient non-comparison-based sorting algorithm for integer and floating-point numbers

Die Arbeit stellt bsort vor, einen theoretisch effizienten, nicht-vergleichsbasierten Sortieralgorithmus für Ganzzahlen und Gleitkommazahlen, der durch eine von Binärschnellsortieren abgeleitete Methode eine Laufzeit von $O(wn)$ und einen zusätzlichen Speicherbedarf von $O(w)$ erreicht.

Benjamín GuzmánWed, 11 Ma💻 cs

The $qs$ Inequality: Quantifying the Double Penalty of Mixture-of-Experts at Inference

Die Arbeit führt die $qs$ -Ungleichung ein, um zu zeigen, dass Mixture-of-Experts-Modelle aufgrund einer doppelten Ineffizienz bei der Inferenz – nämlich fragmentierter Gewichtswiederverwendung und begrenztem HBM-Speicher für den KV-Cache – bei langen Kontexten strukturell gegenüber dichteren Modellen benachteiligt sind, was ihre Trainings-FLOP-Effizienz nicht auf die Laufzeitleistung überträgt.

Vignesh Adhinarayanan, Nuwan JayasenaWed, 11 Ma🤖 cs.LG

Two Teachers Better Than One: Hardware-Physics Co-Guided Distributed Scientific Machine Learning

Das Paper stellt EPIC vor, ein verteiltes wissenschaftliches Lernframework, das durch hardware- und physikgesteuerte Kodierung und Dekodierung die Kommunikationskosten und Latenz bei der Full-Waveform-Inversion drastisch senkt, ohne dabei die physikalische Genauigkeit zu beeinträchtigen.

Yuchen Yuan, Junhuan Yang, Hao Wan, Yipei Liu, Hanhan Wu, Youzuo Lin, Lei YangWed, 11 Ma🤖 cs.LG

Wrong Code, Right Structure: Learning Netlist Representations from Imperfect LLM-Generated RTL

Diese Arbeit schlägt ein kosteneffizientes Framework vor, das funktional fehlerhafte, aber strukturell aussagekräftige von LLMs generierte RTL-Codes nutzt, um Netlist-Repräsentationen zu lernen und so die Datenknappheit für das Training von KI-Modellen in der Schaltungsanalyse zu überwinden.

Siyang Cai, Cangyuan Li, Yinhe Han, Ying WangWed, 11 Ma🤖 cs.AI

DendroNN: Dendrocentric Neural Networks for Energy-Efficient Classification of Event-Based Data

Die Arbeit stellt DendroNN vor, ein neuartiges, dendritenzentrisches neuronales Netzwerk, das durch die Nachahmung von Sequenzerkennungsmechanismen in Dendriten und eine gradientenfreie Umverdrahtung energieeffiziente, hochpräzise Klassifizierung von ereignisbasierten Daten ermöglicht und dabei eine Hardware-Architektur mit bis zu vierfacher Effizienzsteigerung gegenüber bestehenden neuromorphen Systemen bietet.

Jann Krausse, Zhe Su, Kyrus Mama, Maryada, Klaus Knobloch, Giacomo Indiveri, Jürgen BeckerWed, 11 Ma🤖 cs.AI

TrainDeeploy: Hardware-Accelerated Parameter-Efficient Fine-Tuning of Small Transformer Models at the Extreme Edge

TrainDeeploy ist ein Framework, das die hardwarebeschleunigte, parameter-effiziente Feinabstimmung von kleinen Transformer- und CNN-Modellen direkt auf extrem ressourcenbeschränkten Edge-Geräten ermöglicht und damit erstmals einen vollständigen On-Device-Trainings-Pipeline für heterogene SoCs bereitstellt.

Run Wang, Victor J. B. Jung, Philip Wiese, Francesco Conti, Alessio Burrello, Luca BeniniWed, 11 Ma🤖 cs.LG

Nemo: A Low-Write-Amplification Cache for Tiny Objects on Log-Structured Flash Devices

Die Arbeit stellt Nemo vor, einen Cache für winzige Objekte auf logisch strukturierten Flash-Geräten, der durch eine erhöhte Hash-Kollisionswahrscheinlichkeit, einen Bloom-Filter-basierten Index und ein hybrides Hotness-Tracking gleichzeitig eine geringe Schreibverstärkung, hohe Speichereffizienz und eine niedrige Fehlerrate erreicht.

Xufeng Yang, Tingting Tan, Jingxin Hu, Congming Gao, Mingyang Liu, Tianyang Jiang, Jian Chen, Linbo Long, Yina Lv, Jiwu ShuWed, 11 Ma💻 cs

HaLoRA: Hardware-aware Low-Rank Adaptation for Large Language Models Based on Hybrid Compute-in-Memory Architecture

Die vorgestellte Arbeit stellt HaLoRA vor, eine hardwarebewusste Low-Rank-Adaptionsmethode, die durch die Kombination von RRAM-basierten Vorkenntnissen und SRAM-basierten LoRA-Zweigen die Energieeffizienz von LLMs drastisch verbessert und gleichzeitig die durch RRAM-Rauschen verursachten Genauigkeitsverluste durch ein neuartiges Trainingsverfahren kompensiert.

Taiqiang Wu, Chenchen Ding, Wenyong Zhou, Yuxin Cheng, Xincheng Feng, Shuqi Wang, Wendong Xu, Chufan Shi, Zhengwu Liu, Ngai WongTue, 10 Ma💬 cs.CL

HDLxGraph: Bridging Large Language Models and HDL Repositories via HDL Graph Databases

Das Paper stellt HDLxGraph vor, ein Framework, das durch die Integration von Abstract Syntax Trees und Data Flow Graphs in Retrieval-Augmented Generation die Lücken bei der Verarbeitung von Hardware-Beschreibungssprachen schließt und gleichzeitig einen neuen Benchmark namens HDLSearch einführt, um die Genauigkeit von Such-, Debugging- und Vervollständigungsaufgaben signifikant zu verbessern.

Pingqing Zheng (Katie), Jiayin Qin (Katie), Fuqi Zhang (Katie), Niraj Chitla (Katie), Zishen Wan (Katie), Shang Wu (Katie), Yu Cao (Katie), Caiwen Ding (Katie), Yang (Katie), ZhaoTue, 10 Ma🤖 cs.LG

Optimized Many-Hypercube Codes toward Lower Logical Error Rates and Earlier Realization

Die Studie zeigt, dass optimierte Many-Hypercube-Codes mit kleineren Basis-Codes und effizienteren Encodern nicht nur die experimentelle Realisierung erleichtern, sondern auch niedrigere logische Fehlerraten und eine bessere Leistung bei logischen Gattern im Vergleich zu früheren Designs erreichen.

Hayato GotoTue, 10 Ma⚛️ quant-ph

Continuous-Flow Data-Rate-Aware CNN Inference on FPGA

Diese Arbeit stellt einen neuartigen Ansatz für datenratenbewusste, kontinuierliche CNN-Architekturen auf FPGAs vor, der durch geschicktes Interleaving von Signalen und Teilen von Hardwareeinheiten eine nahezu 100-prozentige Hardwareauslastung erreicht und so komplexe Modelle wie MobileNet mit hoher Durchsatzrate auf einem einzigen Chip implementierbar macht.

Tobias Habermann, Michael Mecik, Zhenyu Wang, César David Vera, Martin Kumm, Mario GarridoTue, 10 Ma🤖 cs.LG

Orion: Characterizing and Programming Apple's Neural Engine for LLM Training and Inference

Die Arbeit stellt Orion vor, ein Open-Source-System, das erstmals eine direkte Programmierung und effizientes Training von Large Language Models auf der Apple Neural Engine ermöglicht, indem es CoreML umgeht, eine detaillierte Charakterisierung der Hardware-Einschränkungen liefert und durch innovative Kompilierungs- und Patching-Techniken eine signifikante Beschleunigung des Trainings erreicht.

Ramchand KumaresanTue, 10 Ma🤖 cs.LG

Space-Control: Process-Level Isolation for Sharing CXL-based Disaggregated Memory

Die Arbeit stellt Space-Control vor, einen Hardware-Software-Co-Design-Ansatz, der durch Authentifizierung des Ausführungskontexts und cache-basierte Zugriffskontrolle eine prozessspezifische Isolation für gemeinsam genutzten CXL-basierten disaggregierten Speicher ermöglicht und dabei nur einen minimalen Performance-Overhead von 3,3 % verursacht.

Kaustav Goswami, Sean Peisert, Venkatesh Akella, Jason Lowe-PowerTue, 10 Ma💻 cs

Mozart: Modularized and Efficient MoE Training on 3.5D Wafer-Scale Chiplet Architectures

Das Paper stellt Mozart vor, einen neuartigen Algorithmus-Hardware-Co-Design-Rahmen, der durch eine modulare Expertenallokation und ein fein granulares Scheduling die effiziente Ausbildung von Mixture-of-Experts-LLMs auf 3,5D-Wafer-Scale-Chiplet-Architekturen ermöglicht.

Shuqing Luo (Katie), Ye Han (Katie), Pingzhi Li (Katie), Jiayin Qin (Katie), Jie Peng (Katie), Yang (Katie), Zhao (Kevin), Yu (Kevin), Cao, Tianlong ChenTue, 10 Ma💻 cs

Explainable and Hardware-Efficient Jamming Detection for 5G Networks Using the Convolutional Tsetlin Machine

Diese Studie stellt eine hardware-effiziente und erklärbare Störungserkennung für 5G-Netze vor, die auf dem Convolutional Tsetlin Machine (CTM) basiert und im Vergleich zu herkömmlichen neuronalen Netzen eine deutlich geringere Speichernutzung sowie schnellere Trainingszeiten bei vergleichbarer Genauigkeit auf realen SSB-Daten bietet.

Vojtech Halenka, Mohammadreza Amini, Per-Arne Andersen, Ole-Christoffer Granmo, Burak KantarciTue, 10 Ma🤖 cs.LG

Accelerating Diffusion Models for Generative AI Applications with Silicon Photonics

Die Studie stellt einen neuartigen siliziumphotonischen Beschleuniger vor, der Diffusionsmodelle für generative KI-Anwendungen im Vergleich zu aktuellen elektronischen Lösungen um den Faktor 3 bei der Energieeffizienz und um den Faktor 5,5 beim Durchsatz verbessert.

Tharini Suresh, Salma Afifi, Sudeep PasrichaTue, 10 Ma🤖 cs.LG

Mitigating the Memory Bottleneck with Machine Learning-Driven and Data-Aware Microarchitectural Techniques

Diese Dissertation schlägt vor, den Engpass im Speichersystem durch den Übergang von datenagnostischen zu dateninformierten Mikroarchitektur-Techniken zu überwinden, die maschinelles Lernen und semantische Datenmerkmale nutzen, um Leistung und Energieeffizienz signifikant zu steigern.

Rahul BeraTue, 10 Ma🤖 cs.LG

ConnChecker: Automated Root-Cause Analysis for Formal Connectivity Check via Graph

ConnChecker ist ein graphenbasiertes Werkzeug zur automatisierten Ursachenanalyse von Formal-Connectivity-Checks, das durch die Integration von Abhängigkeitsgraphen und Fehlerberichten die Debugging-Zeit in komplexen SoC-Designs um bis zu 80 % reduziert.

Do Ngoc Tiep, Nguyen Linh Anh, Luu Danh MinhTue, 10 Ma💻 cs

← Zurück Weiter →

cs.AR