cs.AR papers | Gist.Science

ChatNeuroSim: An LLM Agent Framework for Automated Compute-in-Memory Accelerator Deployment and Optimization

Dit paper introduceert ChatNeuroSim, een framework op basis van een groot taalmodel dat het ontwerp, de implementatie en de optimalisatie van Compute-in-Memory-versnellers voor diepe neurale netwerken volledig automatiseert en versnelt door gebruik te maken van een geautomatiseerde agent en een techniek voor het afkappen van de ontwerpruimte.

Ming-Yen Lee, Shimeng YuWed, 11 Ma💻 cs

Diagnosing FP4 inference: a layer-wise and block-wise sensitivity analysis of NVFP4 and MXFP4

Deze studie analyseert systematisch de gevoeligheid voor kwantisatie van twee FP4-formaten (MXFP4 en NVFP4) in Qwen2.5-modellen en onthult dat de MLP-up- en down-projectielagen het meest gevoelig zijn, terwijl de gevoeligheid niet uitsluitend beperkt blijft tot de laatste blokken.

Musa Cim, Burak Topcu, Mahmut Taylan KandemirWed, 11 Ma🤖 cs.AI

bsort: A theoretically efficient non-comparison-based sorting algorithm for integer and floating-point numbers

Dit artikel introduceert bsort, een niet-comparatief sorteeralgoritme voor gehele getallen en floating-point waarden dat via een benadering afgeleid van binaire quicksort een asymptotische looptijd van $O(wn)$ en een extra ruimtecomplexiteit van $O(w)$ bereikt, met prestaties die concurreren met geoptimaliseerde hybride algoritmen voor gegevens met kleine woordgroottes.

Benjamín GuzmánWed, 11 Ma💻 cs

The $qs$ Inequality: Quantifying the Double Penalty of Mixture-of-Experts at Inference

Dit paper introduceert de $qs$ -ongelijkheid om aan te tonen dat MoE-modellen tijdens inferentie structureel worden benadeeld door hergebruiksfragmentatie, waardoor ze bij lange contexten vaak minder efficiënt zijn dan kwalitatief gelijkwaardige dichte modellen.

Vignesh Adhinarayanan, Nuwan JayasenaWed, 11 Ma🤖 cs.LG

Two Teachers Better Than One: Hardware-Physics Co-Guided Distributed Scientific Machine Learning

Dit paper introduceert EPIC, een gedistribueerd SciML-framework dat hardware- en fysica-gestuurde technieken combineert om communicatiekosten en latentie aanzienlijk te verminderen terwijl de fysieke nauwkeurigheid behouden blijft.

Yuchen Yuan, Junhuan Yang, Hao Wan, Yipei Liu, Hanhan Wu, Youzuo Lin, Lei YangWed, 11 Ma🤖 cs.LG

Wrong Code, Right Structure: Learning Netlist Representations from Imperfect LLM-Generated RTL

Deze paper introduceert een kosteneffectief raamwerk dat imperfecte, door LLM's gegenereerde RTL-code gebruikt om netlistrepresentaties te leren, waardoor de schaarste aan gelabelde data voor circuitanalyse wordt overwonnen zonder in te leveren op de prestaties op realistische ontwerpen.

Siyang Cai, Cangyuan Li, Yinhe Han, Ying WangWed, 11 Ma🤖 cs.AI

DendroNN: Dendrocentric Neural Networks for Energy-Efficient Classification of Event-Based Data

Dit artikel introduceert DendroNN, een energiezuinig, niet-gedifferentieerd neuronaal netwerk dat inspiratie put uit dendritische sequentiedetectie om event-based data te verwerken en via een asynchrone hardware-architectuur een tot vier keer hogere efficiëntie bereikt dan bestaande neuromorfe systemen.

Jann Krausse, Zhe Su, Kyrus Mama, Maryada, Klaus Knobloch, Giacomo Indiveri, Jürgen BeckerWed, 11 Ma🤖 cs.AI

TrainDeeploy: Hardware-Accelerated Parameter-Efficient Fine-Tuning of Small Transformer Models at the Extreme Edge

TrainDeeploy is een framework dat hardware-versnelde, parameter-efficiënte fine-tuning van zowel CNN- als Transformer-modellen mogelijk maakt op extreem beperkte randapparatuur, waarbij het de eerste end-to-end on-device training van een Compact Convolutional Transformer op een RISC-V-SoC realiseert met aanzienlijke verbeteringen in geheugengebruik en prestaties.

Run Wang, Victor J. B. Jung, Philip Wiese, Francesco Conti, Alessio Burrello, Luca BeniniWed, 11 Ma🤖 cs.LG

Nemo: A Low-Write-Amplification Cache for Tiny Objects on Log-Structured Flash Devices

Dit paper introduceert Nemo, een nieuwe cache-architectuur voor log-gestructureerde flash-apparaten die door het optimaliseren van hash-kollicsies en het gebruik van een bloom filter-based indexering gelijktijdig lage schrijfamplificatie, hoge geheugenefficiëntie en een laag miss-ratio bereikt voor tiny-object workloads.

Xufeng Yang, Tingting Tan, Jingxin Hu, Congming Gao, Mingyang Liu, Tianyang Jiang, Jian Chen, Linbo Long, Yina Lv, Jiwu ShuWed, 11 Ma💻 cs

HaLoRA: Hardware-aware Low-Rank Adaptation for Large Language Models Based on Hybrid Compute-in-Memory Architecture

Dit paper introduceert HaLoRA, een hardwarebewuste methode die de energie-efficiëntie van een hybride Compute-in-Memory-architectuur combineert met de nauwkeurigheid van Large Language Models door een robuuste Low-Rank Adaptatie te trainen die de inherente ruis van RRAM-geheugen compenseert.

Taiqiang Wu, Chenchen Ding, Wenyong Zhou, Yuxin Cheng, Xincheng Feng, Shuqi Wang, Wendong Xu, Chufan Shi, Zhengwu Liu, Ngai WongTue, 10 Ma💬 cs.CL

HDLxGraph: Bridging Large Language Models and HDL Repositories via HDL Graph Databases

Dit paper introduceert HDLxGraph, een nieuw framework dat Large Language Models koppelt aan HDL-repositories via grafische databases en Abstract Syntax Trees om de beperkingen van traditionele RAG-systemen bij complexe hardware-beschrijvingsopdrachten te overwinnen, ondersteund door een nieuw benchmark-dataset genaamd HDLSearch.

Pingqing Zheng (Katie), Jiayin Qin (Katie), Fuqi Zhang (Katie), Niraj Chitla (Katie), Zishen Wan (Katie), Shang Wu (Katie), Yu Cao (Katie), Caiwen Ding (Katie), Yang (Katie), ZhaoTue, 10 Ma🤖 cs.LG

Optimized Many-Hypercube Codes toward Lower Logical Error Rates and Earlier Realization

Dit artikel presenteert geoptimaliseerde many-hypercube-kwantumfoutcorrectiecodes met kleinere blokgroottes die, ondanks een hogere coderingssnelheid, lagere logische foutpercentages mogelijk maken en efficiëntere, fouttolerante encoders ontwikkelen om de experimentele realisatie van fouttolerant kwantumcomputen te versnellen.

Hayato GotoTue, 10 Ma⚛️ quant-ph

Continuous-Flow Data-Rate-Aware CNN Inference on FPGA

Dit artikel introduceert een nieuwe, dataratesbewuste architectuur voor CNN-inferentie op FPGA's die door slimme signaleninterleaving en hardware-delen een hoge hardwarebenutting en doorvoer garandeert, zelfs bij lagen met datareductie zoals pooling en convolutie met stride.

Tobias Habermann, Michael Mecik, Zhenyu Wang, César David Vera, Martin Kumm, Mario GarridoTue, 10 Ma🤖 cs.LG

Orion: Characterizing and Programming Apple's Neural Engine for LLM Training and Inference

Orion is het eerste open end-to-end systeem dat de Apple Neural Engine direct aanstuurt via private API's om zowel stabiel on-device training als snelle inferentie van grote taalmodellen mogelijk te maken door CoreML te omzeilen en recompilatie-tijd tijdens training drastisch te reduceren.

Ramchand KumaresanTue, 10 Ma🤖 cs.LG

Space-Control: Process-Level Isolation for Sharing CXL-based Disaggregated Memory

Dit paper introduceert Space-Control, een hardware-software co-design dat procesniveau-isolatie voor gedeelde CXL-gebaseerde gedisaggregeerde geheugenrealiseert met een minimale prestatieoverhead van 3,3%.

Kaustav Goswami, Sean Peisert, Venkatesh Akella, Jason Lowe-PowerTue, 10 Ma💻 cs

Mozart: Modularized and Efficient MoE Training on 3.5D Wafer-Scale Chiplet Architectures

Dit paper introduceert Mozart, een co-ontwerp van algoritme en hardware dat de training van MoE-gedreven taalmodellen op 3.5D wafer-scale chiplet-architecturen optimaliseert door middel van een slimme experttoewijzing, fijnmazige planning en een hiërarchisch geheugenontwerp om communicatie- en geheugenproblemen op te lossen.

Shuqing Luo (Katie), Ye Han (Katie), Pingzhi Li (Katie), Jiayin Qin (Katie), Jie Peng (Katie), Yang (Katie), Zhao (Kevin), Yu (Kevin), Cao, Tianlong ChenTue, 10 Ma💻 cs

Explainable and Hardware-Efficient Jamming Detection for 5G Networks Using the Convolutional Tsetlin Machine

Dit artikel presenteert een uitlegbare en hardware-efficiënte aanpak voor jamming-detectie in 5G-netwerken met behulp van de Convolutional Tsetlin Machine, die op een realistisch testbed vergelijkbare prestaties levert als een CNN maar aanzienlijk sneller traint en minder geheugen vereist, waardoor het ideaal is voor implementatie op randapparatuur.

Vojtech Halenka, Mohammadreza Amini, Per-Arne Andersen, Ole-Christoffer Granmo, Burak KantarciTue, 10 Ma🤖 cs.LG

Accelerating Diffusion Models for Generative AI Applications with Silicon Photonics

Dit paper introduceert een nieuwe siliciumfotonische versneller die de energie-efficiëntie en doorvoersnelheid van diffusiemodellen voor generatieve AI aanzienlijk verbetert ten opzichte van bestaande elektronische platforms.

Tharini Suresh, Salma Afifi, Sudeep PasrichaTue, 10 Ma🤖 cs.LG

Mitigating the Memory Bottleneck with Machine Learning-Driven and Data-Aware Microarchitectural Techniques

Deze dissertatie stelt voor om processorontwerp te verschuiven van data-agnostisch naar data-informeerd door middel van machine learning en semantische data-eigenschappen, waardoor de prestaties en energie-efficiëntie aanzienlijk worden verbeterd door het memory-bottleneck effectief aan te pakken.

Rahul BeraTue, 10 Ma🤖 cs.LG

ConnChecker: Automated Root-Cause Analysis for Formal Connectivity Check via Graph

ConnChecker is een geautomatiseerd, grafgebaseerd hulpmiddel dat de root-cause-analyse voor formele connectiviteitscontrole in complexe SoC-ontwerpen versnelt door tegenvoorbeelden te categoriseren en debugtijd tot 80% te reduceren.

Do Ngoc Tiep, Nguyen Linh Anh, Luu Danh MinhTue, 10 Ma💻 cs

← Vorige Volgende →

cs.AR