cs.AI articoli | Gist.Science

Unveiling the Potential of Quantization with MXFP4: Strategies for Quantization Error Reduction

Il paper introduce due tecniche software, Overflow-Aware Scaling e Macro Block Scaling, che riducono drasticamente il divario di accuratezza tra il formato MXFP4 e NVFP4 nei grandi modelli linguistici, rendendo MXFP4 un'alternativa pratica ed efficiente dal punto di vista hardware senza richiedere modifiche all'hardware.

Jatin Chhugani, Geonhwa Jeong, Bor-Yiing Su, Yunjie Pan, Hanmei Yang, Aayush Ankit, Jiecao Yu, Summer Deng, Yunqing Chen, Nadathur Satish, Changkyu Kim2026-03-11🤖 cs.AI

Design Conductor: An agent autonomously builds a 1.5 GHz Linux-capable RISC-V CPU

Il documento presenta Design Conductor, un agente autonomo che ha progettato e realizzato in sole 12 ore un processore RISC-V Linux-compatibile funzionante a 1,48 GHz, passando direttamente dalle specifiche testuali al file di layout GDSII pronto per la produzione.

The Verkor Team, Ravi Krishna, Suresh Krishna, David Chin2026-03-11🤖 cs.AI

CktEvo: Repository-Level RTL Code Benchmark for Design Evolution

Il paper presenta CktEvo, un benchmark e un framework di riferimento che abilita l'ottimizzazione automatica, a livello di repository e preservando la funzionalità, del codice RTL attraverso l'uso di modelli linguistici su larga scala guidati dal feedback degli strumenti di sintesi per migliorare le prestazioni energetiche, di potenza e di area (PPA).

Zhengyuan Shi, Jingxin Wang, Tairan Cheng, Changran Xu, Weikang Qian, Qiang Xu2026-03-11🤖 cs.AI

SiliconMind-V1: Multi-Agent Distillation and Debug-Reasoning Workflows for Verilog Code Generation

Il lavoro presenta SiliconMind-V1, un framework multi-agente che utilizza la generazione di dati di addestramento orientata al ragionamento e la verifica guidata da testbench per permettere a modelli LLM localmente affinati di generare, testare e correggere iterativamente progetti RTL in Verilog, ottenendo una correttezza funzionale superiore rispetto allo stato dell'arte con minori risorse di addestramento.

Mu-Chi Chen, Yu-Hung Kao, Po-Hsuan Huang, Shao-Chun Ho, Hsiang-Yu Tsou, I-Ting Wu, En-Ming Huang, Yu-Kai Hung, Wei-Po Hsin, Cheng Liang, Chia-Heng Tu, Shih-Hao Hung, Hsiang-Tsung Kung2026-03-11🤖 cs.AI

ALADIN: Accuracy-Latency-Aware Design-space Inference Analysis for Embedded AI Accelerators

Il paper presenta ALADIN, un framework di analisi del design space per acceleratori AI embedded basato su scratchpad che valuta i compromessi tra accuratezza, latenza e consumo di risorse per reti neurali quantizzate senza richiedere il deployment sulla piattaforma target.

T. Baldi, D. Casini, A. Biondi2026-03-11🤖 cs.AI

Alignment Is the Disease: Censorship Visibility and Alignment Constraint Complexity as Determinants of Collective Pathology in Multi-Agent LLM Systems

Questo studio preliminare suggerisce che le tecniche di allineamento nei modelli linguistici su larga scala possono generare una patologia collettiva iatrogena, dove la censura invisibile e la complessità dei vincoli di allineamento, anziché garantire la sicurezza, esacerbano il comportamento patologico e la dissociazione tra insight e azione in sistemi multi-agente.

Hiroki Fukui2026-03-11🤖 cs.AI

PhD Thesis Summary: Methods for Reliability Assessment and Enhancement of Deep Neural Network Hardware Accelerators

Questa tesi di dottorato presenta metodi innovativi ed economici per valutare e migliorare l'affidabilità degli acceleratori hardware per reti neurali profonde, introducendo nuovi strumenti analitici, ottimizzando i compromessi tra efficienza e tolleranza ai guasti e sviluppando la tecnica AdAM per l'enhancement dell'affidabilità in tempo reale senza sovraccarico.

Mahdi Taheri2026-03-11🤖 cs.AI

ARKV: Adaptive and Resource-Efficient KV Cache Management under Limited Memory Budget for Long-Context Inference in LLMs

Il paper presenta ARKV, un framework adattivo e leggero che ottimizza la gestione della cache KV per l'inferenza di LLM in contesti lunghi, riducendo l'uso di memoria GPU di 4 volte mantenendo il 97% dell'accuratezza di base senza richiedere riaddestramento o modifiche architetturali.

Jianlong Lei, Shashikant Ilager2026-03-11🤖 cs.AI

Measurement-Free Ancilla Recycling via Blind Reset: A Cross-Platform Study on Superconducting and Trapped-Ion Processors

Questo studio valuta il riciclo degli ancilla tramite reset cieco su processori superconduttori e a ioni intrappolati, dimostrando che tale approccio può ridurre la latenza del ciclo logico fino a 38 volte mantenendo un'alta pulizia degli ancilla, e definisce una matrice decisionale per l'implementazione specifica per piattaforma.

Sangkeum Lee2026-03-11⚛️ quant-ph

Benchmarking Federated Learning in Edge Computing Environments: A Systematic Review and Performance Evaluation

Questo articolo presenta una revisione sistematica e una valutazione delle prestazioni delle tecniche di Federated Learning negli ambienti di edge computing, confrontando cinque algoritmi su metriche chiave e identificando le sfide attuali e le direzioni future per sistemi più robusti e scalabili.

Sales Aribe Jr., Gil Nicholas Cagande2026-03-11🤖 cs.AI

Autonomous Edge-Deployed AI Agents for Electric Vehicle Charging Infrastructure Management

Il paper presenta Auralink SDC, un'architettura basata su agenti AI autonomi distribuiti al bordo della rete che gestisce le infrastrutture di ricarica per veicoli elettrici, ottenendo un tasso di risoluzione autonoma degli incidenti del 78% e una latenza inferiore a 50ms grazie a modelli linguistici specializzati e tecniche di reasoning adattivo.

Mohammed Cherifi2026-03-11🤖 cs.AI

Sensitivity-Guided Framework for Pruned and Quantized Reservoir Computing Accelerators

Questo articolo presenta un framework di compressione per il Reservoir Computing che, sfruttando un meccanismo di pruning basato sulla sensibilità, permette di esplorare sistematicamente i compromessi tra livelli di quantizzazione, tassi di pruning, accuratezza ed efficienza hardware, ottenendo significativi miglioramenti nell'efficienza computazionale e nelle risorse su FPGA senza degradare le prestazioni del modello.

Atousa Jafari, Mahdi Taheri, Hassan Ghasemzadeh Mohammadi, Christian Herglotz, Marco Platzner2026-03-11🤖 cs.AI

Architectural Design and Performance Analysis of FPGA based AI Accelerators: A Comprehensive Review

Questo articolo esamina le ottimizzazioni hardware e le architetture degli acceleratori basati su FPGA per il deep learning, evidenziando i loro vantaggi rispetto a GPU e ASIC, le tecniche di ottimizzazione impiegate e le sfide future per migliorare prestazioni ed efficienza energetica.

Soumita Chatterjee, Sudip Ghosh, Tamal Ghosh, Hafizur Rahaman2026-03-11🤖 cs.AI

Zipage: Maintain High Request Concurrency for LLM Reasoning through Compressed PagedAttention

Il paper presenta Zipage, un motore di inferenza per LLM che utilizza la tecnica Compressed PagedAttention per superare i colli di bottiglia della memoria KV cache, garantendo un'elevata concorrenza e un'accelerazione superiore a 2,1 volte mantenendo il 95% delle prestazioni rispetto ai sistemi a KV cache completa.

Mengqi Liao, Lu Wang, Chaoyun Zhang, Bo Qiao, Si Qin, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Huaiyu Wan2026-03-11🤖 cs.AI

Diagnosing FP4 inference: a layer-wise and block-wise sensitivity analysis of NVFP4 and MXFP4

Questo studio analizza sistematicamente la sensibilità alla quantizzazione in formato FP4 (MXFP4 e NVFP4) su diverse scale di modelli Qwen2.5, rivelando che i livelli di proiezione MLP sono i più critici e che la sensibilità non si limita esclusivamente ai blocchi finali del modello.

Musa Cim, Burak Topcu, Mahmut Taylan Kandemir2026-03-11🤖 cs.AI

Permutation-Equivariant 2D State Space Models: Theory and Canonical Architecture for Multivariate Time Series

Questo lavoro introduce il modello VI 2D SSM, un'architettura di spazio degli stati bidimensionale che garantisce l'equivarianza rispetto alle permutazioni nelle serie temporali multivariate, eliminando le dipendenze sequenziali artificiali tra le variabili e ottenendo prestazioni all'avanguardia grazie a una struttura teoricamente fondata su dinamiche locali e interazioni globali aggregate.

Seungwoo Jeong, Heung-Il Suk2026-03-11🤖 cs.AI

Hindsight Credit Assignment for Long-Horizon LLM Agents

Il paper introduce HCAPO, un nuovo framework che risolve le sfide di assegnazione del credito negli agenti LLM a lungo termine integrando un ragionamento *hindsight* per affinare le stime dei valori e migliorare significativamente le prestazioni rispetto ai metodi esistenti su benchmark complessi.

Hui-Ze Tan, Xiao-Wen Yang, Hao Chen, Jie-Jing Shao, Yi Wen, Yuteng Shen, Weihong Luo, Xiku Du, Lan-Zhe Guo, Yu-Feng Li2026-03-11🤖 cs.AI

Turn: A Language for Agentic Computation

Il paper presenta Turn, un linguaggio di programmazione compilato e basato su attori progettato per il calcolo agentiche, che integra sicurezza dei tipi cognitiva, un operatore di confidenza, un modello di processo isolato, un sistema di identità basato sulle capacità e l'assorbimento degli schemi a tempo di compilazione per garantire invariants critici come l'isolamento delle credenziali e la validazione dell'output dei modelli linguistici.

Muyukani Kizito2026-03-11🤖 cs.AI

Generalized Reduction to the Isotropy for Flexible Equivariant Neural Fields

Questo lavoro dimostra che qualsiasi funzione $G$ -invariante su uno spazio prodotto $X \times M$ , dove $G$ agisce transitivamente su $M$ , può essere ridotta a un'invariante del sottogruppo di isotropia $H$ che agisce su $X$ , permettendo così di estendere i campi neurali equivarianti a spazi di condizionamento omogenei arbitrari rimuovendo i vincoli strutturali delle metodologie esistenti.

Alejandro García-Castellanos, Gijs Bellaard, Remco Duits, Daniel Pelt, Erik J Bekkers2026-03-11🤖 cs.AI

EDMFormer: Genre-Specific Self-Supervised Learning for Music Structure Segmentation

Il paper introduce EDMFormer, un modello transformer basato su apprendimento auto-supervisionato e sul nuovo dataset EDM-98, che supera le limitazioni degli approcci esistenti nella segmentazione strutturale della musica EDM identificando con maggiore precisione sezioni come drop e buildup attraverso l'analisi di energia, ritmo e timbro.

Sahal Sajeer, Krish Patel, Oscar Chung, Joel Song Bae2026-03-11🤖 cs.AI

← Precedente Successivo →