A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

Este artículo presenta la Arquitectura Numérica de Residuo Híbrido Flotante (HRFNA), un sistema diseñado para FPGAs que combina aritmética de residuo sin acarreo con escalado de exponentes para lograr un alto rendimiento, eficiencia energética y límites de error formales, superando significativamente a la aritmética de punto flotante IEEE 754 en aplicaciones científicas y de CAD.

Mostafa DarvishiWed, 11 Ma💻 cs

Unveiling the Potential of Quantization with MXFP4: Strategies for Quantization Error Reduction

Este artículo presenta dos técnicas de software, Escalamiento Consciente de Desbordamiento (OAS) y Escalamiento de Bloque Macro (MBS), que reducen significativamente el error de cuantización en el formato MXFP4, cerrando la brecha de precisión con NVFP4 a menos del 1% sin requerir cambios en el hardware.

Jatin Chhugani, Geonhwa Jeong, Bor-Yiing Su, Yunjie Pan, Hanmei Yang, Aayush Ankit, Jiecao Yu, Summer Deng, Yunqing Chen, Nadathur Satish, Changkyu KimWed, 11 Ma🤖 cs.AI

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

Este estudio empírico, titulado "VeriInteresting", analiza las interacciones entre el razonamiento de los modelos, la especialización y las estrategias de ingeniería de prompts en la generación de código Verilog, identificando patrones generalizables y específicos mediante una evaluación factorial controlada de diversos modelos de lenguaje.

Luca Collini, Andrew Hennesee, Patrick Yubeaton, Siddharth Garg, Ramesh KarriWed, 11 Ma💻 cs

CktEvo: Repository-Level RTL Code Benchmark for Design Evolution

El artículo presenta CktEvo, un marco de referencia y un conjunto de pruebas para la evolución de código RTL a nivel de repositorio que permite a los modelos de lenguaje grandes optimizar el rendimiento, la potencia y el área de diseños de hardware completos mediante ediciones funcionales y retroalimentación automática de herramientas sin intervención humana.

Zhengyuan Shi, Jingxin Wang, Tairan Cheng, Changran Xu, Weikang Qian, Qiang XuWed, 11 Ma🤖 cs.AI

SiliconMind-V1: Multi-Agent Distillation and Debug-Reasoning Workflows for Verilog Code Generation

El trabajo presenta SiliconMind-V1, un marco multiagente que utiliza la generación de datos de razonamiento y la verificación impulsada por pruebas para entrenar modelos de lenguaje localmente y generar código Verilog funcionalmente correcto de manera más eficiente que los métodos actuales.

Mu-Chi Chen, Yu-Hung Kao, Po-Hsuan Huang, Shao-Chun Ho, Hsiang-Yu Tsou, I-Ting Wu, En-Ming Huang, Yu-Kai Hung, Wei-Po Hsin, Cheng Liang, Chia-Heng Tu, Shih-Hao Hung, Hsiang-Tsung KungWed, 11 Ma🤖 cs.AI

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

El artículo presenta AnalogToBi, un marco de generación de topologías de circuitos analógicos a nivel de dispositivo que utiliza una representación de grafo bipartito y decodificación guiada por gramática para lograr un control funcional explícito, garantizar la validez eléctrica y descubrir topologías novedosas y de alta calidad sin intervención humana.

Seungmin Kim, Mingun Kim, Yuna Lee, Yulhwa KimWed, 11 Ma💻 cs

KernelCraft: Benchmarking for Agentic Close-to-Metal Kernel Generation on Emerging Hardware

El paper presenta KernelCraft, el primer benchmark que demuestra cómo los agentes de IA pueden generar y optimizar automáticamente kernels de bajo nivel para aceleradores emergentes con nuevas arquitecturas de instrucciones, reduciendo significativamente el tiempo y la complejidad del desarrollo manual.

Jiayi Nie, Haoran Wu, Yao Lai, Zeyu Cao, Cheng Zhang, Binglei Lou, Erwei Wang, Jianyi Cheng, Timothy M. Jones, Robert Mullins, Rika Antonova, Yiren ZhaoWed, 11 Ma🤖 cs.LG

ALADIN: Accuracy-Latency-Aware Design-space Inference Analysis for Embedded AI Accelerators

El documento presenta ALADIN, un marco de análisis para la inferencia en aceleradores de IA embebidos basado en scratchpad que evalúa las compensaciones entre precisión, latencia y uso de recursos en redes neuronales cuantizadas de precisión mixta sin necesidad de implementación física, utilizando un simulador preciso en ciclos para optimizar el diseño conjunto de hardware y software.

T. Baldi, D. Casini, A. BiondiWed, 11 Ma🤖 cs.AI

PhD Thesis Summary: Methods for Reliability Assessment and Enhancement of Deep Neural Network Hardware Accelerators

Esta tesis doctoral presenta métodos novedosos y rentables para evaluar y mejorar la fiabilidad de los aceleradores de hardware de redes neuronales profundas, incluyendo herramientas analíticas, estrategias para optimizar la compensación entre eficiencia y tolerancia a fallos, y una técnica de mejora en tiempo real llamada AdAM que reduce significativamente los costes de hardware.

Mahdi TaheriWed, 11 Ma🤖 cs.AI

Performance Analysis of Edge and In-Sensor AI Processors: A Comparative Review

Esta revisión analiza el panorama de los procesadores de IA de ultra bajo consumo, comparando arquitecturas heterogéneas, aceleradores neuronales y diseños en el sensor, y valida empíricamente el rendimiento de tres plataformas representativas (GAP9, STM32N6 e IMX500) para demostrar la superioridad de la computación en el sensor en términos de eficiencia energética y latencia.

Luigi Capogrosso, Pietro Bonazzi, Michele MagnoWed, 11 Ma🤖 cs.LG

Data-Rate-Aware High-Speed CNN Inference on FPGAs

Este artículo presenta una arquitectura de acelerador de CNN para FPGAs que, mediante la exploración del espacio de diseño y el procesamiento de múltiples píxeles, optimiza la utilización de recursos y la eficiencia energética al adaptar dinámicamente las implementaciones de hardware a las tasas de datos variables de las capas, permitiendo la ejecución eficiente de redes complejas en un solo chip.

Tobias Habermann, Martin KummWed, 11 Ma🤖 cs.LG

Fair and Square: Replacing One Real Multiplication with a Single Square and One Complex Multiplication with Three Squares When Performing Matrix Multiplication and Convolutions

Este artículo demuestra que es posible sustituir asintóticamente cada multiplicación real por una sola operación de cuadrado y cada multiplicación compleja por tres, logrando reducciones significativas en el uso de recursos hardware al implementar estas técnicas en arquitecturas como arrays sistólicos y núcleos tensoriales.

Vincenzo LiguoriWed, 11 Ma💻 cs

Measurement-Free Ancilla Recycling via Blind Reset: A Cross-Platform Study on Superconducting and Trapped-Ion Processors

Este estudio compara el reciclaje de ancillas mediante reinicio ciego en procesadores superconductores e iónicos atrapados, demostrando que esta técnica puede reducir la latencia del ciclo hasta en un 38x manteniendo una alta limpieza de los ancillas, y define umbrales de longitud de circuito específicos para cada plataforma que guían la selección de políticas de implementación.

Sangkeum LeeWed, 11 Ma⚛️ quant-ph

Adaptive Multi-Objective Tiered Storage Configuration for KV Cache in LLM Service

El artículo presenta Kareto, un optimizador que utiliza poda guiada por rendimientos decrecientes y ajuste adaptativo para gestionar dinámicamente el almacenamiento en niveles de la memoria caché KV en servicios de modelos de lenguaje grandes, logrando mejoras significativas en el equilibrio entre costo, rendimiento y latencia en comparación con las estrategias estáticas.

Xianzhe Zheng, Zhengheng Wang, Ruiyan Ma, Rui Wang, Xiyu Wang, Rui Chen, Peng Zhang, Sicheng Pan, Zhangheng Huang, Chenxin Wu, Yi Zhang, Bo Cai, Kan Liu, Teng Ma, Yin Du, Dong Deng, Sai Wu, Guoyun Zhu, Wei Zhang, Feifei LiWed, 11 Ma💻 cs