cs.AR artículos | Gist.Science

ChatNeuroSim: An LLM Agent Framework for Automated Compute-in-Memory Accelerator Deployment and Optimization

Este trabajo presenta ChatNeuroSim, un marco de agentes basado en modelos de lenguaje grande que automatiza el despliegue y la optimización de aceleradores de memoria en cómputo (CIM) mediante la gestión integral del flujo de trabajo y una técnica de poda del espacio de diseño que reduce significativamente el tiempo de ejecución en comparación con los métodos tradicionales.

Ming-Yen Lee, Shimeng YuWed, 11 Ma💻 cs

Diagnosing FP4 inference: a layer-wise and block-wise sensitivity analysis of NVFP4 and MXFP4

Este estudio realiza un análisis sistemático de la sensibilidad de la inferencia en formatos de punto flotante de 4 bits (MXFP4 y NVFP4) en modelos Qwen2.5 de distintas escalas, revelando que las capas de proyección del MLP son las más críticas y que la sensibilidad no se limita exclusivamente a los bloques finales del modelo.

Musa Cim, Burak Topcu, Mahmut Taylan KandemirWed, 11 Ma🤖 cs.AI

bsort: A theoretically efficient non-comparison-based sorting algorithm for integer and floating-point numbers

El artículo presenta bsort, un algoritmo de ordenamiento no basado en comparaciones para enteros y números de punto flotante que unifica estos casos mediante una derivación del quicksort binario, logrando un tiempo de ejecución asintótico de $O(wn)$ y un espacio auxiliar de $O(w)$ , con un rendimiento competitivo en datos de tamaño de palabra pequeño.

Benjamín GuzmánWed, 11 Ma💻 cs

The $qs$ Inequality: Quantifying the Double Penalty of Mixture-of-Experts at Inference

El artículo introduce la desigualdad $qs$ , un criterio que demuestra cómo la fragmentación de la reutilización de memoria en los modelos de Mezcla de Expertos (MoE) genera una doble penalización en la inferencia de contexto largo, volviéndolos estructuralmente menos eficientes que sus contrapartes densas de calidad equivalente.

Vignesh Adhinarayanan, Nuwan JayasenaWed, 11 Ma🤖 cs.LG

Two Teachers Better Than One: Hardware-Physics Co-Guided Distributed Scientific Machine Learning

El marco EPIC aborda los desafíos de la implementación centralizada del aprendizaje automático científico en entornos distribuidos mediante un enfoque de codificación local ligera y decodificación consciente de la física, logrando reducciones significativas en la latencia y el consumo de energía mientras mejora la fidelidad de reconstrucción en tareas como la inversión de onda completa.

Yuchen Yuan, Junhuan Yang, Hao Wan, Yipei Liu, Hanhan Wu, Youzuo Lin, Lei YangWed, 11 Ma🤖 cs.LG

Wrong Code, Right Structure: Learning Netlist Representations from Imperfect LLM-Generated RTL

Este trabajo propone un marco de aprendizaje efectivo para representaciones de netlistas que supera la escasez de datos etiquetados al utilizar RTL imperfecto generado por modelos de lenguaje grande, demostrando que sus patrones estructurales preservados permiten entrenar modelos que generalizan bien a diseños reales y superan a los métodos existentes.

Siyang Cai, Cangyuan Li, Yinhe Han, Ying WangWed, 11 Ma🤖 cs.AI

DendroNN: Dendrocentric Neural Networks for Energy-Efficient Classification of Event-Based Data

El artículo presenta DendroNN, una red neuronal bioinspirada que utiliza mecanismos de detección de secuencias en dendritas y un proceso de reconfiguración sin gradientes para clasificar datos basados en eventos con alta eficiencia energética, superando a las arquitecturas neuromórficas actuales en tareas de series temporales.

Jann Krausse, Zhe Su, Kyrus Mama, Maryada, Klaus Knobloch, Giacomo Indiveri, Jürgen BeckerWed, 11 Ma🤖 cs.AI

TrainDeeploy: Hardware-Accelerated Parameter-Efficient Fine-Tuning of Small Transformer Models at the Extreme Edge

El artículo presenta TrainDeeploy, un marco que habilita la primera canalización completa de entrenamiento y ajuste fino en el dispositivo para modelos Transformer y CNN en chips de ultra bajo consumo, logrando una adaptación eficiente en el extremo mediante estrategias como LoRA que reducen significativamente el uso de memoria y el volumen de transferencia de datos.

Run Wang, Victor J. B. Jung, Philip Wiese, Francesco Conti, Alessio Burrello, Luca BeniniWed, 11 Ma🤖 cs.LG

Nemo: A Low-Write-Amplification Cache for Tiny Objects on Log-Structured Flash Devices

El trabajo presenta Nemo, un diseño de caché optimizado para dispositivos flash log-estructurados que reduce la amplificación de escritura a nivel de aplicación mediante el aumento de colisiones de hash para mejorar la tasa de llenado de conjuntos, al tiempo que mantiene una alta eficiencia de memoria y una baja tasa de fallos gracias a un mecanismo de indexación basado en filtros de Bloom y un seguimiento híbrido de popularidad.

Xufeng Yang, Tingting Tan, Jingxin Hu, Congming Gao, Mingyang Liu, Tianyang Jiang, Jian Chen, Linbo Long, Yina Lv, Jiwu ShuWed, 11 Ma💻 cs

HaLoRA: Hardware-aware Low-Rank Adaptation for Large Language Models Based on Hybrid Compute-in-Memory Architecture

El artículo presenta HaLoRA, un método de adaptación de bajo rango consciente del hardware que combina arquitecturas de memoria de computación híbrida (RRAM para pesos preentrenados y SRAM para ramas LoRA) con una pérdida de entrenamiento específica para mitigar el ruido de la RRAM, logrando una reducción del 97% en el consumo energético y mejoras significativas en el rendimiento en tareas de razonamiento.

Taiqiang Wu, Chenchen Ding, Wenyong Zhou, Yuxin Cheng, Xincheng Feng, Shuqi Wang, Wendong Xu, Chufan Shi, Zhengwu Liu, Ngai WongTue, 10 Ma💬 cs.CL

HDLxGraph: Bridging Large Language Models and HDL Repositories via HDL Graph Databases

El artículo presenta HDLxGraph, un marco innovador que integra la estructura gráfica de los lenguajes de descripción de hardware (HDL) con la generación aumentada por recuperación (RAG) para superar las limitaciones de los métodos actuales en proyectos complejos, complementado con el nuevo conjunto de datos de referencia HDLSearch.

Pingqing Zheng (Katie), Jiayin Qin (Katie), Fuqi Zhang (Katie), Niraj Chitla (Katie), Zishen Wan (Katie), Shang Wu (Katie), Yu Cao (Katie), Caiwen Ding (Katie), Yang (Katie), ZhaoTue, 10 Ma🤖 cs.LG

Optimized Many-Hypercube Codes toward Lower Logical Error Rates and Earlier Realization

Este artículo presenta códigos de hipercubo múltiple optimizados que, mediante el uso de códigos base más pequeños y codificadores tolerantes a fallos eficientes, logran tasas de error lógico inferiores y una reducción del 60% en la sobrecarga, facilitando así la realización experimental temprana de la computación cuántica tolerante a fallos de alta tasa.

Hayato GotoTue, 10 Ma⚛️ quant-ph

Continuous-Flow Data-Rate-Aware CNN Inference on FPGA

Este trabajo presenta una arquitectura de inferencia de CNN continua y consciente de la tasa de datos para FPGAs que maximiza la utilización del hardware mediante el entrelazado de señales y el uso compartido de unidades, permitiendo implementar redes complejas como MobileNet en un solo dispositivo con alto rendimiento.

Tobias Habermann, Michael Mecik, Zhenyu Wang, César David Vera, Martin Kumm, Mario GarridoTue, 10 Ma🤖 cs.LG

Orion: Characterizing and Programming Apple's Neural Engine for LLM Training and Inference

El paper presenta Orion, el primer sistema de extremo a extremo que habilita el entrenamiento y la inferencia de modelos de lenguaje grandes directamente en el Neural Engine de Apple mediante el uso de APIs privadas, superando las limitaciones de CoreML y logrando una aceleración significativa en el entrenamiento al optimizar la actualización de pesos sin recompilación completa.

Ramchand KumaresanTue, 10 Ma🤖 cs.LG

Space-Control: Process-Level Isolation for Sharing CXL-based Disaggregated Memory

El artículo presenta Space-Control, un diseño hardware-software que cierra la brecha de seguridad en la memoria desagregada basada en CXL mediante el aislamiento a nivel de proceso con un bajo sobrecosto de rendimiento del 3,3%.

Kaustav Goswami, Sean Peisert, Venkatesh Akella, Jason Lowe-PowerTue, 10 Ma💻 cs

Mozart: Modularized and Efficient MoE Training on 3.5D Wafer-Scale Chiplet Architectures

El artículo presenta Mozart, un marco de co-diseño algoritmo-hardware que optimiza el entrenamiento de modelos de lenguaje grandes basados en mezclas de expertos (MoE) mediante estrategias de asignación de expertos y programación de tokens, adaptados específicamente a arquitecturas de chiplets en oblea de 3.5D para resolver problemas de localidad de memoria y sobrecarga de comunicación.

Shuqing Luo (Katie), Ye Han (Katie), Pingzhi Li (Katie), Jiayin Qin (Katie), Jie Peng (Katie), Yang (Katie), Zhao (Kevin), Yu (Kevin), Cao, Tianlong ChenTue, 10 Ma💻 cs

Explainable and Hardware-Efficient Jamming Detection for 5G Networks Using the Convolutional Tsetlin Machine

Este artículo presenta un método de detección de interferencias para redes 5G basado en la Máquina Tsetlin Convolucional (CTM) que, al operar directamente sobre señales de sincronización, ofrece una solución interpretable y eficiente en hardware con un entrenamiento 9,5 veces más rápido y un uso de memoria 14 veces menor que las redes neuronales convolucionales, validada experimentalmente en un entorno de prueba real y proyectada para su implementación en FPGAs.

Vojtech Halenka, Mohammadreza Amini, Per-Arne Andersen, Ole-Christoffer Granmo, Burak KantarciTue, 10 Ma🤖 cs.LG

Accelerating Diffusion Models for Generative AI Applications with Silicon Photonics

Este artículo presenta un nuevo acelerador basado en fotónica de silicio para modelos de difusión que, según evaluaciones experimentales, mejora la eficiencia energética en al menos un 3x y el rendimiento en 5,5x en comparación con los aceleradores electrónicos más avanzados.

Tharini Suresh, Salma Afifi, Sudeep PasrichaTue, 10 Ma🤖 cs.LG

Mitigating the Memory Bottleneck with Machine Learning-Driven and Data-Aware Microarchitectural Techniques

Esta tesis doctoral propone superar el cuello de botella de la memoria mediante técnicas microarquitectónicas que pasan de ser ajenas a los datos a ser informadas por ellos, utilizando aprendizaje automático y características semánticas de los datos para optimizar significativamente el rendimiento y la eficiencia energética de los procesadores.

Rahul BeraTue, 10 Ma🤖 cs.LG

ConnChecker: Automated Root-Cause Analysis for Formal Connectivity Check via Graph

ConnChecker es una herramienta automatizada basada en grafos que acelera el análisis de causa raíz en la verificación de conectividad formal de SoCs, reduciendo hasta un 80% el tiempo de depuración mediante la categorización automática de contraejemplos y la localización de fallos.

Do Ngoc Tiep, Nguyen Linh Anh, Luu Danh MinhTue, 10 Ma💻 cs

← Anterior Siguiente →

cs.AR