cs.AR artigos | Gist.Science

ChatNeuroSim: An LLM Agent Framework for Automated Compute-in-Memory Accelerator Deployment and Optimization

O artigo apresenta o ChatNeuroSim, um framework baseado em agentes de modelos de linguagem que automatiza o fluxo de trabalho de simulação e otimização de aceleradores de Computação na Memória (CIM), reduzindo significativamente o tempo de exploração do espaço de design e facilitando a implantação rápida de configurações ótimas para cargas de trabalho de redes neurais profundas.

Ming-Yen Lee, Shimeng YuWed, 11 Ma💻 cs

Diagnosing FP4 inference: a layer-wise and block-wise sensitivity analysis of NVFP4 and MXFP4

Este estudo realiza uma análise sistemática da sensibilidade à quantização nos formatos FP4 (MXFP4 e NVFP4) em modelos Qwen2.5 de diferentes escalas, revelando que as camadas de projeção do MLP são as mais críticas e que a sensibilidade não se limita aos blocos finais, variando conforme o formato e a profundidade do modelo.

Musa Cim, Burak Topcu, Mahmut Taylan KandemirWed, 11 Ma🤖 cs.AI

bsort: A theoretically efficient non-comparison-based sorting algorithm for integer and floating-point numbers

O artigo apresenta o algoritmo bsort, uma abordagem não baseada em comparações para ordenação de inteiros e números de ponto flutuante que unifica esses casos com complexidade temporal $O(wn)$ e espaço auxiliar $O(w)$ , demonstrando desempenho competitivo com algoritmos híbridos otimizados para dados de pequeno tamanho de palavra.

Benjamín GuzmánWed, 11 Ma💻 cs

The $qs$ Inequality: Quantifying the Double Penalty of Mixture-of-Experts at Inference

O artigo introduz a desigualdade $qs$ , um critério preditivo que revela como a fragmentação de reutilização de memória e a redução do espaço para o cache KV penalizam estruturalmente os modelos Mixture-of-Experts (MoE) durante a inferência de longo contexto, tornando-os frequentemente menos eficientes em throughput do que modelos densos de qualidade equivalente.

Vignesh Adhinarayanan, Nuwan JayasenaWed, 11 Ma🤖 cs.LG

Two Teachers Better Than One: Hardware-Physics Co-Guided Distributed Scientific Machine Learning

O artigo apresenta o EPIC, um framework de aprendizado de máquina científico distribuído que combina hardware e princípios físicos para reduzir drasticamente a latência e o consumo de energia em tarefas como inversão de onda completa, mantendo ou até melhorando a fidelidade dos dados.

Yuchen Yuan, Junhuan Yang, Hao Wan, Yipei Liu, Hanhan Wu, Youzuo Lin, Lei YangWed, 11 Ma🤖 cs.LG

Wrong Code, Right Structure: Learning Netlist Representations from Imperfect LLM-Generated RTL

Este trabalho propõe um framework de aumento de dados que aproveita a estrutura preservada em RTLs gerados por LLMs, mesmo quando funcionalmente imperfeitos, para treinar representações de netlist que superam a escassez de dados rotulados e generalizam bem para circuitos reais.

Siyang Cai, Cangyuan Li, Yinhe Han, Ying WangWed, 11 Ma🤖 cs.AI

DendroNN: Dendrocentric Neural Networks for Energy-Efficient Classification of Event-Based Data

O artigo apresenta o DendroNN, uma rede neural centrada em dendritos que utiliza um mecanismo de detecção de sequências de pulsos e uma fase de reconfiguração sem gradientes para classificar dados baseados em eventos com alta eficiência energética, superando hardware neuromórfico atual em até quatro vezes na mesma tarefa de classificação de áudio.

Jann Krausse, Zhe Su, Kyrus Mama, Maryada, Klaus Knobloch, Giacomo Indiveri, Jürgen BeckerWed, 11 Ma🤖 cs.AI

TrainDeeploy: Hardware-Accelerated Parameter-Efficient Fine-Tuning of Small Transformer Models at the Extreme Edge

O artigo apresenta o TrainDeeploy, um framework que viabiliza o primeiro pipeline completo de ajuste fino on-device para modelos CNN e Transformer em SoCs de ultra-baixo consumo, utilizando estratégias como LoRA para reduzir significativamente o uso de memória e o número de parâmetros treináveis, alcançando até 11 imagens ajustadas por segundo em hardware de borda extrema.

Run Wang, Victor J. B. Jung, Philip Wiese, Francesco Conti, Alessio Burrello, Luca BeniniWed, 11 Ma🤖 cs.LG

Nemo: A Low-Write-Amplification Cache for Tiny Objects on Log-Structured Flash Devices

O artigo apresenta o Nemo, um novo sistema de cache para objetos pequenos em dispositivos flash que reduz a amplificação de escrita ao aumentar a probabilidade de colisão em hashes para melhorar a taxa de preenchimento dos conjuntos, enquanto utiliza um índice baseado em filtro de Bloom e rastreamento híbrido de popularidade para garantir alta eficiência de memória e baixa taxa de falhas.

Xufeng Yang, Tingting Tan, Jingxin Hu, Congming Gao, Mingyang Liu, Tianyang Jiang, Jian Chen, Linbo Long, Yina Lv, Jiwu ShuWed, 11 Ma💻 cs

HaLoRA: Hardware-aware Low-Rank Adaptation for Large Language Models Based on Hybrid Compute-in-Memory Architecture

O artigo propõe o HaLoRA, um método de adaptação de baixo rank consciente de hardware que combina pesos pré-treinados em memória RRAM ruidosa com ramos LoRA treinados para robustez em SRAM silenciosa, permitindo a execução eficiente de modelos de linguagem grandes com economia de energia de até 97% e ganhos significativos de precisão.

Taiqiang Wu, Chenchen Ding, Wenyong Zhou, Yuxin Cheng, Xincheng Feng, Shuqi Wang, Wendong Xu, Chufan Shi, Zhengwu Liu, Ngai WongTue, 10 Ma💬 cs.CL

HDLxGraph: Bridging Large Language Models and HDL Repositories via HDL Graph Databases

O artigo apresenta o HDLxGraph, um novo framework que integra características gráficas de Hardware Description Languages (HDLs), como Árvores de Sintaxe Abstrata e Grafos de Fluxo de Dados, a sistemas de Geração Aumentada por Recuperação (RAG) para superar limitações em tarefas de LLM, validado pelo novo benchmark HDLSearch e demonstrando melhorias significativas na precisão de busca, depuração e conclusão de código em comparação com métodos existentes.

Pingqing Zheng (Katie), Jiayin Qin (Katie), Fuqi Zhang (Katie), Niraj Chitla (Katie), Zishen Wan (Katie), Shang Wu (Katie), Yu Cao (Katie), Caiwen Ding (Katie), Yang (Katie), ZhaoTue, 10 Ma🤖 cs.LG

Optimized Many-Hypercube Codes toward Lower Logical Error Rates and Earlier Realization

Este artigo propõe e analisa códigos de muitos hipercubos otimizados, demonstrando que combinações de códigos menores (como $D_{6,4,4}$ ) alcançam taxas de erro lógico inferiores e permitem uma realização experimental mais precoce de computação quântica tolerante a falhas, ao mesmo tempo em que introduz codificadores eficientes que reduzem o custo computacional em cerca de 60%.

Hayato GotoTue, 10 Ma⚛️ quant-ph

Continuous-Flow Data-Rate-Aware CNN Inference on FPGA

Este trabalho apresenta uma abordagem inovadora para arquiteturas de CNN contínuas e conscientes da taxa de dados em FPGAs, que maximiza a utilização de hardware e permite a implementação eficiente de redes complexas como o MobileNet ao lidar com a redução de dados em camadas de convolução e pooling.

Tobias Habermann, Michael Mecik, Zhenyu Wang, César David Vera, Martin Kumm, Mario GarridoTue, 10 Ma🤖 cs.LG

Orion: Characterizing and Programming Apple's Neural Engine for LLM Training and Inference

O artigo apresenta o Orion, o primeiro sistema de ponta a ponta que permite o treinamento e inferência estáveis de modelos de linguagem diretamente na Neural Engine da Apple, contornando as limitações do CoreML através de APIs privadas, descobrindo novas restrições de hardware e otimizando o processo de treinamento ao reduzir drasticamente o tempo de recompilação de pesos.

Ramchand KumaresanTue, 10 Ma🤖 cs.LG

Space-Control: Process-Level Isolation for Sharing CXL-based Disaggregated Memory

O artigo apresenta o Space-Control, uma solução de co-design hardware-software que preenche a lacuna de segurança na memória desagregada baseada em CXL ao fornecer isolamento de nível de processo com baixo custo de desempenho.

Kaustav Goswami, Sean Peisert, Venkatesh Akella, Jason Lowe-PowerTue, 10 Ma💻 cs

Mozart: Modularized and Efficient MoE Training on 3.5D Wafer-Scale Chiplet Architectures

O artigo apresenta o Mozart, um framework de co-projeto algoritmo-hardware que otimiza o treinamento de modelos de linguagem de grande escala com arquitetura Mixture-of-Experts (MoE) em chips de wafer escalonados 3.5D, utilizando estratégias de alocação de especialistas e agendamento granular para superar desafios de comunicação e utilização de recursos.

Shuqing Luo (Katie), Ye Han (Katie), Pingzhi Li (Katie), Jiayin Qin (Katie), Jie Peng (Katie), Yang (Katie), Zhao (Kevin), Yu (Kevin), Cao, Tianlong ChenTue, 10 Ma💻 cs

Explainable and Hardware-Efficient Jamming Detection for 5G Networks Using the Convolutional Tsetlin Machine

Este artigo apresenta e valida experimentalmente uma abordagem de detecção de interferência em redes 5G baseada na Máquina Tsetlin Convolutiva (CTM), que, ao operar diretamente em blocos de sinal de sincronização, oferece uma alternativa leve, explicável e eficiente em hardware em comparação com redes neurais convolucionais, alcançando desempenho comparável com treinamento significativamente mais rápido e menor consumo de memória.

Vojtech Halenka, Mohammadreza Amini, Per-Arne Andersen, Ole-Christoffer Granmo, Burak KantarciTue, 10 Ma🤖 cs.LG

Accelerating Diffusion Models for Generative AI Applications with Silicon Photonics

Este artigo apresenta um novo acelerador baseado em fotônica de silício para modelos de difusão, que supera os aceleradores eletrônicos atuais alcançando uma eficiência energética 3 vezes maior e um aumento de 5,5 vezes no rendimento.

Tharini Suresh, Salma Afifi, Sudeep PasrichaTue, 10 Ma🤖 cs.LG

Mitigating the Memory Bottleneck with Machine Learning-Driven and Data-Aware Microarchitectural Techniques

Esta dissertação propõe uma mudança no design de microarquitetura de abordagens agnósticas a dados para técnicas orientadas a dados e impulsionadas por aprendizado de máquina, demonstrando em quatro estudos de caso que explorar o comportamento de execução e as características semânticas dos dados melhora significativamente o desempenho e a eficiência energética ao mitigar o gargalo de memória.

Rahul BeraTue, 10 Ma🤖 cs.LG

ConnChecker: Automated Root-Cause Analysis for Formal Connectivity Check via Graph

O artigo apresenta o ConnChecker, uma ferramenta automatizada baseada em grafos que realiza análise de causa raiz para verificações de conectividade formal em SoCs, reduzindo o tempo de depuração em até 80% ao categorizar automaticamente contraexemplos e sugerir correções.

Do Ngoc Tiep, Nguyen Linh Anh, Luu Danh MinhTue, 10 Ma💻 cs

← Anterior Próximo →

cs.AR