ChatNeuroSim: An LLM Agent Framework for Automated Compute-in-Memory Accelerator Deployment and Optimization

O artigo apresenta o ChatNeuroSim, um framework baseado em agentes de modelos de linguagem que automatiza o fluxo de trabalho de simulação e otimização de aceleradores de Computação na Memória (CIM), reduzindo significativamente o tempo de exploração do espaço de design e facilitando a implantação rápida de configurações ótimas para cargas de trabalho de redes neurais profundas.

Ming-Yen Lee, Shimeng YuWed, 11 Ma💻 cs

The qsqs Inequality: Quantifying the Double Penalty of Mixture-of-Experts at Inference

O artigo introduz a desigualdade qsqs, um critério preditivo que revela como a fragmentação de reutilização de memória e a redução do espaço para o cache KV penalizam estruturalmente os modelos Mixture-of-Experts (MoE) durante a inferência de longo contexto, tornando-os frequentemente menos eficientes em throughput do que modelos densos de qualidade equivalente.

Vignesh Adhinarayanan, Nuwan JayasenaWed, 11 Ma🤖 cs.LG

DendroNN: Dendrocentric Neural Networks for Energy-Efficient Classification of Event-Based Data

O artigo apresenta o DendroNN, uma rede neural centrada em dendritos que utiliza um mecanismo de detecção de sequências de pulsos e uma fase de reconfiguração sem gradientes para classificar dados baseados em eventos com alta eficiência energética, superando hardware neuromórfico atual em até quatro vezes na mesma tarefa de classificação de áudio.

Jann Krausse, Zhe Su, Kyrus Mama, Maryada, Klaus Knobloch, Giacomo Indiveri, Jürgen BeckerWed, 11 Ma🤖 cs.AI

TrainDeeploy: Hardware-Accelerated Parameter-Efficient Fine-Tuning of Small Transformer Models at the Extreme Edge

O artigo apresenta o TrainDeeploy, um framework que viabiliza o primeiro pipeline completo de ajuste fino on-device para modelos CNN e Transformer em SoCs de ultra-baixo consumo, utilizando estratégias como LoRA para reduzir significativamente o uso de memória e o número de parâmetros treináveis, alcançando até 11 imagens ajustadas por segundo em hardware de borda extrema.

Run Wang, Victor J. B. Jung, Philip Wiese, Francesco Conti, Alessio Burrello, Luca BeniniWed, 11 Ma🤖 cs.LG

Nemo: A Low-Write-Amplification Cache for Tiny Objects on Log-Structured Flash Devices

O artigo apresenta o Nemo, um novo sistema de cache para objetos pequenos em dispositivos flash que reduz a amplificação de escrita ao aumentar a probabilidade de colisão em hashes para melhorar a taxa de preenchimento dos conjuntos, enquanto utiliza um índice baseado em filtro de Bloom e rastreamento híbrido de popularidade para garantir alta eficiência de memória e baixa taxa de falhas.

Xufeng Yang, Tingting Tan, Jingxin Hu, Congming Gao, Mingyang Liu, Tianyang Jiang, Jian Chen, Linbo Long, Yina Lv, Jiwu ShuWed, 11 Ma💻 cs

HaLoRA: Hardware-aware Low-Rank Adaptation for Large Language Models Based on Hybrid Compute-in-Memory Architecture

O artigo propõe o HaLoRA, um método de adaptação de baixo rank consciente de hardware que combina pesos pré-treinados em memória RRAM ruidosa com ramos LoRA treinados para robustez em SRAM silenciosa, permitindo a execução eficiente de modelos de linguagem grandes com economia de energia de até 97% e ganhos significativos de precisão.

Taiqiang Wu, Chenchen Ding, Wenyong Zhou, Yuxin Cheng, Xincheng Feng, Shuqi Wang, Wendong Xu, Chufan Shi, Zhengwu Liu, Ngai WongTue, 10 Ma💬 cs.CL

HDLxGraph: Bridging Large Language Models and HDL Repositories via HDL Graph Databases

O artigo apresenta o HDLxGraph, um novo framework que integra características gráficas de Hardware Description Languages (HDLs), como Árvores de Sintaxe Abstrata e Grafos de Fluxo de Dados, a sistemas de Geração Aumentada por Recuperação (RAG) para superar limitações em tarefas de LLM, validado pelo novo benchmark HDLSearch e demonstrando melhorias significativas na precisão de busca, depuração e conclusão de código em comparação com métodos existentes.

Pingqing Zheng (Katie), Jiayin Qin (Katie), Fuqi Zhang (Katie), Niraj Chitla (Katie), Zishen Wan (Katie), Shang Wu (Katie), Yu Cao (Katie), Caiwen Ding (Katie), Yang (Katie), ZhaoTue, 10 Ma🤖 cs.LG

Optimized Many-Hypercube Codes toward Lower Logical Error Rates and Earlier Realization

Este artigo propõe e analisa códigos de muitos hipercubos otimizados, demonstrando que combinações de códigos menores (como D6,4,4D_{6,4,4}) alcançam taxas de erro lógico inferiores e permitem uma realização experimental mais precoce de computação quântica tolerante a falhas, ao mesmo tempo em que introduz codificadores eficientes que reduzem o custo computacional em cerca de 60%.

Hayato GotoTue, 10 Ma⚛️ quant-ph

Orion: Characterizing and Programming Apple's Neural Engine for LLM Training and Inference

O artigo apresenta o Orion, o primeiro sistema de ponta a ponta que permite o treinamento e inferência estáveis de modelos de linguagem diretamente na Neural Engine da Apple, contornando as limitações do CoreML através de APIs privadas, descobrindo novas restrições de hardware e otimizando o processo de treinamento ao reduzir drasticamente o tempo de recompilação de pesos.

Ramchand KumaresanTue, 10 Ma🤖 cs.LG

Mozart: Modularized and Efficient MoE Training on 3.5D Wafer-Scale Chiplet Architectures

O artigo apresenta o Mozart, um framework de co-projeto algoritmo-hardware que otimiza o treinamento de modelos de linguagem de grande escala com arquitetura Mixture-of-Experts (MoE) em chips de wafer escalonados 3.5D, utilizando estratégias de alocação de especialistas e agendamento granular para superar desafios de comunicação e utilização de recursos.

Shuqing Luo (Katie), Ye Han (Katie), Pingzhi Li (Katie), Jiayin Qin (Katie), Jie Peng (Katie), Yang (Katie), Zhao (Kevin), Yu (Kevin), Cao, Tianlong ChenTue, 10 Ma💻 cs

Explainable and Hardware-Efficient Jamming Detection for 5G Networks Using the Convolutional Tsetlin Machine

Este artigo apresenta e valida experimentalmente uma abordagem de detecção de interferência em redes 5G baseada na Máquina Tsetlin Convolutiva (CTM), que, ao operar diretamente em blocos de sinal de sincronização, oferece uma alternativa leve, explicável e eficiente em hardware em comparação com redes neurais convolucionais, alcançando desempenho comparável com treinamento significativamente mais rápido e menor consumo de memória.

Vojtech Halenka, Mohammadreza Amini, Per-Arne Andersen, Ole-Christoffer Granmo, Burak KantarciTue, 10 Ma🤖 cs.LG

Mitigating the Memory Bottleneck with Machine Learning-Driven and Data-Aware Microarchitectural Techniques

Esta dissertação propõe uma mudança no design de microarquitetura de abordagens agnósticas a dados para técnicas orientadas a dados e impulsionadas por aprendizado de máquina, demonstrando em quatro estudos de caso que explorar o comportamento de execução e as características semânticas dos dados melhora significativamente o desempenho e a eficiência energética ao mitigar o gargalo de memória.

Rahul BeraTue, 10 Ma🤖 cs.LG