Unveiling the Potential of Quantization with MXFP4: Strategies for Quantization Error Reduction

Este artigo apresenta duas técnicas de software, Escalonamento Consciente de Estouro (OAS) e Escalonamento de Macro Bloco (MBS), que reduzem drasticamente a lacuna de precisão entre os formatos MXFP4 e NVFP4 em Grandes Modelos de Linguagem, permitindo que o padrão MXFP4 atinja acurácia quase equivalente ao NVFP4 sem exigir alterações no hardware.

Jatin Chhugani, Geonhwa Jeong, Bor-Yiing Su, Yunjie Pan, Hanmei Yang, Aayush Ankit, Jiecao Yu, Summer Deng, Yunqing Chen, Nadathur Satish, Changkyu KimWed, 11 Ma🤖 cs.AI

ARKV: Adaptive and Resource-Efficient KV Cache Management under Limited Memory Budget for Long-Context Inference in LLMs

O artigo apresenta o ARKV, um framework leve e adaptativo que gerencia dinamicamente o cache KV em modelos de linguagem grandes sob orçamentos de memória restritos, alocando diferentes níveis de precisão aos tokens com base na importância e nas dinâmicas de atenção para reduzir o uso de memória em quatro vezes enquanto mantém a precisão em tarefas de contexto longo.

Jianlong Lei, Shashikant IlagerWed, 11 Ma🤖 cs.AI

ChatNeuroSim: An LLM Agent Framework for Automated Compute-in-Memory Accelerator Deployment and Optimization

O artigo apresenta o ChatNeuroSim, um framework baseado em agentes de modelos de linguagem que automatiza o fluxo de trabalho de simulação e otimização de aceleradores de Computação na Memória (CIM), reduzindo significativamente o tempo de exploração do espaço de design e facilitando a implantação rápida de configurações ótimas para cargas de trabalho de redes neurais profundas.

Ming-Yen Lee, Shimeng YuWed, 11 Ma💻 cs

The qsqs Inequality: Quantifying the Double Penalty of Mixture-of-Experts at Inference

O artigo introduz a desigualdade qsqs, um critério preditivo que revela como a fragmentação de reutilização de memória e a redução do espaço para o cache KV penalizam estruturalmente os modelos Mixture-of-Experts (MoE) durante a inferência de longo contexto, tornando-os frequentemente menos eficientes em throughput do que modelos densos de qualidade equivalente.

Vignesh Adhinarayanan, Nuwan JayasenaWed, 11 Ma🤖 cs.LG

Accelerating High-Order Finite Element Simulations at Extreme Scale with FP64 Tensor Cores

Este artigo demonstra que a integração de núcleos tensoriais FP64 com otimizações de fusão de kernels no MFEM acelera significativamente simulações de elementos finitos de alta ordem em GPUs NVIDIA, alcançando ganhos de desempenho e eficiência energética em escala exascale, com aplicação direta em códigos de produção como o vencedor do Prêmio Gordon Bell de 2025 para previsão de tsunamis.

Jiqun Tu, Ian Karlin, John Camier, Veselin Dobrev, Tzanio Kolev, Stefan Henneking, Omar GhattasWed, 11 Ma💻 cs

Multi-DNN Inference of Sparse Models on Edge SoCs

O artigo apresenta o SparseLoom, um sistema demonstrador que utiliza a técnica de "model stitching" para recombinação de subgrafos de modelos esparsos sem retreinamento, permitindo a execução eficiente de múltiplas DNNs em SoCs de borda e reduzindo significativamente as violações de objetivos de nível de serviço (SLO), aumentando o throughput e diminuindo a sobrecarga de memória em comparação com sistemas existentes.

Jiawei Luo, Di Wu, Simon Dobson, Blesson VargheseWed, 11 Ma🤖 cs.LG

A Lock-Free, Fully GPU-Resident Architecture for the Verification of Goldbach's Conjecture

Este artigo apresenta uma arquitetura totalmente residente em GPU e sem bloqueios para a verificação em larga escala da conjectura de Goldbach, que migra todo o pipeline de geração de segmentos para o dispositivo e utiliza um pool de roubo de trabalho assíncrono para alcançar eficiência paralela superior a 98% e uma aceleração de 45,6 vezes em comparação com abordagens anteriores acopladas ao host.

Isaac Llorente-SaguerTue, 10 Ma🔢 math

DyLLM: Efficient Diffusion LLM Inference via Saliency-based Token Selection and Partial Attention

O artigo apresenta o DyLLM, um framework de inferência sem treinamento para Modelos de Linguagem de Difusão (MDLMs) que acelera a geração de texto em até 9,6 vezes ao identificar e processar apenas os "tokens salientes" que mudam significativamente entre os passos de denoising, reutilizando as ativações dos demais tokens para reduzir o custo computacional sem comprometer a precisão.

Younjoo Lee, Junghoo Lee, Seungkyun Dan, Jaiyoung Park, Jung Ho AhnTue, 10 Ma💬 cs.CL

Linear Layouts: Robust Code Generation of Efficient Tensor Computation Using F2\mathbb{F}_2

Este artigo apresenta os "Linear Layouts", uma abordagem inovadora que modela layouts de tensores usando álgebra linear sobre F2\mathbb{F}_2 para permitir definições genéricas e conversões eficientes, otimizando a geração de código no Triton e reduzindo a complexidade do backend do compilador.

Keren Zhou, Mario Lezcano, Adam Goucher, Akhmed Rakhmati, Jeff Niu, Justin Lebar, Pawel Szczerbuk, Peter Bell, Phil Tillet, Thomas Raoux, Zahi MoudallalMon, 09 Ma💻 cs

Reexamining Paradigms of End-to-End Data Movement

Este artigo desafia a visão centrada na rede sobre a transferência de dados de alto desempenho, demonstrando através de seis paradigmas e do modelo "Padrão de Bacia de Drenagem" que os principais gargalos residem frequentemente fora do núcleo da rede e que um projeto holístico de hardware e software é essencial para garantir desempenho consistente e previsível em escala.

Chin Fang, Timothy Stitt, Michael J. McManus, Toshio MoriyaMon, 09 Ma💻 cs

Parallelization Strategies for Dense LLM Deployment: Navigating Through Application-Specific Tradeoffs and Bottlenecks

Este artigo investiga estratégias de paralelização para a implantação de modelos de linguagem densos, demonstrando que o Paralelismo de Tensores (TP) otimiza a latência enquanto o Paralelismo de Pipeline (PP) favorece a vazão, e que a combinação híbrida dessas técnicas permite gerenciar eficazmente o compromisso entre esses dois indicadores de desempenho.

Burak Topcu, Musa Oguzhan Cim, Poovaiah Palangappa, Meena Arunachalam, Mahmut Taylan KandemirMon, 09 Ma🤖 cs.LG

Unlocking Python's Cores: Hardware Usage and Energy Implications of Removing the GIL

Este estudo demonstra que a versão experimental do Python 3.14.2 sem o Global Interpreter Lock (GIL) oferece ganhos significativos de desempenho e eficiência energética apenas para cargas de trabalho paralelizáveis independentes, enquanto aumenta o consumo de energia em tarefas sequenciais e eleva o uso de memória devido a novos mecanismos de segurança, indicando que sua adoção deve ser criteriosa conforme o tipo de carga de trabalho.

José Daniel Montoya Salazar2026-03-06💻 cs