cs.PF artigos | Gist.Science

Unveiling the Potential of Quantization with MXFP4: Strategies for Quantization Error Reduction

Este artigo apresenta duas técnicas de software, Escalonamento Consciente de Estouro (OAS) e Escalonamento de Macro Bloco (MBS), que reduzem drasticamente a lacuna de precisão entre os formatos MXFP4 e NVFP4 em Grandes Modelos de Linguagem, permitindo que o padrão MXFP4 atinja acurácia quase equivalente ao NVFP4 sem exigir alterações no hardware.

Jatin Chhugani, Geonhwa Jeong, Bor-Yiing Su, Yunjie Pan, Hanmei Yang, Aayush Ankit, Jiecao Yu, Summer Deng, Yunqing Chen, Nadathur Satish, Changkyu KimWed, 11 Ma🤖 cs.AI

ARKV: Adaptive and Resource-Efficient KV Cache Management under Limited Memory Budget for Long-Context Inference in LLMs

O artigo apresenta o ARKV, um framework leve e adaptativo que gerencia dinamicamente o cache KV em modelos de linguagem grandes sob orçamentos de memória restritos, alocando diferentes níveis de precisão aos tokens com base na importância e nas dinâmicas de atenção para reduzir o uso de memória em quatro vezes enquanto mantém a precisão em tarefas de contexto longo.

Jianlong Lei, Shashikant IlagerWed, 11 Ma🤖 cs.AI

ChatNeuroSim: An LLM Agent Framework for Automated Compute-in-Memory Accelerator Deployment and Optimization

O artigo apresenta o ChatNeuroSim, um framework baseado em agentes de modelos de linguagem que automatiza o fluxo de trabalho de simulação e otimização de aceleradores de Computação na Memória (CIM), reduzindo significativamente o tempo de exploração do espaço de design e facilitando a implantação rápida de configurações ótimas para cargas de trabalho de redes neurais profundas.

Ming-Yen Lee, Shimeng YuWed, 11 Ma💻 cs

bsort: A theoretically efficient non-comparison-based sorting algorithm for integer and floating-point numbers

O artigo apresenta o algoritmo bsort, uma abordagem não baseada em comparações para ordenação de inteiros e números de ponto flutuante que unifica esses casos com complexidade temporal $O(wn)$ e espaço auxiliar $O(w)$ , demonstrando desempenho competitivo com algoritmos híbridos otimizados para dados de pequeno tamanho de palavra.

Benjamín GuzmánWed, 11 Ma💻 cs

The $qs$ Inequality: Quantifying the Double Penalty of Mixture-of-Experts at Inference

O artigo introduz a desigualdade $qs$ , um critério preditivo que revela como a fragmentação de reutilização de memória e a redução do espaço para o cache KV penalizam estruturalmente os modelos Mixture-of-Experts (MoE) durante a inferência de longo contexto, tornando-os frequentemente menos eficientes em throughput do que modelos densos de qualidade equivalente.

Vignesh Adhinarayanan, Nuwan JayasenaWed, 11 Ma🤖 cs.LG

Accelerating High-Order Finite Element Simulations at Extreme Scale with FP64 Tensor Cores

Este artigo demonstra que a integração de núcleos tensoriais FP64 com otimizações de fusão de kernels no MFEM acelera significativamente simulações de elementos finitos de alta ordem em GPUs NVIDIA, alcançando ganhos de desempenho e eficiência energética em escala exascale, com aplicação direta em códigos de produção como o vencedor do Prêmio Gordon Bell de 2025 para previsão de tsunamis.

Jiqun Tu, Ian Karlin, John Camier, Veselin Dobrev, Tzanio Kolev, Stefan Henneking, Omar GhattasWed, 11 Ma💻 cs

Dynamic Precision Math Engine for Linear Algebra and Trigonometry Acceleration on Xtensa LX6 Microcontrollers

Este artigo apresenta e avalia um motor de matemática de precisão dinâmica para microcontroladores ESP32, que combina aritmética de ponto fixo, módulo CORDIC e multiplicação de matrizes otimizada para acelerar significativamente cálculos de álgebra linear e trigonometria em comparação com bibliotecas padrão de ponto flutuante.

Elian Alfonso Lopez PreciadoWed, 11 Ma💻 cs

Compiler-First State Space Duality and Portable $O(1)$ Autoregressive Caching for Inference

Este artigo demonstra que o algoritmo de dualidade do espaço de estados do Mamba-2 pode ser implementado inteiramente usando primitivas padrão do XLA, eliminando a dependência de kernels CUDA personalizados e permitindo uma inferência autônoma com cache $O(1)$ que funciona de forma idêntica em CPUs, GPUs NVIDIA e TPUs a partir de uma única fonte JAX.

Cosmo SantoniWed, 11 Ma🤖 cs.AI

Multi-DNN Inference of Sparse Models on Edge SoCs

O artigo apresenta o SparseLoom, um sistema demonstrador que utiliza a técnica de "model stitching" para recombinação de subgrafos de modelos esparsos sem retreinamento, permitindo a execução eficiente de múltiplas DNNs em SoCs de borda e reduzindo significativamente as violações de objetivos de nível de serviço (SLO), aumentando o throughput e diminuindo a sobrecarga de memória em comparação com sistemas existentes.

Jiawei Luo, Di Wu, Simon Dobson, Blesson VargheseWed, 11 Ma🤖 cs.LG

A Lock-Free, Fully GPU-Resident Architecture for the Verification of Goldbach's Conjecture

Este artigo apresenta uma arquitetura totalmente residente em GPU e sem bloqueios para a verificação em larga escala da conjectura de Goldbach, que migra todo o pipeline de geração de segmentos para o dispositivo e utiliza um pool de roubo de trabalho assíncrono para alcançar eficiência paralela superior a 98% e uma aceleração de 45,6 vezes em comparação com abordagens anteriores acopladas ao host.

Isaac Llorente-SaguerTue, 10 Ma🔢 math

DyLLM: Efficient Diffusion LLM Inference via Saliency-based Token Selection and Partial Attention

O artigo apresenta o DyLLM, um framework de inferência sem treinamento para Modelos de Linguagem de Difusão (MDLMs) que acelera a geração de texto em até 9,6 vezes ao identificar e processar apenas os "tokens salientes" que mudam significativamente entre os passos de denoising, reutilizando as ativações dos demais tokens para reduzir o custo computacional sem comprometer a precisão.

Younjoo Lee, Junghoo Lee, Seungkyun Dan, Jaiyoung Park, Jung Ho AhnTue, 10 Ma💬 cs.CL

RedFuser: An Automatic Operator Fusion Framework for Cascaded Reductions on AI Accelerators

O artigo apresenta o RedFuser, um framework automático que utiliza uma metodologia teórica para fundir operações de redução em cascata em um único loop, gerando kernels otimizados que superam compiladores de IA existentes e igualam o desempenho de soluções manuais.

Xinsheng Tang, Yangcheng Li, Nan Wang, Zhiyi Shu, Xingyu Ling, Junna Xing, Peng Zhou, Qiang LiuThu, 12 Ma🤖 cs.AI

RAGPerf: An End-to-End Benchmarking Framework for Retrieval-Augmented Generation Systems

O artigo apresenta o RAGPerf, um framework de benchmarking de ponta a ponta que modulariza e avalia o desempenho e a precisão de sistemas de Geração Aumentada por Recuperação (RAG), suportando diversos componentes, dados e métricas com sobrecarga negligenciável.

Shaobo Li, Yirui Zhou, Yuan Xu, Kevin Chen, Daniel Waddington, Swaminathan Sundararaman, Hubertus Franke, Jian HuangThu, 12 Ma💻 cs

Linear Layouts: Robust Code Generation of Efficient Tensor Computation Using $\mathbb{F}_2$

Este artigo apresenta os "Linear Layouts", uma abordagem inovadora que modela layouts de tensores usando álgebra linear sobre $\mathbb{F}_2$ para permitir definições genéricas e conversões eficientes, otimizando a geração de código no Triton e reduzindo a complexidade do backend do compilador.

Keren Zhou, Mario Lezcano, Adam Goucher, Akhmed Rakhmati, Jeff Niu, Justin Lebar, Pawel Szczerbuk, Peter Bell, Phil Tillet, Thomas Raoux, Zahi MoudallalMon, 09 Ma💻 cs

Reexamining Paradigms of End-to-End Data Movement

Este artigo desafia a visão centrada na rede sobre a transferência de dados de alto desempenho, demonstrando através de seis paradigmas e do modelo "Padrão de Bacia de Drenagem" que os principais gargalos residem frequentemente fora do núcleo da rede e que um projeto holístico de hardware e software é essencial para garantir desempenho consistente e previsível em escala.

Chin Fang, Timothy Stitt, Michael J. McManus, Toshio MoriyaMon, 09 Ma💻 cs

Parallelization Strategies for Dense LLM Deployment: Navigating Through Application-Specific Tradeoffs and Bottlenecks

Este artigo investiga estratégias de paralelização para a implantação de modelos de linguagem densos, demonstrando que o Paralelismo de Tensores (TP) otimiza a latência enquanto o Paralelismo de Pipeline (PP) favorece a vazão, e que a combinação híbrida dessas técnicas permite gerenciar eficazmente o compromisso entre esses dois indicadores de desempenho.

Burak Topcu, Musa Oguzhan Cim, Poovaiah Palangappa, Meena Arunachalam, Mahmut Taylan KandemirMon, 09 Ma🤖 cs.LG

Improving LLM Performance Through Black-Box Online Tuning: A Case for Adding System Specs to Factsheets for Trusted AI

Este artigo apresenta um controlador online de caixa-preta que otimiza o desempenho de LLMs através de medições de ponta a ponta e, a partir desse exemplo, defende a inclusão de métricas de desempenho e sustentabilidade nos Factsheets para promover a confiança em sistemas de IA.

Yonas Atinafu, Henry Lin, Robin CohenFri, 13 Ma🤖 cs.AI

Concurrent Deterministic Skiplist and Other Data Structures

Este artigo apresenta o projeto, análise e desempenho de uma lista de saltos determinística concorrente em nós NUMA de muitos núcleos, avaliando também filas e tabelas hash concorrentes em comparação com a biblioteca TBB da Intel, enquanto propõe estratégias de gerenciamento de memória e uso hierárquico de estruturas de dados para reduzir latências e acessos remotos.

Aparna Sasidharan2026-03-06💻 cs

Dynamic Model Routing and Cascading for Efficient LLM Inference: A Survey

Este artigo de revisão analisa sistematicamente as abordagens de roteamento e encadeamento dinâmico entre múltiplos modelos de linguagem (LLMs), propondo um quadro conceitual para otimizar a seleção de modelos em tempo de inferência, equilibrando eficiência, custo e desempenho em comparação com a implantação estática.

Yasmin Moslem, John D. Kelleher2026-03-06💻 cs

Unlocking Python's Cores: Hardware Usage and Energy Implications of Removing the GIL

Este estudo demonstra que a versão experimental do Python 3.14.2 sem o Global Interpreter Lock (GIL) oferece ganhos significativos de desempenho e eficiência energética apenas para cargas de trabalho paralelizáveis independentes, enquanto aumenta o consumo de energia em tarefas sequenciais e eleva o uso de memória devido a novos mecanismos de segurança, indicando que sua adoção deve ser criteriosa conforme o tipo de carga de trabalho.

José Daniel Montoya Salazar2026-03-06💻 cs

cs.PF