A Survey on Decentralized Federated Learning

Este artigo apresenta uma revisão sistemática do Aprendizado Federado Descentralizado (DFL) de 2018 a 2026, organizando os métodos em famílias arquitetônicas, propondo uma taxonomia baseada em desafios, analisando práticas de avaliação e delineando direções futuras para pesquisas em segurança, privacidade e incentivos em ambientes descentralizados.

Edoardo Gabrielli, Anthony Di Pietro, Dario Fenoglio, Giovanni Pica, Gabriele TolomeiWed, 11 Ma🤖 cs.LG

Scalable and Performant Data Loading

O artigo apresenta o SPDL, uma biblioteca de código aberto e agnóstica a frameworks que otimiza o carregamento de dados para GPU, superando o gargalo do GIL do Python para atingir um desempenho 74% superior ao do DataLoader do PyTorch no ImageNet e benefícios adicionais com o Python 3.13t de thread livre.

Moto Hira, Christian Puhrsch, Valentin Andrei, Roman Malinovskyy, Gael Le Lan, Abhinandan Krishnan, Joseph Cummings, Victor Bourgin, Olga Gerasimova, Miguel Martin, Gokul Gunasekaran, Yuta Inoue, Alex J Turner, Raghuraman KrishnamoorthiWed, 11 Ma💻 cs

PhD Thesis Summary: Methods for Reliability Assessment and Enhancement of Deep Neural Network Hardware Accelerators

Esta tese de doutoramento apresenta métodos inovadores e economicamente eficientes para avaliar e melhorar a confiabilidade de aceleradores de hardware de redes neurais profundas, incluindo uma revisão sistemática da literatura, novas ferramentas analíticas e uma técnica de aprimoramento em tempo real chamada AdAM que equilibra eficiência computacional e tolerância a falhas.

Mahdi TaheriWed, 11 Ma🤖 cs.AI

ARKV: Adaptive and Resource-Efficient KV Cache Management under Limited Memory Budget for Long-Context Inference in LLMs

O artigo apresenta o ARKV, um framework leve e adaptativo que gerencia dinamicamente o cache KV em modelos de linguagem grandes sob orçamentos de memória restritos, alocando diferentes níveis de precisão aos tokens com base na importância e nas dinâmicas de atenção para reduzir o uso de memória em quatro vezes enquanto mantém a precisão em tarefas de contexto longo.

Jianlong Lei, Shashikant IlagerWed, 11 Ma🤖 cs.AI

RSH-SpMM: A Row-Structured Hybrid Kernel for Sparse Matrix-Matrix Multiplication on GPUs

O artigo apresenta o RSH-SpMM, um framework híbrido de multiplicação de matriz esparsa por matriz densa (SpMM) para GPUs que utiliza particionamento adaptativo de linhas e uma representação RS-Tile para otimizar o uso dos Tensor Cores e manter alto desempenho em matrizes com esparsidade altamente irregular, superando as soluções existentes com acelerações de 1,27x a 6,13x.

Aiying Li, Jingwei Sun, Han Li, Wence Ji, Guangzhong SunWed, 11 Ma💻 cs

Sensitivity-Guided Framework for Pruned and Quantized Reservoir Computing Accelerators

Este artigo apresenta um framework de compressão para Computação de Reservatório que utiliza um mecanismo de poda baseado em sensibilidade para otimizar o equilíbrio entre precisão do modelo e eficiência de hardware em implementações FPGA, demonstrando reduções significativas no consumo de energia e recursos sem degradação perceptível da acurácia.

Atousa Jafari, Mahdi Taheri, Hassan Ghasemzadeh Mohammadi, Christian Herglotz, Marco PlatznerWed, 11 Ma🤖 cs.AI

Adaptive Multi-Objective Tiered Storage Configuration for KV Cache in LLM Service

O artigo apresenta o Kareto, um otimizador que utiliza poda guiada por retornos decrescentes e ajuste adaptativo para gerenciar dinamicamente a configuração de armazenamento em camadas do cache KV em serviços de LLM, permitindo identificar configurações na fronteira de Pareto que melhoram significativamente o throughput, reduzem a latência ou diminuem os custos em comparação com estratégias estáticas.

Xianzhe Zheng, Zhengheng Wang, Ruiyan Ma, Rui Wang, Xiyu Wang, Rui Chen, Peng Zhang, Sicheng Pan, Zhangheng Huang, Chenxin Wu, Yi Zhang, Bo Cai, Kan Liu, Teng Ma, Yin Du, Dong Deng, Sai Wu, Guoyun Zhu, Wei Zhang, Feifei LiWed, 11 Ma💻 cs

Zipage: Maintain High Request Concurrency for LLM Reasoning through Compressed PagedAttention

O artigo apresenta o Zipage, um motor de inferência de LLM que utiliza a técnica Compressed PagedAttention para superar gargalos de memória e permitir alta concorrência em tarefas de raciocínio, alcançando mais de 2,1 vezes de aceleração com apenas 5% de perda de desempenho em relação à abordagem de KV cache completo.

Mengqi Liao, Lu Wang, Chaoyun Zhang, Bo Qiao, Si Qin, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Huaiyu WanWed, 11 Ma🤖 cs.AI

Extension of ACETONE C code generator for multi-core architectures

Este artigo propõe a extensão do gerador de código C ACETONE, originalmente limitado a sequências, para arquiteturas multicore, definindo formalmente o problema de alocação de processadores e planejando a implementação de heurísticas de agendamento, mecanismos de sincronização e avaliação de tempo de execução no pior caso.

Yanis Aït-Aïssa (IRIT-TRACES), Thomas Carle (IRIT-TRACES), Sergei Chichin, Benjamin Lesage, Claire PagettiWed, 11 Ma💻 cs

FedLECC: Cluster- and Loss-Guided Client Selection for Federated Learning under Non-IID Data

O artigo propõe o FedLECC, uma estratégia leve e guiada por clusters e perdas para a seleção de clientes em Aprendizado Federado, que melhora a precisão, reduz o número de rodadas de comunicação e diminui a sobrecarga geral em cenários de dados não-IID.

Daniel M. Jimenez-Gutierrez, Giovanni Giunta, Mehrdad Hassanzadeh, Aris Anagnostopoulos, Ioannis Chatzigiannakis, Andrea VitalettiWed, 11 Ma🤖 cs.AI

The qsqs Inequality: Quantifying the Double Penalty of Mixture-of-Experts at Inference

O artigo introduz a desigualdade qsqs, um critério preditivo que revela como a fragmentação de reutilização de memória e a redução do espaço para o cache KV penalizam estruturalmente os modelos Mixture-of-Experts (MoE) durante a inferência de longo contexto, tornando-os frequentemente menos eficientes em throughput do que modelos densos de qualidade equivalente.

Vignesh Adhinarayanan, Nuwan JayasenaWed, 11 Ma🤖 cs.LG

Lockbox -- A Zero Trust Architecture for Secure Processing of Sensitive Cloud Workloads

O artigo apresenta o Lockbox, uma arquitetura de Confiança Zero projetada para garantir o processamento seguro de cargas de trabalho sensíveis na nuvem, aplicando verificação explícita de confiança, isolamento forte e acesso de menor privilégio para permitir o uso de ferramentas avançadas, como IA, sem comprometer a segurança.

Vamshi Krishna Thotempudi, Mahima Agarwal, Raghav Batta, Anjali MangalWed, 11 Ma💻 cs

Accelerating High-Order Finite Element Simulations at Extreme Scale with FP64 Tensor Cores

Este artigo demonstra que a integração de núcleos tensoriais FP64 com otimizações de fusão de kernels no MFEM acelera significativamente simulações de elementos finitos de alta ordem em GPUs NVIDIA, alcançando ganhos de desempenho e eficiência energética em escala exascale, com aplicação direta em códigos de produção como o vencedor do Prêmio Gordon Bell de 2025 para previsão de tsunamis.

Jiqun Tu, Ian Karlin, John Camier, Veselin Dobrev, Tzanio Kolev, Stefan Henneking, Omar GhattasWed, 11 Ma💻 cs