cs.DC artigos | Gist.Science

Optimal Transport Aggregation for Distributed Mixture-of-Experts

Este artigo propõe um framework de agregação baseado em transporte ótimo para modelos de mistura de especialistas (MoE) distribuídos, permitindo a combinação eficiente de modelos locais em um estimador global com apenas uma etapa de comunicação, preservando a estrutura do MoE e garantindo desempenho comparável ao treinamento centralizado.

Faïcel Chamroukhi, Nhat Thien PhamThu, 12 Ma📊 stat

Communication-Efficient Multimodal Federated Learning: Joint Modality and Client Selection

O artigo propõe o MFedMC, um framework de aprendizado federado multimodal eficiente em comunicação que utiliza uma arquitetura desacoplada e seleção conjunta de clientes e modalidades para superar desafios de heterogeneidade e limitações de rede, reduzindo o overhead de comunicação em mais de 20 vezes sem comprometer a precisão.

Liangqi Yuan, Dong-Jun Han, Su Wang, Devesh Upadhyay, Christopher G. BrintonThu, 12 Ma🤖 cs.LG

On the Solvability of Byzantine-tolerant Reliable Communication in Dynamic Networks

Este artigo investiga as condições necessárias e suficientes para a comunicação confiável em redes dinâmicas sujeitas a falhas bizantinas, identificando classes de topologias que garantem a entrega, integridade e autoria das mensagens mesmo na presença de perdas, atrasos de computação e mensagens autenticadas.

Silvia Bonomi (DIAG UNIROMA), Giovanni Farina (UNICUSANO), Sébastien Tixeuil (NPA)Thu, 12 Ma💻 cs

Multi-GPU Quantum Circuit Simulation and the Impact of Network Performance

Este artigo apresenta a integração de MPI nos benchmarks da QED-C para simular circuitos quânticos em múltiplas GPUs, demonstrando que, embora as gerações recentes de GPUs ofereçam melhorias de velocidade, os avanços na tecnologia de interconexão entre nós têm um impacto ainda maior, resultando em ganhos de desempenho superiores a 16 vezes no tempo de solução.

W. Michael Brown, Anurag Ramesh, Thomas Lubinski, Thien Nguyen, David E. Bernal NeiraThu, 12 Ma⚛️ quant-ph

RedFuser: An Automatic Operator Fusion Framework for Cascaded Reductions on AI Accelerators

O artigo apresenta o RedFuser, um framework automático que utiliza uma metodologia teórica para fundir operações de redução em cascata em um único loop, gerando kernels otimizados que superam compiladores de IA existentes e igualam o desempenho de soluções manuais.

Xinsheng Tang, Yangcheng Li, Nan Wang, Zhiyi Shu, Xingyu Ling, Junna Xing, Peng Zhou, Qiang LiuThu, 12 Ma🤖 cs.AI

The DMA Streaming Framework: Kernel-Level Buffer Orchestration for High-Performance AI Data Paths

O artigo apresenta o *dmaplane*, um módulo do kernel Linux que orquestra a gestão de buffers e a transferência de dados via DMA para otimizar pipelines de IA, oferecendo recursos como compartilhamento de memória *dma-buf*, controle de fluxo baseado em créditos e integração com GPU, permitindo inferência distribuída eficiente entre máquinas.

Marco GrazianoThu, 12 Ma🤖 cs.AI

Architecture-Aware LLM Inference Optimization on AMD Instinct GPUs: A Comprehensive Benchmark and Deployment Study

Este estudo apresenta uma avaliação abrangente da inferência de LLMs em GPUs AMD Instinct MI325X, demonstrando que otimizações específicas da arquitetura (como o uso seletivo do runtime AITER e configurações de cache) são essenciais para maximizar o desempenho, alcançando altas taxas de processamento e estabilidade em workloads de texto e visão.

Athos GeorgiouThu, 12 Ma🤖 cs.AI

Pooling Engram Conditional Memory in Large Language Models using CXL

Este artigo propõe o uso de pools de memória CXL para armazenar a memória condicional Engram em Grandes Modelos de Linguagem, integrando-a ao SGLang para oferecer uma solução de armazenamento escalável e econômica com desempenho de inferência próximo ao da memória DRAM.

Ruiyang Ma, Teng Ma, Zhiyuan Su, Hantian Zha, Xinpeng Zhao, Xuchun Shang, Xingrui Yi, Zheng Liu, Zhu Cao, An Wu, Zhichong Dou, Ziqian Liu, Daikang Kuang, Guojie LuoThu, 12 Ma💻 cs

ACE Runtime - A ZKP-Native Blockchain Runtime with Sub-Second Cryptographic Finality

O artigo apresenta o ACE Runtime, uma camada de execução nativa de ZKP que utiliza a separação entre autorização e identidade para substituir verificações de assinatura por transação por atestações HMAC leves e uma prova agregada por bloco, alcançando finalidade criptográfica em subsegundos com custos de verificação constantes e requisitos de hardware reduzidos.

Jian Sheng WangThu, 12 Ma💻 cs

AgentServe: Algorithm-System Co-Design for Efficient Agentic AI Serving on a Consumer-Grade GPU

O artigo apresenta o AgentServe, um sistema de inferência projetado para GPUs de consumo que otimiza o atendimento de múltiplos agentes de IA ao isolar fases de pré-preenchimento e decodificação, resultando em melhorias significativas na estabilidade da latência e no desempenho geral.

Yuning Zhang, Yan Yan, Nan Yang, Dong YuanThu, 12 Ma💻 cs

S-HPLB: Efficient LLM Attention Serving via Sparsity-Aware Head Parallelism Load Balance

O artigo propõe o S-HPLB, uma estratégia de balanceamento de carga que explora a elasticidade de esparsidade heterogênea e estável entre os cabeçalhos de atenção para reduzir inconsistências de tempo de computação em GPUs, alcançando uma melhoria de 2,88 vezes na latência sem degradação da qualidade.

Di Liu, Yifei Liu, Chen Chen, Zhibin Yu, Xiaoyi Fan, Quan Chen, Minyi GuoThu, 12 Ma💻 cs

COHORT: Hybrid RL for Collaborative Large DNN Inference on Multi-Robot Systems Under Real-Time Constraints

O artigo apresenta o COHORT, um framework baseado em ROS que utiliza uma estratégia híbrida de aprendizado por reforço (offline e online) para otimizar a inferência colaborativa de grandes redes neurais em sistemas multi-robô, reduzindo significativamente o consumo de bateria e aumentando a utilização de GPU enquanto atende a restrições de tempo real.

Mohammad Saeid Anwar, Anuradha Ravi, Indrajeet Ghosh, Gaurav Shinde, Carl Busart, Nirmalya RoyThu, 12 Ma💻 cs

Estimating the condition number of Chebyshev filtered vectors with application to the ChASE library

Este trabalho apresenta um método para estimar com precisão e baixo custo o número de condição de vetores filtrados por Chebyshev, permitindo a seleção automática do algoritmo de fatoração QR na biblioteca ChASE, o que melhora seu desempenho sem comprometer a precisão.

Edoardo Di Napoli, Xinzhe WuThu, 12 Ma🔢 math

CD-Raft: Reducing the Latency of Distributed Consensus in Cross-Domain Sites

O artigo propõe o CD-Raft, um protocolo Raft otimizado para reduzir significativamente a latência de consenso em sites de domínios cruzados através da minimização do tempo de ida e volta (RTT) e do posicionamento estratégico do nó líder, garantindo consistência forte e demonstrando reduções de latência média e de cauda em testes empíricos.

Yangyang Wang, Ziqian Cheng, Yucong Dong, Zichen XuThu, 12 Ma💻 cs

Double-Precision Matrix Multiplication Emulation via Ozaki-II Scheme with FP8 Quantization

Este artigo propõe uma técnica inovadora para emular multiplicação de matrizes em precisão dupla (FP64) utilizando unidades de multiplicação FP8 com o esquema Ozaki-II, superando limitações anteriores e reduzindo o número de operações necessárias em comparação com métodos baseados no esquema Ozaki-I.

Yuki Uchino, Katsuhisa Ozaki, Toshiyuki ImamuraThu, 12 Ma💻 cs

CacheSolidarity: Preventing Prefix Caching Side Channels in Multi-tenant LLM Serving Systems

O artigo apresenta o CacheSolidarity, um sistema que protege ambientes de inferência de LLMs multi-tenant contra canais laterais de temporização decorrentes do cache de prefixos, permitindo a reutilização segura de cache e melhor desempenho sem sacrificar a eficiência.

Panagiotis Georgios Pennas, Konstantinos Papaioannou, Marco Guarnieri, Thaleia Dimitra DoudaliThu, 12 Ma🤖 cs.LG

Aceso: Carbon-Aware and Cost-Effective Microservice Placement for Small and Medium-sized Enterprises

O artigo apresenta o Aceso, uma solução adaptativa de placement de microsserviços para PMEs que otimiza a localização geográfica considerando carbono, custo e latência, reduzindo as emissões em 37,4% e os custos operacionais em 3,6% em comparação com implantações estáticas, enquanto atende aos requisitos de serviço.

Georgia Christofidi, Francisco Álvarez-Terribas, Ioannis Roumpos, Nicolas Kourtellis, Jesus Omaña Iglesias, Thaleia Dimitra DoudaliThu, 12 Ma💻 cs

Topological Analysis for Identifying Anomalies in Serverless Platforms

Este artigo apresenta um modelo topológico baseado na decomposição de Hodge para analisar fluxos operacionais em plataformas serverless, permitindo distinguir entre erros configuráveis e propriedades estruturais inerentes (modos harmônicos) e propondo estratégias de mitigação, como efeitos de "drenagem", para gerenciar essas ineficiências sem reestruturar completamente a arquitetura.

Gianluca Reali, Mauro FemminellaThu, 12 Ma💻 cs

Data Augmentation and Convolutional Network Architecture Influence on Distributed Learning

Este estudo analisa como as arquiteturas de Redes Neurais Convolucionais influenciam a precisão do modelo e investiga fatores adicionais que afetam a eficiência computacional em ambientes de aprendizado distribuído, fornecendo insights para otimizar a implantação desses modelos em cenários intensivos em recursos.

Victor Forattini Jansen, Emanuel Teixeira Martins, Yasmin Souza Lima, Flavio de Oliveira Silva, Rodrigo Moreira, Larissa Ferreira Rodrigues MoreiraThu, 12 Ma💻 cs

Reference Architecture of a Quantum-Centric Supercomputer

Este artigo apresenta uma arquitetura de referência e um roteiro para a evolução de supercomputadores centrados em quântica (QCSC), que integram processadores quânticos, GPUs e CPUs em três fases distintas para superar as limitações atuais de orquestração manual e permitir a execução eficiente de algoritmos híbridos em pesquisas aplicadas.

Seetharami Seelam, Jerry M. Chow, Antonio Córcoles, Sarah Sheldon, Tushar Mittal, Abhinav Kandala, Sean Dague, Ian Hincks, Hiroshi Horii, Blake Johnson, Michael Le, Hani Jamjoom, Jay M. GambettaThu, 12 Ma⚡ eess

← Anterior Próximo →