cs.DC artigos | Gist.Science

Nezha: A Key-Value Separated Distributed Store with Optimized Raft Integration

O artigo apresenta o Nezha, um sistema de armazenamento distribuído que integra separação de chaves-valor com o protocolo Raft para eliminar a sobrecarga de I/O causada por operações de persistência sobrepostas, resultando em melhorias significativas de desempenho em operações de leitura e escrita.

Yangyang Wang, Yucong Dong, Ziqian Cheng, Zichen XuWed, 11 Ma💻 cs

Hierarchical Observe-Orient-Decide-Act Enabled UAV Swarms in Uncertain Environments: Frameworks, Potentials, and Challenges

Este artigo propõe um framework hierárquico baseado no ciclo Observe-Orient-Decide-Act (H-OODA), implementado através das camadas nuvem-borda-terminal e virtualização de funções de rede, para superar os desafios de adaptabilidade e escalabilidade na tomada de decisão de enxames de UAVs em ambientes incertos.

Ziye Jia, Yao Wu, Qihui Wu, Lijun He, Qiuming Zhu, Fuhui Zhou, Zhu HanWed, 11 Ma💻 cs

PIM-SHERPA: Software Method for On-device LLM Inference by Resolving PIM Memory Attribute and Layout Inconsistencies

O artigo apresenta o PIM-SHERPA, um método puramente de software que otimiza a inferência de LLMs em dispositivos ao resolver inconsistências de atributos e layout de memória em sistemas com Processamento em Memória (PIM), alcançando economias significativas de capacidade sem comprometer o desempenho.

Sunjung Lee, Sanghoon Cha, Hyeonsu Kim, Seungwoo Seo, Yuhwan Ro, Sukhan Lee, Byeongho Kim, Yongjun Park, Kyomin Sohn, Seungwon Lee, Jaehoon YuWed, 11 Ma💻 cs

Flash-KMeans: Fast and Memory-Efficient Exact K-Means

O artigo apresenta o Flash-KMeans, uma implementação otimizada para GPUs que supera os gargalos de E/S e contenção de memória das abordagens existentes, permitindo que o algoritmo k-means seja executado online com um aceleramento de até 17,9 vezes em comparação com as melhores bases e superando bibliotecas industriais como cuML e FAISS em até 200 vezes.

Shuo Yang, Haocheng Xi, Yilong Zhao, Muyang Li, Xiaoze Fan, Jintao Zhang, Han Cai, Yujun Lin, Xiuyu Li, Kurt Keutzer, Song Han, Chenfeng Xu, Ion StoicaWed, 11 Ma💻 cs

Compiler-First State Space Duality and Portable $O(1)$ Autoregressive Caching for Inference

Este artigo demonstra que o algoritmo de dualidade do espaço de estados do Mamba-2 pode ser implementado inteiramente usando primitivas padrão do XLA, eliminando a dependência de kernels CUDA personalizados e permitindo uma inferência autônoma com cache $O(1)$ que funciona de forma idêntica em CPUs, GPUs NVIDIA e TPUs a partir de uma única fonte JAX.

Cosmo SantoniWed, 11 Ma🤖 cs.AI

Case Study: Performance Analysis of a Virtualized XRootD Frontend in Large-Scale WAN Transfers

Este artigo apresenta uma análise de desempenho do frontend virtualizado XRootD do T2_BR_SPRACE, demonstrando que sua arquitetura heterogênea, configurada com algoritmos de controle de congestionamento avançados, alcançou uma taxa de transferência agregada de 51,3 Gb/s sob condições de produção intensas.

J M da Silva, M A Costa, R L IopeWed, 11 Ma💻 cs

Randomized Distributed Function Computation (RDFC): Ultra-Efficient Semantic Communication Applications to Privacy

Este trabalho estabelece o framework de Computação de Função Distribuída Randomizada (RDFC), uma forma de comunicação semântica que garante privacidade local e eficiência energética ao permitir a transmissão de informações suficientes para gerar funções aleatórias dos dados, demonstrando que o uso de aleatoriedade comum reduz drasticamente a taxa de comunicação em comparação com a transmissão sem perdas, mesmo na ausência de aleatoriedade compartilhada.

Onur GünlüWed, 11 Ma⚡ eess

Multi-DNN Inference of Sparse Models on Edge SoCs

O artigo apresenta o SparseLoom, um sistema demonstrador que utiliza a técnica de "model stitching" para recombinação de subgrafos de modelos esparsos sem retreinamento, permitindo a execução eficiente de múltiplas DNNs em SoCs de borda e reduzindo significativamente as violações de objetivos de nível de serviço (SLO), aumentando o throughput e diminuindo a sobrecarga de memória em comparação com sistemas existentes.

Jiawei Luo, Di Wu, Simon Dobson, Blesson VargheseWed, 11 Ma🤖 cs.LG

Ensuring Data Freshness in Multi-Rate Task Chains Scheduling

Este artigo propõe uma nova metodologia de agendamento baseada em tarefas e restrições de frescor de dados, que utiliza atrasos de deslocamento just-in-time e um algoritmo de busca de consenso para garantir a frescura dos dados em sistemas críticos sem a latência artificial e o desperdício de recursos típicos do paradigma LET.

José Luis Conradi Hoffmann, Antônio Augusto FröhlichWed, 11 Ma💻 cs

Rate-Distortion Bounds for Heterogeneous Random Fields on Finite Lattices

Este artigo estabelece um novo quadro teórico de taxa-distorção para campos aleatórios heterogêneos em reticulados finitos, derivando limites não assintóticos e uma expansão de segunda ordem que quantificam o impacto da heterogeneidade estrutural, das restrições de tiling e da correlação espacial no desempenho de compressores científicos de alto desempenho.

Sujata Sinha, Vishwas Rao, Robert Underwood, David Lenz, Sheng Di, Franck Cappello, Lingjia LiuWed, 11 Ma🔢 math

The Bureaucracy of Speed: Structural Equivalence Between Memory Consistency Models and Multi-Agent Authorization Revocation

O artigo propõe um sistema de coerência de capacidades (CCS) que mapeia modelos de consistência de memória para revogação de autorização, demonstrando através de simulação que a estratégia RCC reduz drasticamente operações não autorizadas em comparação com métodos baseados em tempo, garantindo limites de segurança independentes da velocidade dos agentes.

Vladyslav ParakhinWed, 11 Ma💻 cs

General Coded Computing in a Probabilistic Straggler Regime

Este artigo analisa teoricamente e valida experimentalmente como os esquemas de computação codificada aproximada BACC e LeTCC superam o problema de servidores lentos (stragglers) em um regime probabilístico, demonstrando que o erro de aproximação converge para zero à medida que o número total de servidores aumenta, mesmo na presença de stragglers.

Parsa Moradi, Mohammad Ali Maddah-AliTue, 10 Ma🤖 cs.LG

EROICA: Online Performance Troubleshooting for Large-scale Model Training

O artigo apresenta o EROICA, o primeiro sistema de diagnóstico online que utiliza perfis de execução e observabilidade diferencial para identificar e resolver problemas de desempenho em clusters de treinamento de grandes modelos com até 100.000 GPUs, alcançando uma taxa de sucesso de 97,5% em ambientes de produção.

Yu Guan, Zhiyu Yin, Haoyu Chen, Sheng Cheng, Chaojie Yang, Kun Qian, Tianyin Xu, Pengcheng Zhang, Yang Zhang, Hanyu Zhao, Yong Li, Wei Lin, Dennis Cai, Ennan ZhaiTue, 10 Ma🤖 cs.LG

Co-LoRA: Collaborative Model Personalization on Heterogeneous Multi-Modal Clients

O artigo propõe o Co-LoRA, um método de aprendizado federado personalizado que utiliza uma estratégia de agregação consciente da relevância da tarefa e um módulo invariante de dimensão para superar a heterogeneidade de dados e modelos em cenários multi-modais, superando os métodos atuais e introduzindo um novo benchmark abrangente.

Minhyuk Seo, Taeheon Kim, Hankook Lee, Jonghyun Choi, Tinne TuytelaarsTue, 10 Ma🤖 cs.LG

Tiny but Mighty: A Software-Hardware Co-Design Approach for Efficient Multimodal Inference on Battery-Powered Small Devices

O artigo apresenta o NANOMIND, um framework de co-design hardware-software que otimiza a inferência de Modelos Multimodais Grandes em dispositivos portáteis com bateria, dividindo os modelos em módulos executados em aceleradores heterogêneos para reduzir o consumo de energia e o uso de memória, permitindo assistentes inteligentes autônomos e totalmente locais.

Yilong Li, Shuai Zhang, Yijing Zeng, Hao Zhang, Xinmiao Xiong, Jingyu Liu, Pan Hu, Suman BanerjeeTue, 10 Ma💬 cs.CL

The Need for Quantitative Resilience Models and Metrics in Classical-Quantum Computing Systems

Este artigo defende que a resiliência deve ser uma restrição de projeto *a priori* na integração de HPC e QPUs, propondo modelos quantitativos inspirados na engenharia civil para avaliar a confiabilidade, o valor do usuário e as relações custo-benefício em sistemas de computação híbrida clássica-quântica.

Santiago Núñez-CorralesTue, 10 Ma⚛️ quant-ph

NEST: Network- and Memory-Aware Device Placement For Distributed Deep Learning

O NEST é um framework de placemento de dispositivos para aprendizado profundo distribuído que unifica o paralelismo de modelo, a modelagem de topologia de rede e a viabilidade de memória através de programação dinâmica estruturada, resultando em melhorias significativas de throughput e eficiência em comparação com métodos anteriores.

Irene Wang, Vishnu Varma Venkata, Arvind Krishnamurthy, Divya MahajanTue, 10 Ma🤖 cs.LG

Configurable Runtime Orchestration for Dynamic Data Retrieval in Distributed Systems

Este artigo apresenta um framework de orquestração baseado em configuração que gera grafos de execução dinâmicos em tempo de solicitação para permitir a recuperação de dados de baixa latência e escalável em sistemas distribuídos, superando as limitações de workflows pré-definidos em plataformas tradicionais.

Abhiram KandirajuTue, 10 Ma💻 cs

AIReSim: A Discrete Event Simulator for Large-scale AI Cluster Reliability Modeling

O artigo apresenta o AIReSim, um simulador de eventos discretos projetado para modelar a confiabilidade de clusters de IA em grande escala, permitindo aos engenheiros avaliar sistematicamente configurações, priorizar melhorias e realizar planejamento de capacidade através de cenários hipotéticos.

Karthik Pattabiraman, Mihir Patel, Fred LinTue, 10 Ma💻 cs

Uber's Failover Architecture: Reconciling Reliability and Efficiency in Hyperscale Microservice Infrastructure

O artigo apresenta a Arquitetura de Failover da Uber (UFA), uma solução que substitui o modelo de capacidade 2x por uma abordagem diferenciada baseada em criticidade, reduzindo o provisionamento de 2x para 1,3x e eliminando mais de um milhão de núcleos de CPU enquanto mantém uma disponibilidade de 99,97% através da preempção seletiva de serviços não críticos e da automação de salvaguardas.

Mayank Bansal, Milind Chabbi, Kenneth Bogh, Srikanth Prodduturi, Kevin Xu, Amit Kumar, David Bell, Ranjib Dey, Yufei Ren, Sachin Sharma, Juan Marcano, Shriniket Kale, Subhav Pradhan, Ivan Beschastnikh, Miguel Covarrubias, Chien-Chih Liao, Sandeep Koushik Sheshadri, Wen Luo, Kai Song, Ashish Samant, Sahil Rihan, Nimish Sheth, Uday Kiran MedisettyTue, 10 Ma💻 cs

← Anterior Próximo →

cs.DC