cs.DC artigos | Gist.Science

{\lambda}Scale: Enabling Fast Scaling for Serverless Large Language Model Inference

O artigo apresenta o {\lambda}Scale, um sistema de inferência serverless para grandes modelos de linguagem que utiliza redes RDMA de alta velocidade e a técnica "execute-while-load" para acelerar o dimensionamento de modelos, reduzindo a latência e os custos em comparação com soluções existentes.

Minchen Yu, Rui Yang, Chaobo Jia, Zhaoyuan Su, Sheng Yao, Tingfeng Lan, Yuchen Yang, Zirui Wang, Yue Cheng, Wei Wang, Ao Wang, Ruichuan ChenMon, 09 Ma💻 cs

FAST: An Efficient Scheduler for All-to-All GPU Communication

O artigo apresenta o FAST, um escalonador eficiente para comunicação All-to-All(v) em clusters de GPU que resolve problemas de assimetria e congestionamento em modelos MoE, superando soluções existentes em desempenho e reduzindo drasticamente o tempo de síntese.

Yiran Lei, Dongjoo Lee, Liangyu Zhao, Daniar Kurniawan, Chanmyeong Kim, Heetaek Jeong, Changsu Kim, Hyeonseong Choi, Liangcheng Yu, Arvind Krishnamurthy, Justine Sherry, Eriko NurvitadhiMon, 09 Ma💻 cs

Linear Layouts: Robust Code Generation of Efficient Tensor Computation Using $\mathbb{F}_2$

Este artigo apresenta os "Linear Layouts", uma abordagem inovadora que modela layouts de tensores usando álgebra linear sobre $\mathbb{F}_2$ para permitir definições genéricas e conversões eficientes, otimizando a geração de código no Triton e reduzindo a complexidade do backend do compilador.

Keren Zhou, Mario Lezcano, Adam Goucher, Akhmed Rakhmati, Jeff Niu, Justin Lebar, Pawel Szczerbuk, Peter Bell, Phil Tillet, Thomas Raoux, Zahi MoudallalMon, 09 Ma💻 cs

A Hierarchical Sharded Blockchain Balancing Performance and Availability

O artigo apresenta o PyloChain, uma blockchain sharded hierárquica que equilibra desempenho e disponibilidade através da execução especulativa em cadeias locais e de um consenso BFT eficiente em uma cadeia principal baseada em DAG, superando soluções existentes em throughput e latência.

Yongrae Jo, Chanik ParkMon, 09 Ma💻 cs

A Systematic Evaluation of the Potential of Carbon-Aware Execution for Scientific Workflows

Este estudo demonstra que a execução de fluxos de trabalho científicos pode reduzir significativamente as emissões de carbono (em até 80% via deslocamento temporal e 67% via dimensionamento de recursos) ao aproveitar a tolerância a atrasos, a capacidade de interrupção e a escalabilidade dessas cargas de trabalho.

Kathleen West, Youssef Moawad, Fabian Lehmann, Vasilis Bountris, Ulf Leser, Yehia Elkhatib, Lauritz ThamsenMon, 09 Ma💻 cs

A-3PO: Accelerating Asynchronous LLM Training with Staleness-aware Proximal Policy Approximation

O artigo apresenta o A-3PO, uma abordagem que acelera o treinamento assíncrono de modelos de linguagem grandes ao aproximar a política proximal necessária no PPO desacoplado via interpolação simples, eliminando a sobrecarga computacional de uma passagem extra e alcançando um aumento de velocidade de 1,8x sem comprometer o desempenho.

Xiaocan Li, Shiliang Wu, Zheng ShenMon, 09 Ma🤖 cs.AI

Reexamining Paradigms of End-to-End Data Movement

Este artigo desafia a visão centrada na rede sobre a transferência de dados de alto desempenho, demonstrando através de seis paradigmas e do modelo "Padrão de Bacia de Drenagem" que os principais gargalos residem frequentemente fora do núcleo da rede e que um projeto holístico de hardware e software é essencial para garantir desempenho consistente e previsível em escala.

Chin Fang, Timothy Stitt, Michael J. McManus, Toshio MoriyaMon, 09 Ma💻 cs

Why Ethereum Needs Fairness Mechanisms that Do Not Depend on Participant Altruism

A análise empírica revela que menos de 1,4% dos propositores de blocos da Ethereum agem consistentemente de forma altruísta, demonstrando que mecanismos de justiça baseados apenas na boa vontade dos participantes são insuficientes e exigindo a implementação de incentivos ou penalidades adicionais para garantir a descentralização e a resistência à censura.

Patrick Spiesberger, Nils Henrik Beyer, Hannes HartensteinMon, 09 Ma💻 cs

Parallelization Strategies for Dense LLM Deployment: Navigating Through Application-Specific Tradeoffs and Bottlenecks

Este artigo investiga estratégias de paralelização para a implantação de modelos de linguagem densos, demonstrando que o Paralelismo de Tensores (TP) otimiza a latência enquanto o Paralelismo de Pipeline (PP) favorece a vazão, e que a combinação híbrida dessas técnicas permite gerenciar eficazmente o compromisso entre esses dois indicadores de desempenho.

Burak Topcu, Musa Oguzhan Cim, Poovaiah Palangappa, Meena Arunachalam, Mahmut Taylan KandemirMon, 09 Ma🤖 cs.LG

A Lock-Free Work-Stealing Algorithm for Bulk Operations

Este artigo apresenta uma nova fila de roubo de trabalho sem bloqueio otimizada para um framework mestre-trabalhador em solvers de programação inteira mista, que suporta operações em lote nativas e demonstra desempenho superior em latência e escalabilidade em comparação com implementações existentes como a do C++ Taskflow.

Raja Sai Nandhan Yadav Kataru, Danial Davarnia, Ali JannesariMon, 09 Ma🔢 math

First-Order Softmax Weighted Switching Gradient Method for Distributed Stochastic Minimax Optimization with Stochastic Constraints

Este artigo propõe um novo método de gradiente com comutação ponderada por softmax para otimização minimax estocástica distribuída com restrições estocásticas, que alcança complexidade de oráculo $\mathcal{O}(\epsilon^{-4})$ e garantias de convergência de alta probabilidade em cenários de participação parcial, superando limitações de abordagens tradicionais em tarefas como classificação de Neyman-Pearson e classificação justa.

Zhankun Luo, Antesh Upadhyay, Sang Bin Moon, Abolfazl HashemiMon, 09 Ma🤖 cs.LG

Gathering Autonomous Mobile Robots Under the Adversarial Defected View Model

Este artigo apresenta dois algoritmos distribuídos que garantem o recolhimento determinístico e em tempo finito de robôs móveis autônomos e obliteros no plano euclidiano sob o modelo de visão defeituosa adversária, resolvendo casos específicos nos modelos de agendamento totalmente síncrono e assíncrono, mesmo com movimentos não rígidos e restrições de visibilidade dinâmicas.

Prakhar Shukla, Seshunadh Tanuj Peddinti, Subhash BhagatMon, 09 Ma💻 cs

StreamWise: Serving Multi-Modal Generation in Real-Time at Scale

O artigo apresenta o StreamWise, um sistema de serviço adaptativo e modular que viabiliza a geração em tempo real de podcasts multimodais em escala, otimizando o uso de hardware heterogêneo e gerenciando dinamicamente a qualidade e os recursos para equilibrar latência, custo e fidelidade.

Haoran Qiu, Gohar Irfan Chaudhry, Chaojie Zhang, Íñigo Goiri, Esha Choukse, Rodrigo Fonseca, Ricardo BianchiniMon, 09 Ma🤖 cs.AI

Knowledge-driven Reasoning for Mobile Agentic AI: Concepts, Approaches, and Directions

Este artigo propõe um framework de raciocínio baseado em conhecimento para IA móvel autônoma que extrai e sincroniza estruturas decisórias reutilizáveis para superar restrições de recursos e conectividade, demonstrando que uma exposição equilibrada ao conhecimento permite que modelos leves em drones atinjam confiabilidade perfeita com menor custo computacional.

Guangyuan Liu, Changyuan Zhao, Yinqiu Liu, Dusit Niyato, Biplab SikdarMon, 09 Ma💻 cs

Domain-Adaptive Model Merging across Disconnected Modes

O artigo apresenta o DMM, um framework de fusão de modelos livre de dados que combina técnicas de fusão estável para modelos similares e refinamento guiado por dados sintéticos para integrar modelos divergentes, alcançando desempenho superior em cenários de aprendizado entre domínios.

Junming Liu, Yusen Zhang, Rongchao Zhang, Wenkai Zhu, Tian WuMon, 09 Ma🤖 cs.AI

Edge Intelligence-Driven LegalEdge Contracts for EV Charging Stations: A Fedrated Learning with Deep Q-Networks Approach

O artigo apresenta o LegalEdge, um framework de inteligência de borda que integra Aprendizado Federado e Redes Q Profundas em contratos inteligentes para otimizar a infraestrutura de carregamento de veículos elétricos, garantindo privacidade de dados, decisões de baixa latência e alocação eficiente de energia.

Rahim Rahmani, Arman ChianehMon, 09 Ma💻 cs

Provuse: Platform-Side Function Fusion for Performance and Efficiency in FaaS Environments

O artigo apresenta o Provuse, uma otimização transparente do lado da plataforma que funde automaticamente funções FaaS independentes em tempo de execução para eliminar instâncias redundantes, reduzindo significativamente a latência e o consumo de recursos sem exigir alterações no código do desenvolvedor.

Niklas Kowallik, Natalie Carl, Leon Pöllinger, Wei Wang, Sharan Santhahanam, David BermbachMon, 09 Ma💻 cs

MoEless: Efficient MoE LLM Serving via Serverless Computing

O MoEless é o primeiro framework de serviço serverless para Modelos de Linguagem de Grande Escala (LLMs) com Mistura de Especialistas (MoE) que mitiga o desequilíbrio de carga entre especialistas e reduz a latência e os custos de inferência através de previsões de carga, escalabilidade dinâmica e estratégias otimizadas de alocação em GPUs.

Hanfei Yu, Bei Ouyang, Shwai He, Ang Li, Hao WangMon, 09 Ma🤖 cs.AI

Comparative Analysis of Cross-Chain Token Standards

Este artigo apresenta uma análise comparativa abrangente de cinco principais padrões e frameworks de tokens cross-chain (xERC20, OFT, NTT, CCT e SuperchainERC20), destacando suas diferenças em arquitetura, mecanismos de passagem de mensagens, modelos de confiança e compatibilidade de ecossistemas, apesar de compartilharem o objetivo comum de garantir fungibilidade unificada entre múltiplas blockchains.

Fatemeh Heidari Soureshjani, Jan GorznyMon, 09 Ma💻 cs

OrchMLLM: Orchestrate Multimodal Data with Batch Post-Balancing to Accelerate Multimodal Large Language Model Training

O artigo apresenta o OrchMLLM, um framework que utiliza o "Batch Post-Balancing Dispatcher" e o "MLLM Global Orchestrator" para mitigar a incoerência na composição de modalidades e desequilíbrios em mini-lotes, acelerando significativamente o treinamento de Grandes Modelos de Linguagem Multimodais (MLLMs) e alcançando uma eficiência superior à do Megatron-LM.

Yijie Zheng, Bangjun Xiao, Lei Shi, Xiaoyang Li, Faming Wu, Tianyu Li, Xuefeng Xiao, Yang Zhang, Yuxuan Wang, Shouda LiuFri, 13 Ma🤖 cs.AI

← Anterior Próximo →

cs.DC