{\lambda}Scale: Enabling Fast Scaling for Serverless Large Language Model Inference

O artigo apresenta o {\lambda}Scale, um sistema de inferência serverless para grandes modelos de linguagem que utiliza redes RDMA de alta velocidade e a técnica "execute-while-load" para acelerar o dimensionamento de modelos, reduzindo a latência e os custos em comparação com soluções existentes.

Minchen Yu, Rui Yang, Chaobo Jia, Zhaoyuan Su, Sheng Yao, Tingfeng Lan, Yuchen Yang, Zirui Wang, Yue Cheng, Wei Wang, Ao Wang, Ruichuan ChenMon, 09 Ma💻 cs

FAST: An Efficient Scheduler for All-to-All GPU Communication

O artigo apresenta o FAST, um escalonador eficiente para comunicação All-to-All(v) em clusters de GPU que resolve problemas de assimetria e congestionamento em modelos MoE, superando soluções existentes em desempenho e reduzindo drasticamente o tempo de síntese.

Yiran Lei, Dongjoo Lee, Liangyu Zhao, Daniar Kurniawan, Chanmyeong Kim, Heetaek Jeong, Changsu Kim, Hyeonseong Choi, Liangcheng Yu, Arvind Krishnamurthy, Justine Sherry, Eriko NurvitadhiMon, 09 Ma💻 cs

Linear Layouts: Robust Code Generation of Efficient Tensor Computation Using F2\mathbb{F}_2

Este artigo apresenta os "Linear Layouts", uma abordagem inovadora que modela layouts de tensores usando álgebra linear sobre F2\mathbb{F}_2 para permitir definições genéricas e conversões eficientes, otimizando a geração de código no Triton e reduzindo a complexidade do backend do compilador.

Keren Zhou, Mario Lezcano, Adam Goucher, Akhmed Rakhmati, Jeff Niu, Justin Lebar, Pawel Szczerbuk, Peter Bell, Phil Tillet, Thomas Raoux, Zahi MoudallalMon, 09 Ma💻 cs

A Systematic Evaluation of the Potential of Carbon-Aware Execution for Scientific Workflows

Este estudo demonstra que a execução de fluxos de trabalho científicos pode reduzir significativamente as emissões de carbono (em até 80% via deslocamento temporal e 67% via dimensionamento de recursos) ao aproveitar a tolerância a atrasos, a capacidade de interrupção e a escalabilidade dessas cargas de trabalho.

Kathleen West, Youssef Moawad, Fabian Lehmann, Vasilis Bountris, Ulf Leser, Yehia Elkhatib, Lauritz ThamsenMon, 09 Ma💻 cs

Reexamining Paradigms of End-to-End Data Movement

Este artigo desafia a visão centrada na rede sobre a transferência de dados de alto desempenho, demonstrando através de seis paradigmas e do modelo "Padrão de Bacia de Drenagem" que os principais gargalos residem frequentemente fora do núcleo da rede e que um projeto holístico de hardware e software é essencial para garantir desempenho consistente e previsível em escala.

Chin Fang, Timothy Stitt, Michael J. McManus, Toshio MoriyaMon, 09 Ma💻 cs

Why Ethereum Needs Fairness Mechanisms that Do Not Depend on Participant Altruism

A análise empírica revela que menos de 1,4% dos propositores de blocos da Ethereum agem consistentemente de forma altruísta, demonstrando que mecanismos de justiça baseados apenas na boa vontade dos participantes são insuficientes e exigindo a implementação de incentivos ou penalidades adicionais para garantir a descentralização e a resistência à censura.

Patrick Spiesberger, Nils Henrik Beyer, Hannes HartensteinMon, 09 Ma💻 cs

Parallelization Strategies for Dense LLM Deployment: Navigating Through Application-Specific Tradeoffs and Bottlenecks

Este artigo investiga estratégias de paralelização para a implantação de modelos de linguagem densos, demonstrando que o Paralelismo de Tensores (TP) otimiza a latência enquanto o Paralelismo de Pipeline (PP) favorece a vazão, e que a combinação híbrida dessas técnicas permite gerenciar eficazmente o compromisso entre esses dois indicadores de desempenho.

Burak Topcu, Musa Oguzhan Cim, Poovaiah Palangappa, Meena Arunachalam, Mahmut Taylan KandemirMon, 09 Ma🤖 cs.LG

First-Order Softmax Weighted Switching Gradient Method for Distributed Stochastic Minimax Optimization with Stochastic Constraints

Este artigo propõe um novo método de gradiente com comutação ponderada por softmax para otimização minimax estocástica distribuída com restrições estocásticas, que alcança complexidade de oráculo O(ϵ4)\mathcal{O}(\epsilon^{-4}) e garantias de convergência de alta probabilidade em cenários de participação parcial, superando limitações de abordagens tradicionais em tarefas como classificação de Neyman-Pearson e classificação justa.

Zhankun Luo, Antesh Upadhyay, Sang Bin Moon, Abolfazl HashemiMon, 09 Ma🤖 cs.LG

Gathering Autonomous Mobile Robots Under the Adversarial Defected View Model

Este artigo apresenta dois algoritmos distribuídos que garantem o recolhimento determinístico e em tempo finito de robôs móveis autônomos e obliteros no plano euclidiano sob o modelo de visão defeituosa adversária, resolvendo casos específicos nos modelos de agendamento totalmente síncrono e assíncrono, mesmo com movimentos não rígidos e restrições de visibilidade dinâmicas.

Prakhar Shukla, Seshunadh Tanuj Peddinti, Subhash BhagatMon, 09 Ma💻 cs

Knowledge-driven Reasoning for Mobile Agentic AI: Concepts, Approaches, and Directions

Este artigo propõe um framework de raciocínio baseado em conhecimento para IA móvel autônoma que extrai e sincroniza estruturas decisórias reutilizáveis para superar restrições de recursos e conectividade, demonstrando que uma exposição equilibrada ao conhecimento permite que modelos leves em drones atinjam confiabilidade perfeita com menor custo computacional.

Guangyuan Liu, Changyuan Zhao, Yinqiu Liu, Dusit Niyato, Biplab SikdarMon, 09 Ma💻 cs

Provuse: Platform-Side Function Fusion for Performance and Efficiency in FaaS Environments

O artigo apresenta o Provuse, uma otimização transparente do lado da plataforma que funde automaticamente funções FaaS independentes em tempo de execução para eliminar instâncias redundantes, reduzindo significativamente a latência e o consumo de recursos sem exigir alterações no código do desenvolvedor.

Niklas Kowallik, Natalie Carl, Leon Pöllinger, Wei Wang, Sharan Santhahanam, David BermbachMon, 09 Ma💻 cs

Comparative Analysis of Cross-Chain Token Standards

Este artigo apresenta uma análise comparativa abrangente de cinco principais padrões e frameworks de tokens cross-chain (xERC20, OFT, NTT, CCT e SuperchainERC20), destacando suas diferenças em arquitetura, mecanismos de passagem de mensagens, modelos de confiança e compatibilidade de ecossistemas, apesar de compartilharem o objetivo comum de garantir fungibilidade unificada entre múltiplas blockchains.

Fatemeh Heidari Soureshjani, Jan GorznyMon, 09 Ma💻 cs

OrchMLLM: Orchestrate Multimodal Data with Batch Post-Balancing to Accelerate Multimodal Large Language Model Training

O artigo apresenta o OrchMLLM, um framework que utiliza o "Batch Post-Balancing Dispatcher" e o "MLLM Global Orchestrator" para mitigar a incoerência na composição de modalidades e desequilíbrios em mini-lotes, acelerando significativamente o treinamento de Grandes Modelos de Linguagem Multimodais (MLLMs) e alcançando uma eficiência superior à do Megatron-LM.

Yijie Zheng, Bangjun Xiao, Lei Shi, Xiaoyang Li, Faming Wu, Tianyu Li, Xuefeng Xiao, Yang Zhang, Yuxuan Wang, Shouda LiuFri, 13 Ma🤖 cs.AI