Hierarchical Observe-Orient-Decide-Act Enabled UAV Swarms in Uncertain Environments: Frameworks, Potentials, and Challenges

Este artigo propõe um framework hierárquico baseado no ciclo Observe-Orient-Decide-Act (H-OODA), implementado através das camadas nuvem-borda-terminal e virtualização de funções de rede, para superar os desafios de adaptabilidade e escalabilidade na tomada de decisão de enxames de UAVs em ambientes incertos.

Ziye Jia, Yao Wu, Qihui Wu, Lijun He, Qiuming Zhu, Fuhui Zhou, Zhu HanWed, 11 Ma💻 cs

PIM-SHERPA: Software Method for On-device LLM Inference by Resolving PIM Memory Attribute and Layout Inconsistencies

O artigo apresenta o PIM-SHERPA, um método puramente de software que otimiza a inferência de LLMs em dispositivos ao resolver inconsistências de atributos e layout de memória em sistemas com Processamento em Memória (PIM), alcançando economias significativas de capacidade sem comprometer o desempenho.

Sunjung Lee, Sanghoon Cha, Hyeonsu Kim, Seungwoo Seo, Yuhwan Ro, Sukhan Lee, Byeongho Kim, Yongjun Park, Kyomin Sohn, Seungwon Lee, Jaehoon YuWed, 11 Ma💻 cs

Flash-KMeans: Fast and Memory-Efficient Exact K-Means

O artigo apresenta o Flash-KMeans, uma implementação otimizada para GPUs que supera os gargalos de E/S e contenção de memória das abordagens existentes, permitindo que o algoritmo k-means seja executado online com um aceleramento de até 17,9 vezes em comparação com as melhores bases e superando bibliotecas industriais como cuML e FAISS em até 200 vezes.

Shuo Yang, Haocheng Xi, Yilong Zhao, Muyang Li, Xiaoze Fan, Jintao Zhang, Han Cai, Yujun Lin, Xiuyu Li, Kurt Keutzer, Song Han, Chenfeng Xu, Ion StoicaWed, 11 Ma💻 cs

Randomized Distributed Function Computation (RDFC): Ultra-Efficient Semantic Communication Applications to Privacy

Este trabalho estabelece o framework de Computação de Função Distribuída Randomizada (RDFC), uma forma de comunicação semântica que garante privacidade local e eficiência energética ao permitir a transmissão de informações suficientes para gerar funções aleatórias dos dados, demonstrando que o uso de aleatoriedade comum reduz drasticamente a taxa de comunicação em comparação com a transmissão sem perdas, mesmo na ausência de aleatoriedade compartilhada.

Onur GünlüWed, 11 Ma⚡ eess

Multi-DNN Inference of Sparse Models on Edge SoCs

O artigo apresenta o SparseLoom, um sistema demonstrador que utiliza a técnica de "model stitching" para recombinação de subgrafos de modelos esparsos sem retreinamento, permitindo a execução eficiente de múltiplas DNNs em SoCs de borda e reduzindo significativamente as violações de objetivos de nível de serviço (SLO), aumentando o throughput e diminuindo a sobrecarga de memória em comparação com sistemas existentes.

Jiawei Luo, Di Wu, Simon Dobson, Blesson VargheseWed, 11 Ma🤖 cs.LG

Rate-Distortion Bounds for Heterogeneous Random Fields on Finite Lattices

Este artigo estabelece um novo quadro teórico de taxa-distorção para campos aleatórios heterogêneos em reticulados finitos, derivando limites não assintóticos e uma expansão de segunda ordem que quantificam o impacto da heterogeneidade estrutural, das restrições de tiling e da correlação espacial no desempenho de compressores científicos de alto desempenho.

Sujata Sinha, Vishwas Rao, Robert Underwood, David Lenz, Sheng Di, Franck Cappello, Lingjia LiuWed, 11 Ma🔢 math

The Bureaucracy of Speed: Structural Equivalence Between Memory Consistency Models and Multi-Agent Authorization Revocation

O artigo propõe um sistema de coerência de capacidades (CCS) que mapeia modelos de consistência de memória para revogação de autorização, demonstrando através de simulação que a estratégia RCC reduz drasticamente operações não autorizadas em comparação com métodos baseados em tempo, garantindo limites de segurança independentes da velocidade dos agentes.

Vladyslav ParakhinWed, 11 Ma💻 cs

EROICA: Online Performance Troubleshooting for Large-scale Model Training

O artigo apresenta o EROICA, o primeiro sistema de diagnóstico online que utiliza perfis de execução e observabilidade diferencial para identificar e resolver problemas de desempenho em clusters de treinamento de grandes modelos com até 100.000 GPUs, alcançando uma taxa de sucesso de 97,5% em ambientes de produção.

Yu Guan, Zhiyu Yin, Haoyu Chen, Sheng Cheng, Chaojie Yang, Kun Qian, Tianyin Xu, Pengcheng Zhang, Yang Zhang, Hanyu Zhao, Yong Li, Wei Lin, Dennis Cai, Ennan ZhaiTue, 10 Ma🤖 cs.LG

Co-LoRA: Collaborative Model Personalization on Heterogeneous Multi-Modal Clients

O artigo propõe o Co-LoRA, um método de aprendizado federado personalizado que utiliza uma estratégia de agregação consciente da relevância da tarefa e um módulo invariante de dimensão para superar a heterogeneidade de dados e modelos em cenários multi-modais, superando os métodos atuais e introduzindo um novo benchmark abrangente.

Minhyuk Seo, Taeheon Kim, Hankook Lee, Jonghyun Choi, Tinne TuytelaarsTue, 10 Ma🤖 cs.LG

Tiny but Mighty: A Software-Hardware Co-Design Approach for Efficient Multimodal Inference on Battery-Powered Small Devices

O artigo apresenta o NANOMIND, um framework de co-design hardware-software que otimiza a inferência de Modelos Multimodais Grandes em dispositivos portáteis com bateria, dividindo os modelos em módulos executados em aceleradores heterogêneos para reduzir o consumo de energia e o uso de memória, permitindo assistentes inteligentes autônomos e totalmente locais.

Yilong Li, Shuai Zhang, Yijing Zeng, Hao Zhang, Xinmiao Xiong, Jingyu Liu, Pan Hu, Suman BanerjeeTue, 10 Ma💬 cs.CL

NEST: Network- and Memory-Aware Device Placement For Distributed Deep Learning

O NEST é um framework de placemento de dispositivos para aprendizado profundo distribuído que unifica o paralelismo de modelo, a modelagem de topologia de rede e a viabilidade de memória através de programação dinâmica estruturada, resultando em melhorias significativas de throughput e eficiência em comparação com métodos anteriores.

Irene Wang, Vishnu Varma Venkata, Arvind Krishnamurthy, Divya MahajanTue, 10 Ma🤖 cs.LG

Uber's Failover Architecture: Reconciling Reliability and Efficiency in Hyperscale Microservice Infrastructure

O artigo apresenta a Arquitetura de Failover da Uber (UFA), uma solução que substitui o modelo de capacidade 2x por uma abordagem diferenciada baseada em criticidade, reduzindo o provisionamento de 2x para 1,3x e eliminando mais de um milhão de núcleos de CPU enquanto mantém uma disponibilidade de 99,97% através da preempção seletiva de serviços não críticos e da automação de salvaguardas.

Mayank Bansal, Milind Chabbi, Kenneth Bogh, Srikanth Prodduturi, Kevin Xu, Amit Kumar, David Bell, Ranjib Dey, Yufei Ren, Sachin Sharma, Juan Marcano, Shriniket Kale, Subhav Pradhan, Ivan Beschastnikh, Miguel Covarrubias, Chien-Chih Liao, Sandeep Koushik Sheshadri, Wen Luo, Kai Song, Ashish Samant, Sahil Rihan, Nimish Sheth, Uday Kiran MedisettyTue, 10 Ma💻 cs