Hierarchical Observe-Orient-Decide-Act Enabled UAV Swarms in Uncertain Environments: Frameworks, Potentials, and Challenges

Cet article propose un cadre hiérarchique basé sur la boucle OODA (Observer-Orienter-Déterminer-Agir) réparti sur les couches cloud-edge-terminal et utilisant la virtualisation des fonctions réseau, afin d'améliorer l'autonomie décisionnelle et la coopération des essaims de drones dans des environnements incertains.

Ziye Jia, Yao Wu, Qihui Wu, Lijun He, Qiuming Zhu, Fuhui Zhou, Zhu HanWed, 11 Ma💻 cs

PIM-SHERPA: Software Method for On-device LLM Inference by Resolving PIM Memory Attribute and Layout Inconsistencies

Ce papier présente PIM-SHERPA, une méthode logicielle qui résout les incohérences d'attributs et de mise en page de la mémoire dans les systèmes PIM pour permettre une inférence efficace de grands modèles de langage sur appareil, en utilisant des techniques de double tamponnage ou de réorganisation en ligne pour économiser jusqu'à 49,7 % de capacité mémoire tout en maintenant des performances optimales.

Sunjung Lee, Sanghoon Cha, Hyeonsu Kim, Seungwoo Seo, Yuhwan Ro, Sukhan Lee, Byeongho Kim, Yongjun Park, Kyomin Sohn, Seungwon Lee, Jaehoon YuWed, 11 Ma💻 cs

Flash-KMeans: Fast and Memory-Efficient Exact K-Means

Ce papier présente Flash-KMeans, une implémentation GPU optimisée qui transforme l'algorithme K-Means en primitive en ligne en éliminant les goulots d'étranglement d'E/S et de contention matérielle grâce à des innovations de noyau comme FlashAssign et la mise à jour par inversion de tri, permettant ainsi des accélérations allant jusqu'à 17,9 fois par rapport aux meilleures solutions existantes.

Shuo Yang, Haocheng Xi, Yilong Zhao, Muyang Li, Xiaoze Fan, Jintao Zhang, Han Cai, Yujun Lin, Xiuyu Li, Kurt Keutzer, Song Han, Chenfeng Xu, Ion StoicaWed, 11 Ma💻 cs

Ensuring Data Freshness in Multi-Rate Task Chains Scheduling

Cet article propose un cadre d'ordonnancement basé sur des contraintes de fraîcheur des données, utilisant un algorithme de recherche d'offsets de consensus pour synchroniser les tâches en flux Juste-À-Temps et garantir la fraîcheur des données dans les systèmes critiques sans la latération artificielle du paradigme LET ni le gaspillage de ressources dû au sur-échantillonnage.

José Luis Conradi Hoffmann, Antônio Augusto FröhlichWed, 11 Ma💻 cs

Rate-Distortion Bounds for Heterogeneous Random Fields on Finite Lattices

Cet article établit un cadre de théorie du taux-distorsion en blocs finis pour les champs aléatoires hétérogènes sur des treillis finis, en intégrant explicitement les contraintes de tuilage des compresseurs scientifiques pour dériver des bornes non asymptotiques et une expansion du second ordre quantifiant l'impact de la corrélation spatiale, de l'hétérogénéité et de la taille des tuiles.

Sujata Sinha, Vishwas Rao, Robert Underwood, David Lenz, Sheng Di, Franck Cappello, Lingjia LiuWed, 11 Ma🔢 math

The Bureaucracy of Speed: Structural Equivalence Between Memory Consistency Models and Multi-Agent Authorization Revocation

Cet article propose un système de cohérence des capacités (CCS) qui établit une équivalence structurelle entre les modèles de cohérence mémoire et la révocation d'autorisations multi-agents, démontrant que la stratégie RCC réduit drastiquement les opérations non autorisées par rapport aux méthodes basées sur le temps, indépendamment de la vitesse d'exécution des agents.

Vladyslav ParakhinWed, 11 Ma💻 cs

EROICA: Online Performance Troubleshooting for Large-scale Model Training

Ce papier présente EROICA, le premier système de débogage en ligne capable de diagnostiquer avec un impact minimal les problèmes de performance matériels et logiciels dans les clusters de GPU à grande échelle utilisés pour l'entraînement de modèles massifs.

Yu Guan, Zhiyu Yin, Haoyu Chen, Sheng Cheng, Chaojie Yang, Kun Qian, Tianyin Xu, Pengcheng Zhang, Yang Zhang, Hanyu Zhao, Yong Li, Wei Lin, Dennis Cai, Ennan ZhaiTue, 10 Ma🤖 cs.LG

Tiny but Mighty: A Software-Hardware Co-Design Approach for Efficient Multimodal Inference on Battery-Powered Small Devices

Ce papier présente NANOMIND, une approche de co-conception matériel-logiciel qui optimise l'inférence des modèles multimodaux sur des appareils autonomes à batterie en décomposant les modèles en modules exécutés dynamiquement sur les accélérateurs appropriés, réduisant ainsi la consommation d'énergie de 42,3 % et permettant une autonomie de près de 20,8 heures.

Yilong Li, Shuai Zhang, Yijing Zeng, Hao Zhang, Xinmiao Xiong, Jingyu Liu, Pan Hu, Suman BanerjeeTue, 10 Ma💬 cs.CL

NEST: Network- and Memory-Aware Device Placement For Distributed Deep Learning

Le papier présente NEST, un cadre de placement de dispositifs pour l'apprentissage profond distribué qui unifie la modélisation du parallélisme, de la mémoire et de la topologie réseau via une programmation dynamique structurée, permettant d'optimiser conjointement la latence, la viabilité mémoire et le débit jusqu'à 2,43 fois supérieur aux méthodes de l'état de l'art.

Irene Wang, Vishnu Varma Venkata, Arvind Krishnamurthy, Divya MahajanTue, 10 Ma🤖 cs.LG

Uber's Failover Architecture: Reconciling Reliability and Efficiency in Hyperscale Microservice Infrastructure

L'article présente l'architecture de basculement d'Uber (UFA), qui optimise la fiabilité et l'efficacité de son infrastructure microservices à grande échelle en remplaçant le modèle de capacité uniforme par une approche différenciée selon la criticité des services, permettant ainsi de réduire la provisionnement de 2x à 1,3x tout en maintenant une disponibilité de 99,97 %.

Mayank Bansal, Milind Chabbi, Kenneth Bogh, Srikanth Prodduturi, Kevin Xu, Amit Kumar, David Bell, Ranjib Dey, Yufei Ren, Sachin Sharma, Juan Marcano, Shriniket Kale, Subhav Pradhan, Ivan Beschastnikh, Miguel Covarrubias, Chien-Chih Liao, Sandeep Koushik Sheshadri, Wen Luo, Kai Song, Ashish Samant, Sahil Rihan, Nimish Sheth, Uday Kiran MedisettyTue, 10 Ma💻 cs