Hierarchical Observe-Orient-Decide-Act Enabled UAV Swarms in Uncertain Environments: Frameworks, Potentials, and Challenges

Este artículo propone un marco jerárquico basado en el ciclo Observe-Orient-Decide-Act (H-OODA) que integra la nube, el borde y los terminales mediante virtualización de funciones de red para mejorar la toma de decisiones autónoma y el control cooperativo de enjambres de UAVs en entornos inciertos.

Ziye Jia, Yao Wu, Qihui Wu, Lijun He, Qiuming Zhu, Fuhui Zhou, Zhu HanWed, 11 Ma💻 cs

PIM-SHERPA: Software Method for On-device LLM Inference by Resolving PIM Memory Attribute and Layout Inconsistencies

El artículo presenta PIM-SHERPA, un método puramente de software que resuelve las inconsistencias de atributos y diseño de memoria en sistemas con procesamiento en memoria (PIM) para habilitar una inferencia eficiente de modelos de lenguaje grandes (LLM) en dispositivos, logrando ahorros significativos de capacidad sin sacrificar el rendimiento.

Sunjung Lee, Sanghoon Cha, Hyeonsu Kim, Seungwoo Seo, Yuhwan Ro, Sukhan Lee, Byeongho Kim, Yongjun Park, Kyomin Sohn, Seungwon Lee, Jaehoon YuWed, 11 Ma💻 cs

Flash-KMeans: Fast and Memory-Efficient Exact K-Means

El artículo presenta Flash-KMeans, una implementación optimizada para GPU que supera los cuellos de botella de E/S y contención de memoria mediante innovaciones como FlashAssign y sort-inverse update, logrando aceleraciones de hasta 17,9 veces respecto a las mejores soluciones existentes y habilitando el uso de k-means en sistemas en línea.

Shuo Yang, Haocheng Xi, Yilong Zhao, Muyang Li, Xiaoze Fan, Jintao Zhang, Han Cai, Yujun Lin, Xiuyu Li, Kurt Keutzer, Song Han, Chenfeng Xu, Ion StoicaWed, 11 Ma💻 cs

Randomized Distributed Function Computation (RDFC): Ultra-Efficient Semantic Communication Applications to Privacy

Este trabajo presenta el marco de Computación Distribuida Aleatorizada (RDFC), un enfoque de comunicación semántica que garantiza la privacidad local mediante la transmisión de información mínima para generar funciones aleatorizadas, demostrando que la privacidad puede lograrse incluso sin aleatoriedad compartida y reduciendo drásticamente la tasa de comunicación en comparación con la transmisión sin pérdidas.

Onur GünlüWed, 11 Ma⚡ eess

Multi-DNN Inference of Sparse Models on Edge SoCs

El artículo presenta SparseLoom, un sistema demostrador que utiliza la técnica de "model stitching" para reensamblar subgrafos de modelos dispersos sin reentrenamiento, logrando en SoCs de borde una reducción de hasta el 74% en las violaciones de objetivos de nivel de servicio, un aumento de 2,31 veces en el rendimiento y una disminución del 28% en la sobrecarga de memoria en comparación con los sistemas existentes.

Jiawei Luo, Di Wu, Simon Dobson, Blesson VargheseWed, 11 Ma🤖 cs.LG

Rate-Distortion Bounds for Heterogeneous Random Fields on Finite Lattices

Este artículo presenta un marco de teoría de tasa-distorsión a longitud de bloque finita para campos aleatorios heterogéneos en retículos finitos que incorpora explícitamente las restricciones de arquitectura basadas en teselados utilizadas en compresores científicos, estableciendo cotas no asintóticas y una expansión de segundo orden que cuantifica el impacto de la correlación espacial, la heterogeneidad y el tamaño de las teselas.

Sujata Sinha, Vishwas Rao, Robert Underwood, David Lenz, Sheng Di, Franck Cappello, Lingjia LiuWed, 11 Ma🔢 math

The Bureaucracy of Speed: Structural Equivalence Between Memory Consistency Models and Multi-Agent Authorization Revocation

El artículo propone un Sistema de Coherencia de Capacidades (CCS) que mapea modelos de consistencia de memoria a la revocación de autorizaciones multiagente, demostrando mediante simulación que la estrategia de coherencia dirigida por consistencia de lanzamiento (RCC) reduce drásticamente las operaciones no autorizadas en comparación con los métodos basados en tiempo, garantizando la seguridad independientemente de la velocidad de los agentes.

Vladyslav ParakhinWed, 11 Ma💻 cs

General Coded Computing in a Probabilistic Straggler Regime

Este artículo analiza teóricamente y valida experimentalmente cómo dos esquemas de computación codificada general (BACC y LeTCC) logran que el error de aproximación converja a cero bajo un régimen de servidores lentos probabilístico, demostrando que la independencia en las fallas permite una precisión creciente incluso cuando el número promedio de servidores lentos escala con el tamaño del sistema.

Parsa Moradi, Mohammad Ali Maddah-AliTue, 10 Ma🤖 cs.LG

EROICA: Online Performance Troubleshooting for Large-scale Model Training

El artículo presenta EROICA, el primer sistema de resolución de problemas en línea que diagnostica con un 97,5% de éxito fallos de rendimiento en clusters de entrenamiento de modelos grandes de ~100.000 GPUs mediante perfilado en tiempo real y observabilidad diferencial, logrando una cobertura completa con impacto mínimo en la producción.

Yu Guan, Zhiyu Yin, Haoyu Chen, Sheng Cheng, Chaojie Yang, Kun Qian, Tianyin Xu, Pengcheng Zhang, Yang Zhang, Hanyu Zhao, Yong Li, Wei Lin, Dennis Cai, Ennan ZhaiTue, 10 Ma🤖 cs.LG

Co-LoRA: Collaborative Model Personalization on Heterogeneous Multi-Modal Clients

El artículo presenta Co-LoRA, un enfoque de aprendizaje federado personalizado que aborda la heterogeneidad tanto de datos como de modelos mediante una estrategia de agregación consciente de la relevancia de la tarea y un módulo adaptable a diferentes arquitecturas, validado en un nuevo benchmark multimodal que demuestra un rendimiento superior al estado del arte.

Minhyuk Seo, Taeheon Kim, Hankook Lee, Jonghyun Choi, Tinne TuytelaarsTue, 10 Ma🤖 cs.LG

Tiny but Mighty: A Software-Hardware Co-Design Approach for Efficient Multimodal Inference on Battery-Powered Small Devices

El artículo presenta NANOMIND, un marco de diseño conjunto hardware-software que optimiza la inferencia de modelos multimodales grandes en dispositivos pequeños y autónomos mediante la ejecución modular en aceleradores heterogéneos, logrando una eficiencia energética superior y una autonomía de casi 21 horas sin conexión a red.

Yilong Li, Shuai Zhang, Yijing Zeng, Hao Zhang, Xinmiao Xiong, Jingyu Liu, Pan Hu, Suman BanerjeeTue, 10 Ma💬 cs.CL

NEST: Network- and Memory-Aware Device Placement For Distributed Deep Learning

El artículo presenta NEST, un marco de colocación de dispositivos consciente de la red, la memoria y la computación que unifica el paralelismo de modelos y la viabilidad de memoria mediante programación dinámica estructurada, logrando un mayor rendimiento y escalabilidad en comparación con las soluciones existentes para el entrenamiento distribuido de aprendizaje profundo.

Irene Wang, Vishnu Varma Venkata, Arvind Krishnamurthy, Divya MahajanTue, 10 Ma🤖 cs.LG

Uber's Failover Architecture: Reconciling Reliability and Efficiency in Hyperscale Microservice Infrastructure

El documento presenta la Arquitectura de Failover de Uber (UFA), un sistema que optimiza la infraestructura de microservicios a escala global al reemplazar el modelo de capacidad 2x por una estrategia diferenciada según la criticidad del servicio, logrando reducir el aprovisionamiento de estado estable de 2x a 1.3x y eliminar más de un millón de núcleos de CPU sin comprometer la disponibilidad del 99,97%.

Mayank Bansal, Milind Chabbi, Kenneth Bogh, Srikanth Prodduturi, Kevin Xu, Amit Kumar, David Bell, Ranjib Dey, Yufei Ren, Sachin Sharma, Juan Marcano, Shriniket Kale, Subhav Pradhan, Ivan Beschastnikh, Miguel Covarrubias, Chien-Chih Liao, Sandeep Koushik Sheshadri, Wen Luo, Kai Song, Ashish Samant, Sahil Rihan, Nimish Sheth, Uday Kiran MedisettyTue, 10 Ma💻 cs