cs.DC artículos | Gist.Science

Nezha: A Key-Value Separated Distributed Store with Optimized Raft Integration

Nezha es un almacén distribuido de clave-valor que integra la separación de claves y valores con el protocolo Raft para eliminar la sobrecarga de E/S causada por operaciones de persistencia superpuestas, logrando mejoras significativas en el rendimiento de lectura y escritura mientras mantiene garantías de consistencia fuerte.

Yangyang Wang, Yucong Dong, Ziqian Cheng, Zichen XuWed, 11 Ma💻 cs

Hierarchical Observe-Orient-Decide-Act Enabled UAV Swarms in Uncertain Environments: Frameworks, Potentials, and Challenges

Este artículo propone un marco jerárquico basado en el ciclo Observe-Orient-Decide-Act (H-OODA) que integra la nube, el borde y los terminales mediante virtualización de funciones de red para mejorar la toma de decisiones autónoma y el control cooperativo de enjambres de UAVs en entornos inciertos.

Ziye Jia, Yao Wu, Qihui Wu, Lijun He, Qiuming Zhu, Fuhui Zhou, Zhu HanWed, 11 Ma💻 cs

PIM-SHERPA: Software Method for On-device LLM Inference by Resolving PIM Memory Attribute and Layout Inconsistencies

El artículo presenta PIM-SHERPA, un método puramente de software que resuelve las inconsistencias de atributos y diseño de memoria en sistemas con procesamiento en memoria (PIM) para habilitar una inferencia eficiente de modelos de lenguaje grandes (LLM) en dispositivos, logrando ahorros significativos de capacidad sin sacrificar el rendimiento.

Sunjung Lee, Sanghoon Cha, Hyeonsu Kim, Seungwoo Seo, Yuhwan Ro, Sukhan Lee, Byeongho Kim, Yongjun Park, Kyomin Sohn, Seungwon Lee, Jaehoon YuWed, 11 Ma💻 cs

Flash-KMeans: Fast and Memory-Efficient Exact K-Means

El artículo presenta Flash-KMeans, una implementación optimizada para GPU que supera los cuellos de botella de E/S y contención de memoria mediante innovaciones como FlashAssign y sort-inverse update, logrando aceleraciones de hasta 17,9 veces respecto a las mejores soluciones existentes y habilitando el uso de k-means en sistemas en línea.

Shuo Yang, Haocheng Xi, Yilong Zhao, Muyang Li, Xiaoze Fan, Jintao Zhang, Han Cai, Yujun Lin, Xiuyu Li, Kurt Keutzer, Song Han, Chenfeng Xu, Ion StoicaWed, 11 Ma💻 cs

Compiler-First State Space Duality and Portable $O(1)$ Autoregressive Caching for Inference

Este trabajo demuestra que el algoritmo de dualidad del espacio de estados de Mamba-2 puede implementarse completamente mediante primitivas estándar compiladas por XLA sin kernels personalizados, logrando una inferencia autoregresiva con caché $O(1)$ portátil y de alto rendimiento en CPU, GPU y TPU.

Cosmo SantoniWed, 11 Ma🤖 cs.AI

Case Study: Performance Analysis of a Virtualized XRootD Frontend in Large-Scale WAN Transfers

Este artículo presenta un estudio de caso que analiza el rendimiento de una arquitectura frontend virtualizada de XRootD en el T2_BR_SPRACE, demostrando su capacidad para sostener un rendimiento agregado de 51,3 Gb/s en transferencias de datos a gran escala en WAN bajo condiciones de producción.

J M da Silva, M A Costa, R L IopeWed, 11 Ma💻 cs

Randomized Distributed Function Computation (RDFC): Ultra-Efficient Semantic Communication Applications to Privacy

Este trabajo presenta el marco de Computación Distribuida Aleatorizada (RDFC), un enfoque de comunicación semántica que garantiza la privacidad local mediante la transmisión de información mínima para generar funciones aleatorizadas, demostrando que la privacidad puede lograrse incluso sin aleatoriedad compartida y reduciendo drásticamente la tasa de comunicación en comparación con la transmisión sin pérdidas.

Onur GünlüWed, 11 Ma⚡ eess

Multi-DNN Inference of Sparse Models on Edge SoCs

El artículo presenta SparseLoom, un sistema demostrador que utiliza la técnica de "model stitching" para reensamblar subgrafos de modelos dispersos sin reentrenamiento, logrando en SoCs de borde una reducción de hasta el 74% en las violaciones de objetivos de nivel de servicio, un aumento de 2,31 veces en el rendimiento y una disminución del 28% en la sobrecarga de memoria en comparación con los sistemas existentes.

Jiawei Luo, Di Wu, Simon Dobson, Blesson VargheseWed, 11 Ma🤖 cs.LG

Ensuring Data Freshness in Multi-Rate Task Chains Scheduling

Este artículo propone un marco de programación basado en tareas que garantiza la frescura de los datos en sistemas autónomos mediante la sincronización de offsets de ejecución y la descomposición de grafos de dependencias, logrando así una latencia mínima y una eficiencia de recursos sin comprometer la capacidad de programación global.

José Luis Conradi Hoffmann, Antônio Augusto FröhlichWed, 11 Ma💻 cs

Rate-Distortion Bounds for Heterogeneous Random Fields on Finite Lattices

Este artículo presenta un marco de teoría de tasa-distorsión a longitud de bloque finita para campos aleatorios heterogéneos en retículos finitos que incorpora explícitamente las restricciones de arquitectura basadas en teselados utilizadas en compresores científicos, estableciendo cotas no asintóticas y una expansión de segundo orden que cuantifica el impacto de la correlación espacial, la heterogeneidad y el tamaño de las teselas.

Sujata Sinha, Vishwas Rao, Robert Underwood, David Lenz, Sheng Di, Franck Cappello, Lingjia LiuWed, 11 Ma🔢 math

The Bureaucracy of Speed: Structural Equivalence Between Memory Consistency Models and Multi-Agent Authorization Revocation

El artículo propone un Sistema de Coherencia de Capacidades (CCS) que mapea modelos de consistencia de memoria a la revocación de autorizaciones multiagente, demostrando mediante simulación que la estrategia de coherencia dirigida por consistencia de lanzamiento (RCC) reduce drásticamente las operaciones no autorizadas en comparación con los métodos basados en tiempo, garantizando la seguridad independientemente de la velocidad de los agentes.

Vladyslav ParakhinWed, 11 Ma💻 cs

General Coded Computing in a Probabilistic Straggler Regime

Este artículo analiza teóricamente y valida experimentalmente cómo dos esquemas de computación codificada general (BACC y LeTCC) logran que el error de aproximación converja a cero bajo un régimen de servidores lentos probabilístico, demostrando que la independencia en las fallas permite una precisión creciente incluso cuando el número promedio de servidores lentos escala con el tamaño del sistema.

Parsa Moradi, Mohammad Ali Maddah-AliTue, 10 Ma🤖 cs.LG

EROICA: Online Performance Troubleshooting for Large-scale Model Training

El artículo presenta EROICA, el primer sistema de resolución de problemas en línea que diagnostica con un 97,5% de éxito fallos de rendimiento en clusters de entrenamiento de modelos grandes de ~100.000 GPUs mediante perfilado en tiempo real y observabilidad diferencial, logrando una cobertura completa con impacto mínimo en la producción.

Yu Guan, Zhiyu Yin, Haoyu Chen, Sheng Cheng, Chaojie Yang, Kun Qian, Tianyin Xu, Pengcheng Zhang, Yang Zhang, Hanyu Zhao, Yong Li, Wei Lin, Dennis Cai, Ennan ZhaiTue, 10 Ma🤖 cs.LG

Co-LoRA: Collaborative Model Personalization on Heterogeneous Multi-Modal Clients

El artículo presenta Co-LoRA, un enfoque de aprendizaje federado personalizado que aborda la heterogeneidad tanto de datos como de modelos mediante una estrategia de agregación consciente de la relevancia de la tarea y un módulo adaptable a diferentes arquitecturas, validado en un nuevo benchmark multimodal que demuestra un rendimiento superior al estado del arte.

Minhyuk Seo, Taeheon Kim, Hankook Lee, Jonghyun Choi, Tinne TuytelaarsTue, 10 Ma🤖 cs.LG

Tiny but Mighty: A Software-Hardware Co-Design Approach for Efficient Multimodal Inference on Battery-Powered Small Devices

El artículo presenta NANOMIND, un marco de diseño conjunto hardware-software que optimiza la inferencia de modelos multimodales grandes en dispositivos pequeños y autónomos mediante la ejecución modular en aceleradores heterogéneos, logrando una eficiencia energética superior y una autonomía de casi 21 horas sin conexión a red.

Yilong Li, Shuai Zhang, Yijing Zeng, Hao Zhang, Xinmiao Xiong, Jingyu Liu, Pan Hu, Suman BanerjeeTue, 10 Ma💬 cs.CL

The Need for Quantitative Resilience Models and Metrics in Classical-Quantum Computing Systems

El artículo argumenta que la integración de HPC y QPU requiere modelos y métricas cuantitativas de resiliencia diseñados *a priori*, adaptando métodos de ingeniería civil para evaluar el valor del usuario y optimizar la relación costo-beneficio de las mejoras en la pila tecnológica cuántica.

Santiago Núñez-CorralesTue, 10 Ma⚛️ quant-ph

NEST: Network- and Memory-Aware Device Placement For Distributed Deep Learning

El artículo presenta NEST, un marco de colocación de dispositivos consciente de la red, la memoria y la computación que unifica el paralelismo de modelos y la viabilidad de memoria mediante programación dinámica estructurada, logrando un mayor rendimiento y escalabilidad en comparación con las soluciones existentes para el entrenamiento distribuido de aprendizaje profundo.

Irene Wang, Vishnu Varma Venkata, Arvind Krishnamurthy, Divya MahajanTue, 10 Ma🤖 cs.LG

Configurable Runtime Orchestration for Dynamic Data Retrieval in Distributed Systems

Este artículo presenta un marco de orquestación impulsado por configuración que genera gráficos de ejecución dinámicos en tiempo de ejecución para permitir la recuperación de datos flexible y de baja latencia en sistemas distribuidos, superando las limitaciones de las definiciones de flujo de trabajo preestablecidas.

Abhiram KandirajuTue, 10 Ma💻 cs

AIReSim: A Discrete Event Simulator for Large-scale AI Cluster Reliability Modeling

El artículo presenta AIReSim, un simulador de eventos discretos diseñado para evaluar y optimizar la fiabilidad, la planificación de capacidad y las estrategias de recuperación de grandes clústeres de IA mediante la simulación de fallos y la sintonización de sus parámetros de configuración.

Karthik Pattabiraman, Mihir Patel, Fred LinTue, 10 Ma💻 cs

Uber's Failover Architecture: Reconciling Reliability and Efficiency in Hyperscale Microservice Infrastructure

El documento presenta la Arquitectura de Failover de Uber (UFA), un sistema que optimiza la infraestructura de microservicios a escala global al reemplazar el modelo de capacidad 2x por una estrategia diferenciada según la criticidad del servicio, logrando reducir el aprovisionamiento de estado estable de 2x a 1.3x y eliminar más de un millón de núcleos de CPU sin comprometer la disponibilidad del 99,97%.

Mayank Bansal, Milind Chabbi, Kenneth Bogh, Srikanth Prodduturi, Kevin Xu, Amit Kumar, David Bell, Ranjib Dey, Yufei Ren, Sachin Sharma, Juan Marcano, Shriniket Kale, Subhav Pradhan, Ivan Beschastnikh, Miguel Covarrubias, Chien-Chih Liao, Sandeep Koushik Sheshadri, Wen Luo, Kai Song, Ashish Samant, Sahil Rihan, Nimish Sheth, Uday Kiran MedisettyTue, 10 Ma💻 cs

← Anterior Siguiente →

cs.DC