cs.DC artículos | Gist.Science

A Survey on Decentralized Federated Learning

Esta encuesta revisa sistemáticamente los métodos de aprendizaje federado descentralizado (DFL) desde 2018 hasta principios de 2026, proponiendo una taxonomía unificada basada en desafíos que clasifica las arquitecturas tradicionales y basadas en blockchain, al tiempo que identifica limitaciones en las prácticas de evaluación y define direcciones futuras de investigación.

Edoardo Gabrielli, Anthony Di Pietro, Dario Fenoglio, Giovanni Pica, Gabriele TolomeiWed, 11 Ma🤖 cs.LG

Enhancing Computational Efficiency in Multiscale Systems Using Deep Learning of Coordinates and Flow Maps

Este artículo presenta un marco de aprendizaje profundo que combina el descubrimiento de coordenadas y mapas de flujo para mejorar la eficiencia computacional y la precisión predictiva en la simulación de sistemas multiescala complejos, como los modelos de Fitzhugh-Nagumo y Kuramoto-Sivashinsky.

Asif Hamid, Danish Rafiq, Shahkar Ahmad Nahvi, Mohammad Abid BazazWed, 11 Ma🤖 cs.LG

Scalable and Performant Data Loading

El artículo presenta SPDL, una biblioteca de código abierto y agnóstica a frameworks que optimiza la carga de datos en GPU liberando el bloqueo del intérprete global (GIL) de Python, logrando una velocidad de iteración un 74% superior y un menor consumo de recursos en comparación con el DataLoader de PyTorch, con mejoras adicionales al adoptar Python sin GIL.

Moto Hira, Christian Puhrsch, Valentin Andrei, Roman Malinovskyy, Gael Le Lan, Abhinandan Krishnan, Joseph Cummings, Victor Bourgin, Olga Gerasimova, Miguel Martin, Gokul Gunasekaran, Yuta Inoue, Alex J Turner, Raghuraman KrishnamoorthiWed, 11 Ma💻 cs

PhD Thesis Summary: Methods for Reliability Assessment and Enhancement of Deep Neural Network Hardware Accelerators

Esta tesis doctoral presenta métodos novedosos y rentables para evaluar y mejorar la fiabilidad de los aceleradores de hardware de redes neuronales profundas, incluyendo herramientas analíticas, estrategias para optimizar la compensación entre eficiencia y tolerancia a fallos, y una técnica de mejora en tiempo real llamada AdAM que reduce significativamente los costes de hardware.

Mahdi TaheriWed, 11 Ma🤖 cs.AI

ARKV: Adaptive and Resource-Efficient KV Cache Management under Limited Memory Budget for Long-Context Inference in LLMs

El paper presenta ARKV, un marco ligero y adaptativo que gestiona dinámicamente la memoria de la caché KV asignando niveles de precisión según la importancia de los tokens, logrando reducir el uso de memoria en 4x sin sacrificar significativamente la precisión en inferencias de largo contexto.

Jianlong Lei, Shashikant IlagerWed, 11 Ma🤖 cs.AI

RSH-SpMM: A Row-Structured Hybrid Kernel for Sparse Matrix-Matrix Multiplication on GPUs

El artículo presenta RSH-SpMM, un marco híbrido de multiplicación de matrices dispersas para GPU que utiliza particionamiento adaptativo de filas y una representación RS-Tile para optimizar el uso de Tensor Cores y lograr aceleraciones de 1,27x a 6,13x frente a diseños existentes en matrices con irregularidad extrema.

Aiying Li, Jingwei Sun, Han Li, Wence Ji, Guangzhong SunWed, 11 Ma💻 cs

Benchmarking Federated Learning in Edge Computing Environments: A Systematic Review and Performance Evaluation

Este artículo presenta una revisión sistemática y evaluación de rendimiento de técnicas de Aprendizaje Federado en entornos de computación en el borde, comparando cinco algoritmos líderes mediante métricas clave como precisión y eficiencia energética, identificando desafíos actuales y proponiendo una agenda de investigación futura para sistemas más robustos y escalables.

Sales Aribe Jr., Gil Nicholas CagandeWed, 11 Ma🤖 cs.AI

Autonomous Edge-Deployed AI Agents for Electric Vehicle Charging Infrastructure Management

El artículo presenta Auralink SDC, una arquitectura que despliega agentes de IA especializados en el borde para gestionar infraestructura de carga de vehículos eléctricos, logrando una resolución autónoma del 78% de incidentes y una latencia de respuesta de menos de 50 ms mediante técnicas como la resolución autónoma calibrada por confianza y la orquestación jerárquica de múltiples agentes.

Mohammed CherifiWed, 11 Ma🤖 cs.AI

Sensitivity-Guided Framework for Pruned and Quantized Reservoir Computing Accelerators

Este artículo presenta un marco de compresión para la Computación de Reservorio que utiliza un mecanismo de poda basado en sensibilidad para optimizar el equilibrio entre precisión, eficiencia de hardware y recursos en implementaciones de FPGA mediante la poda y cuantización de pesos.

Atousa Jafari, Mahdi Taheri, Hassan Ghasemzadeh Mohammadi, Christian Herglotz, Marco PlatznerWed, 11 Ma🤖 cs.AI

Adaptive Multi-Objective Tiered Storage Configuration for KV Cache in LLM Service

El artículo presenta Kareto, un optimizador que utiliza poda guiada por rendimientos decrecientes y ajuste adaptativo para gestionar dinámicamente el almacenamiento en niveles de la memoria caché KV en servicios de modelos de lenguaje grandes, logrando mejoras significativas en el equilibrio entre costo, rendimiento y latencia en comparación con las estrategias estáticas.

Xianzhe Zheng, Zhengheng Wang, Ruiyan Ma, Rui Wang, Xiyu Wang, Rui Chen, Peng Zhang, Sicheng Pan, Zhangheng Huang, Chenxin Wu, Yi Zhang, Bo Cai, Kan Liu, Teng Ma, Yin Du, Dong Deng, Sai Wu, Guoyun Zhu, Wei Zhang, Feifei LiWed, 11 Ma💻 cs

Zipage: Maintain High Request Concurrency for LLM Reasoning through Compressed PagedAttention

El artículo presenta Zipage, un motor de inferencia que utiliza Compressed PagedAttention para combinar la eliminación de caché KV a nivel de token con la paginación, logrando así mantener una alta concurrencia en tareas de razonamiento de modelos de lenguaje grandes con un rendimiento cercano al 95% del método completo y una aceleración superior a 2,1 veces.

Mengqi Liao, Lu Wang, Chaoyun Zhang, Bo Qiao, Si Qin, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Huaiyu WanWed, 11 Ma🤖 cs.AI

Extension of ACETONE C code generator for multi-core architectures

Este trabajo presenta la extensión del generador de código C ACETONE, diseñado originalmente para sistemas de aprendizaje automático, hacia arquitecturas multinúcleo mediante la definición formal de un problema de asignación de procesadores y el desarrollo de heurísticas de programación y mecanismos de sincronización para generar código paralelo.

Yanis Aït-Aïssa (IRIT-TRACES), Thomas Carle (IRIT-TRACES), Sergei Chichin, Benjamin Lesage, Claire PagettiWed, 11 Ma💻 cs

Serving Compound Inference Systems on Datacenter GPUs

JigsawServe es un marco de servicio pionero que optimiza conjuntamente la latencia, la precisión y el costo de los sistemas de inferencia compuestos en GPUs de centros de datos mediante la selección adaptativa de variantes de modelos y la asignación de recursos espacialmente particionados, logrando un aumento de 11,3 veces en la demanda servible en comparación con trabajos anteriores.

Sriram Devata, Rahul Singh, Sarita AdveWed, 11 Ma💻 cs

DeZent: Decentralized z-Anonymity with Privacy-Preserving Coordination

El artículo presenta deZent, una implementación descentralizada de la anonimización z que utiliza estructuras de conteo estocástico y sumas seguras para coordinar la privacidad en redes de sensores, logrando un rendimiento comparable al enfoque centralizado mientras reduce la sobrecarga de comunicación y la dependencia de una entidad central de confianza.

Carolin Brunn, Florian TschorschWed, 11 Ma💻 cs

FedLECC: Cluster- and Loss-Guided Client Selection for Federated Learning under Non-IID Data

El artículo presenta FedLECC, una estrategia ligera de selección de clientes para el aprendizaje federado que agrupa a los dispositivos según la similitud de sus distribuciones de etiquetas y prioriza aquellos con mayor pérdida local, logrando así mejorar la precisión, reducir las rondas de comunicación y disminuir la sobrecarga en entornos con datos no IID.

Daniel M. Jimenez-Gutierrez, Giovanni Giunta, Mehrdad Hassanzadeh, Aris Anagnostopoulos, Ioannis Chatzigiannakis, Andrea VitalettiWed, 11 Ma🤖 cs.AI

A Consensus-Driven Multi-LLM Pipeline for Missing-Person Investigations

El artículo presenta a Guardian, un sistema de tubería multi-LLM que utiliza modelos especializados y un mecanismo de consenso, junto con ajuste fino QLoRA, para extraer y procesar información de manera auditable y coordinada durante las primeras 72 horas críticas de investigaciones de personas desaparecidas.

Joshua Castillo, Ravi MukkamalaWed, 11 Ma🤖 cs.AI

The $qs$ Inequality: Quantifying the Double Penalty of Mixture-of-Experts at Inference

El artículo introduce la desigualdad $qs$ , un criterio que demuestra cómo la fragmentación de la reutilización de memoria en los modelos de Mezcla de Expertos (MoE) genera una doble penalización en la inferencia de contexto largo, volviéndolos estructuralmente menos eficientes que sus contrapartes densas de calidad equivalente.

Vignesh Adhinarayanan, Nuwan JayasenaWed, 11 Ma🤖 cs.LG

Lockbox -- A Zero Trust Architecture for Secure Processing of Sensitive Cloud Workloads

Este artículo presenta Lockbox, una arquitectura de confianza cero diseñada para garantizar el procesamiento seguro de cargas de trabajo sensibles en la nube mediante la aplicación de verificación explícita de confianza, aislamiento estricto y acceso de mínimo privilegio en todo el ciclo de vida de la aplicación.

Vamshi Krishna Thotempudi, Mahima Agarwal, Raghav Batta, Anjali MangalWed, 11 Ma💻 cs

Two Teachers Better Than One: Hardware-Physics Co-Guided Distributed Scientific Machine Learning

El marco EPIC aborda los desafíos de la implementación centralizada del aprendizaje automático científico en entornos distribuidos mediante un enfoque de codificación local ligera y decodificación consciente de la física, logrando reducciones significativas en la latencia y el consumo de energía mientras mejora la fidelidad de reconstrucción en tareas como la inversión de onda completa.

Yuchen Yuan, Junhuan Yang, Hao Wan, Yipei Liu, Hanhan Wu, Youzuo Lin, Lei YangWed, 11 Ma🤖 cs.LG

Accelerating High-Order Finite Element Simulations at Extreme Scale with FP64 Tensor Cores

Este artículo demuestra por primera vez que el uso directo de núcleos tensoriales FP64 en GPUs NVIDIA, combinado con optimizaciones de fusión de kernels en la biblioteca MFEM, acelera significativamente las simulaciones de elementos finitos de alto orden a escala exascale, logrando mejoras de rendimiento de hasta 2 veces y una eficiencia energética del 83% en sistemas como Alps.

Jiqun Tu, Ian Karlin, John Camier, Veselin Dobrev, Tzanio Kolev, Stefan Henneking, Omar GhattasWed, 11 Ma💻 cs

cs.DC