Communication-Efficient Multimodal Federated Learning: Joint Modality and Client Selection

El artículo presenta MFedMC, un marco de aprendizaje federado multimodal eficiente en comunicación que aborda la heterogeneidad de los clientes y las limitaciones de ancho de banda mediante una arquitectura desacoplada y un algoritmo de selección conjunta de modalidades y clientes, logrando una reducción de la sobrecarga de comunicación superior a 20 veces sin sacrificar la precisión.

Liangqi Yuan, Dong-Jun Han, Su Wang, Devesh Upadhyay, Christopher G. BrintonThu, 12 Ma🤖 cs.LG

Multi-GPU Quantum Circuit Simulation and the Impact of Network Performance

Este trabajo introduce el uso de MPI en los benchmarks de la QED-C para evaluar simulaciones de circuitos cuánticos en múltiples GPUs, demostrando que las mejoras en el rendimiento de las interconexiones de red tienen un impacto superior (más de 16 veces) en el tiempo de solución que las mejoras en la arquitectura de las propias GPUs.

W. Michael Brown, Anurag Ramesh, Thomas Lubinski, Thien Nguyen, David E. Bernal NeiraThu, 12 Ma⚛️ quant-ph

RedFuser: An Automatic Operator Fusion Framework for Cascaded Reductions on AI Accelerators

El artículo presenta RedFuser, un marco automático que fusiona operaciones de reducción en cascada en un único bucle mediante un método teórico formal, logrando aceleraciones de 2 a 5 veces en comparación con los compiladores de IA más avanzados y igualando el rendimiento de los kernels escritos a mano.

Xinsheng Tang, Yangcheng Li, Nan Wang, Zhiyi Shu, Xingyu Ling, Junna Xing, Peng Zhou, Qiang LiuThu, 12 Ma🤖 cs.AI

The DMA Streaming Framework: Kernel-Level Buffer Orchestration for High-Performance AI Data Paths

Este artículo presenta *dmaplane*, un módulo del kernel de Linux que orquesta la gestión de buffers de nivel de kernel mediante un UAPI estable, canales de comandos basados en anillos y soporte RDMA para optimizar las rutas de datos de IA, habilitando inferencia desintegrada de extremo a extremo y mejorando el rendimiento en operaciones de transferencia de memoria entre dispositivos y nodos NUMA.

Marco GrazianoThu, 12 Ma🤖 cs.AI

Architecture-Aware LLM Inference Optimization on AMD Instinct GPUs: A Comprehensive Benchmark and Deployment Study

Este estudio presenta una evaluación exhaustiva de la inferencia de LLMs en GPUs AMD Instinct MI325X, demostrando que la optimización consciente de la arquitectura es crucial para maximizar el rendimiento, revelando que modelos con diferentes diseños (como MoE+MLA frente a Dense+GQA) requieren configuraciones específicas de vLLM y AITER para alcanzar un alto rendimiento y fiabilidad en cargas de trabajo de texto y visión.

Athos GeorgiouThu, 12 Ma🤖 cs.AI

Pooling Engram Conditional Memory in Large Language Models using CXL

Este artículo propone utilizar un pool de memoria CXL para almacenar la memoria condicional de engramas en modelos de lenguaje grandes, integrándolo en SGLang para lograr un rendimiento cercano al de la DRAM y ofrecer una solución de almacenamiento escalable y rentable sin comprometer la inferencia.

Ruiyang Ma, Teng Ma, Zhiyuan Su, Hantian Zha, Xinpeng Zhao, Xuchun Shang, Xingrui Yi, Zheng Liu, Zhu Cao, An Wu, Zhichong Dou, Ziqian Liu, Daikang Kuang, Guojie LuoThu, 12 Ma💻 cs

ACE Runtime - A ZKP-Native Blockchain Runtime with Sub-Second Cryptographic Finality

El artículo presenta ACE Runtime, un entorno de ejecución nativo de pruebas de conocimiento cero que logra una finalidad criptográfica en menos de un segundo mediante la separación de identidad y autorización, reemplazando las verificaciones de firmas por transacción con atestaciones HMAC ligeras y una única prueba agregada por bloque para reducir la carga computacional y facilitar la migración post-cuántica.

Jian Sheng WangThu, 12 Ma💻 cs

S-HPLB: Efficient LLM Attention Serving via Sparsity-Aware Head Parallelism Load Balance

El artículo presenta S-HPLB, una estrategia de balanceo de carga que aprovecha la elasticidad de dispersión heterogénea pero estable entre las cabezas de atención para asignar presupuestos de dispersión adaptativos, logrando una mejora de 2.88 veces en la latencia de computación sin degradar la calidad de la inferencia.

Di Liu, Yifei Liu, Chen Chen, Zhibin Yu, Xiaoyi Fan, Quan Chen, Minyi GuoThu, 12 Ma💻 cs

COHORT: Hybrid RL for Collaborative Large DNN Inference on Multi-Robot Systems Under Real-Time Constraints

El artículo presenta COHORT, un marco de inferencia colaborativa de redes neuronales profundas para sistemas multi-robot que utiliza una estrategia híbrida de aprendizaje por refuerzo (offline y online) para optimizar dinámicamente la distribución de tareas, logrando una reducción del 15,4% en el consumo de batería y un aumento del 51,67% en la utilización de la GPU mientras cumple con las restricciones de tiempo real.

Mohammad Saeid Anwar, Anuradha Ravi, Indrajeet Ghosh, Gaurav Shinde, Carl Busart, Nirmalya RoyThu, 12 Ma💻 cs

Double-Precision Matrix Multiplication Emulation via Ozaki-II Scheme with FP8 Quantization

Este artículo presenta un método novedoso para emular la multiplicación de matrices de doble precisión (FP64) utilizando unidades de multiplicación-matriz en FP8 mediante el esquema Ozaki-II, superando las limitaciones de las implementaciones anteriores y reduciendo significativamente el número de operaciones necesarias en comparación con el esquema Ozaki-I.

Yuki Uchino, Katsuhisa Ozaki, Toshiyuki ImamuraThu, 12 Ma💻 cs

CacheSolidarity: Preventing Prefix Caching Side Channels in Multi-tenant LLM Serving Systems

El sistema CacheSolidarity protege los entornos de inferencia de LLMs multi-tenant contra canales laterales de tiempo derivados de la caché de prefijos, logrando un equilibrio entre seguridad y eficiencia al aislar selectivamente solo los prefijos sospechosos en lugar de desactivar completamente el uso compartido de caché.

Panagiotis Georgios Pennas, Konstantinos Papaioannou, Marco Guarnieri, Thaleia Dimitra DoudaliThu, 12 Ma🤖 cs.LG

Aceso: Carbon-Aware and Cost-Effective Microservice Placement for Small and Medium-sized Enterprises

El artículo presenta Aceso, un sistema de colocación de microservicios adaptativo diseñado para PYMES que optimiza dinámicamente la ubicación de los servicios en infraestructuras regionales limitadas para reducir las emisiones de carbono y los costos operativos sin comprometer la latencia.

Georgia Christofidi, Francisco Álvarez-Terribas, Ioannis Roumpos, Nicolas Kourtellis, Jesus Omaña Iglesias, Thaleia Dimitra DoudaliThu, 12 Ma💻 cs

Data Augmentation and Convolutional Network Architecture Influence on Distributed Learning

Este estudio analiza cómo las arquitecturas de redes neuronales convolucionales influyen en la precisión del modelo y examina factores adicionales que afectan la eficiencia computacional en entornos de aprendizaje distribuido, proporcionando perspectivas clave para optimizar su despliegue en escenarios intensivos de recursos.

Victor Forattini Jansen, Emanuel Teixeira Martins, Yasmin Souza Lima, Flavio de Oliveira Silva, Rodrigo Moreira, Larissa Ferreira Rodrigues MoreiraThu, 12 Ma💻 cs

Reference Architecture of a Quantum-Centric Supercomputer

Este artículo presenta una arquitectura de referencia y una hoja de ruta para los sistemas de supercomputación centrada en la cuántica (QCSC), los cuales integran unidades de procesamiento cuántico, GPU y CPU en una infraestructura co-diseñada para superar las limitaciones actuales de orquestación manual y acelerar el descubrimiento de algoritmos híbridos en aplicaciones como la química y la ciencia de materiales.

Seetharami Seelam, Jerry M. Chow, Antonio Córcoles, Sarah Sheldon, Tushar Mittal, Abhinav Kandala, Sean Dague, Ian Hincks, Hiroshi Horii, Blake Johnson, Michael Le, Hani Jamjoom, Jay M. GambettaThu, 12 Ma⚡ eess