cs.DC artículos | Gist.Science

Optimal Transport Aggregation for Distributed Mixture-of-Experts

Este artículo propone un marco de agregación basado en transporte óptimo para combinar modelos de Mezcla de Expertos (MoE) distribuidos en un estimador global coherente, logrando un rendimiento comparable al entrenamiento centralizado con un único paso de comunicación y menores costos computacionales.

Faïcel Chamroukhi, Nhat Thien PhamThu, 12 Ma📊 stat

Communication-Efficient Multimodal Federated Learning: Joint Modality and Client Selection

El artículo presenta MFedMC, un marco de aprendizaje federado multimodal eficiente en comunicación que aborda la heterogeneidad de los clientes y las limitaciones de ancho de banda mediante una arquitectura desacoplada y un algoritmo de selección conjunta de modalidades y clientes, logrando una reducción de la sobrecarga de comunicación superior a 20 veces sin sacrificar la precisión.

Liangqi Yuan, Dong-Jun Han, Su Wang, Devesh Upadhyay, Christopher G. BrintonThu, 12 Ma🤖 cs.LG

On the Solvability of Byzantine-tolerant Reliable Communication in Dynamic Networks

Este artículo investiga y establece las condiciones necesarias y suficientes para lograr una comunicación fiable en redes dinámicas que enfrentan fallas bizantinas, pérdidas de mensajes y retrasos computacionales, identificando además las clases de redes donde estas condiciones se satisfacen.

Silvia Bonomi (DIAG UNIROMA), Giovanni Farina (UNICUSANO), Sébastien Tixeuil (NPA)Thu, 12 Ma💻 cs

Multi-GPU Quantum Circuit Simulation and the Impact of Network Performance

Este trabajo introduce el uso de MPI en los benchmarks de la QED-C para evaluar simulaciones de circuitos cuánticos en múltiples GPUs, demostrando que las mejoras en el rendimiento de las interconexiones de red tienen un impacto superior (más de 16 veces) en el tiempo de solución que las mejoras en la arquitectura de las propias GPUs.

W. Michael Brown, Anurag Ramesh, Thomas Lubinski, Thien Nguyen, David E. Bernal NeiraThu, 12 Ma⚛️ quant-ph

RedFuser: An Automatic Operator Fusion Framework for Cascaded Reductions on AI Accelerators

El artículo presenta RedFuser, un marco automático que fusiona operaciones de reducción en cascada en un único bucle mediante un método teórico formal, logrando aceleraciones de 2 a 5 veces en comparación con los compiladores de IA más avanzados y igualando el rendimiento de los kernels escritos a mano.

Xinsheng Tang, Yangcheng Li, Nan Wang, Zhiyi Shu, Xingyu Ling, Junna Xing, Peng Zhou, Qiang LiuThu, 12 Ma🤖 cs.AI

The DMA Streaming Framework: Kernel-Level Buffer Orchestration for High-Performance AI Data Paths

Este artículo presenta *dmaplane*, un módulo del kernel de Linux que orquesta la gestión de buffers de nivel de kernel mediante un UAPI estable, canales de comandos basados en anillos y soporte RDMA para optimizar las rutas de datos de IA, habilitando inferencia desintegrada de extremo a extremo y mejorando el rendimiento en operaciones de transferencia de memoria entre dispositivos y nodos NUMA.

Marco GrazianoThu, 12 Ma🤖 cs.AI

Architecture-Aware LLM Inference Optimization on AMD Instinct GPUs: A Comprehensive Benchmark and Deployment Study

Este estudio presenta una evaluación exhaustiva de la inferencia de LLMs en GPUs AMD Instinct MI325X, demostrando que la optimización consciente de la arquitectura es crucial para maximizar el rendimiento, revelando que modelos con diferentes diseños (como MoE+MLA frente a Dense+GQA) requieren configuraciones específicas de vLLM y AITER para alcanzar un alto rendimiento y fiabilidad en cargas de trabajo de texto y visión.

Athos GeorgiouThu, 12 Ma🤖 cs.AI

Pooling Engram Conditional Memory in Large Language Models using CXL

Este artículo propone utilizar un pool de memoria CXL para almacenar la memoria condicional de engramas en modelos de lenguaje grandes, integrándolo en SGLang para lograr un rendimiento cercano al de la DRAM y ofrecer una solución de almacenamiento escalable y rentable sin comprometer la inferencia.

Ruiyang Ma, Teng Ma, Zhiyuan Su, Hantian Zha, Xinpeng Zhao, Xuchun Shang, Xingrui Yi, Zheng Liu, Zhu Cao, An Wu, Zhichong Dou, Ziqian Liu, Daikang Kuang, Guojie LuoThu, 12 Ma💻 cs

ACE Runtime - A ZKP-Native Blockchain Runtime with Sub-Second Cryptographic Finality

El artículo presenta ACE Runtime, un entorno de ejecución nativo de pruebas de conocimiento cero que logra una finalidad criptográfica en menos de un segundo mediante la separación de identidad y autorización, reemplazando las verificaciones de firmas por transacción con atestaciones HMAC ligeras y una única prueba agregada por bloque para reducir la carga computacional y facilitar la migración post-cuántica.

Jian Sheng WangThu, 12 Ma💻 cs

AgentServe: Algorithm-System Co-Design for Efficient Agentic AI Serving on a Consumer-Grade GPU

El artículo presenta AgentServe, un sistema de inferencia diseñado para ejecutar múltiples agentes de IA de manera estable en una sola GPU de consumo mediante el aislamiento de fases de prellenado y decodificación, logrando mejoras significativas en la estabilidad de la latencia y el rendimiento en comparación con enfoques anteriores.

Yuning Zhang, Yan Yan, Nan Yang, Dong YuanThu, 12 Ma💻 cs

S-HPLB: Efficient LLM Attention Serving via Sparsity-Aware Head Parallelism Load Balance

El artículo presenta S-HPLB, una estrategia de balanceo de carga que aprovecha la elasticidad de dispersión heterogénea pero estable entre las cabezas de atención para asignar presupuestos de dispersión adaptativos, logrando una mejora de 2.88 veces en la latencia de computación sin degradar la calidad de la inferencia.

Di Liu, Yifei Liu, Chen Chen, Zhibin Yu, Xiaoyi Fan, Quan Chen, Minyi GuoThu, 12 Ma💻 cs

COHORT: Hybrid RL for Collaborative Large DNN Inference on Multi-Robot Systems Under Real-Time Constraints

El artículo presenta COHORT, un marco de inferencia colaborativa de redes neuronales profundas para sistemas multi-robot que utiliza una estrategia híbrida de aprendizaje por refuerzo (offline y online) para optimizar dinámicamente la distribución de tareas, logrando una reducción del 15,4% en el consumo de batería y un aumento del 51,67% en la utilización de la GPU mientras cumple con las restricciones de tiempo real.

Mohammad Saeid Anwar, Anuradha Ravi, Indrajeet Ghosh, Gaurav Shinde, Carl Busart, Nirmalya RoyThu, 12 Ma💻 cs

Estimating the condition number of Chebyshev filtered vectors with application to the ChASE library

Este trabajo presenta un método preciso y económico para acotar el número de condición de los vectores filtrados por Chebyshev, permitiendo implementar en la biblioteca ChASE un mecanismo de selección automática de la factorización QR que mejora el rendimiento sin comprometer la precisión.

Edoardo Di Napoli, Xinzhe WuThu, 12 Ma🔢 math

CD-Raft: Reducing the Latency of Distributed Consensus in Cross-Domain Sites

El artículo presenta CD-Raft, un protocolo de consenso optimizado para sitios de dominio cruzado que reduce significativamente la latencia mediante la optimización del tiempo de ida y vuelta y la ubicación estratégica del nodo líder, garantizando al mismo tiempo la consistencia fuerte mediante especificación formal TLA+ y validación empírica.

Yangyang Wang, Ziqian Cheng, Yucong Dong, Zichen XuThu, 12 Ma💻 cs

Double-Precision Matrix Multiplication Emulation via Ozaki-II Scheme with FP8 Quantization

Este artículo presenta un método novedoso para emular la multiplicación de matrices de doble precisión (FP64) utilizando unidades de multiplicación-matriz en FP8 mediante el esquema Ozaki-II, superando las limitaciones de las implementaciones anteriores y reduciendo significativamente el número de operaciones necesarias en comparación con el esquema Ozaki-I.

Yuki Uchino, Katsuhisa Ozaki, Toshiyuki ImamuraThu, 12 Ma💻 cs

CacheSolidarity: Preventing Prefix Caching Side Channels in Multi-tenant LLM Serving Systems

El sistema CacheSolidarity protege los entornos de inferencia de LLMs multi-tenant contra canales laterales de tiempo derivados de la caché de prefijos, logrando un equilibrio entre seguridad y eficiencia al aislar selectivamente solo los prefijos sospechosos en lugar de desactivar completamente el uso compartido de caché.

Panagiotis Georgios Pennas, Konstantinos Papaioannou, Marco Guarnieri, Thaleia Dimitra DoudaliThu, 12 Ma🤖 cs.LG

Aceso: Carbon-Aware and Cost-Effective Microservice Placement for Small and Medium-sized Enterprises

El artículo presenta Aceso, un sistema de colocación de microservicios adaptativo diseñado para PYMES que optimiza dinámicamente la ubicación de los servicios en infraestructuras regionales limitadas para reducir las emisiones de carbono y los costos operativos sin comprometer la latencia.

Georgia Christofidi, Francisco Álvarez-Terribas, Ioannis Roumpos, Nicolas Kourtellis, Jesus Omaña Iglesias, Thaleia Dimitra DoudaliThu, 12 Ma💻 cs

Topological Analysis for Identifying Anomalies in Serverless Platforms

Este artículo presenta un modelo topológico basado en la descomposición de Hodge para analizar y gestionar los flujos operativos en plataformas serverless, identificando las armonías estructurales como propiedades inherentes y proponiendo estrategias de remediación como los "efectos de drenaje" para contener ineficiencias sin reestructurar completamente la arquitectura.

Gianluca Reali, Mauro FemminellaThu, 12 Ma💻 cs

Data Augmentation and Convolutional Network Architecture Influence on Distributed Learning

Este estudio analiza cómo las arquitecturas de redes neuronales convolucionales influyen en la precisión del modelo y examina factores adicionales que afectan la eficiencia computacional en entornos de aprendizaje distribuido, proporcionando perspectivas clave para optimizar su despliegue en escenarios intensivos de recursos.

Victor Forattini Jansen, Emanuel Teixeira Martins, Yasmin Souza Lima, Flavio de Oliveira Silva, Rodrigo Moreira, Larissa Ferreira Rodrigues MoreiraThu, 12 Ma💻 cs

Reference Architecture of a Quantum-Centric Supercomputer

Este artículo presenta una arquitectura de referencia y una hoja de ruta para los sistemas de supercomputación centrada en la cuántica (QCSC), los cuales integran unidades de procesamiento cuántico, GPU y CPU en una infraestructura co-diseñada para superar las limitaciones actuales de orquestación manual y acelerar el descubrimiento de algoritmos híbridos en aplicaciones como la química y la ciencia de materiales.

Seetharami Seelam, Jerry M. Chow, Antonio Córcoles, Sarah Sheldon, Tushar Mittal, Abhinav Kandala, Sean Dague, Ian Hincks, Hiroshi Horii, Blake Johnson, Michael Le, Hani Jamjoom, Jay M. GambettaThu, 12 Ma⚡ eess

← Anterior Siguiente →