cs.DC artículos | Gist.Science

{\lambda}Scale: Enabling Fast Scaling for Serverless Large Language Model Inference

{\lambda}Scale es un sistema de inferencia serverless para grandes modelos de lenguaje que acelera la escalabilidad mediante el uso de redes RDMA para la multicasting rápida de modelos y la ejecución distribuida durante la carga, logrando mejoras significativas en la latencia y reducción de costos.

Minchen Yu, Rui Yang, Chaobo Jia, Zhaoyuan Su, Sheng Yao, Tingfeng Lan, Yuchen Yang, Zirui Wang, Yue Cheng, Wei Wang, Ao Wang, Ruichuan ChenMon, 09 Ma💻 cs

FAST: An Efficient Scheduler for All-to-All GPU Communication

El paper presenta FAST, un planificador eficiente para comunicaciones All-to-All(v) en clusters de GPU que resuelve problemas de desequilibrio de carga y congestión mediante rebalanceo interno y transferencias equilibradas, logrando superar a las soluciones existentes en rendimiento y reducir el tiempo de síntesis en órdenes de magnitud.

Yiran Lei, Dongjoo Lee, Liangyu Zhao, Daniar Kurniawan, Chanmyeong Kim, Heetaek Jeong, Changsu Kim, Hyeonseong Choi, Liangcheng Yu, Arvind Krishnamurthy, Justine Sherry, Eriko NurvitadhiMon, 09 Ma💻 cs

Linear Layouts: Robust Code Generation of Efficient Tensor Computation Using $\mathbb{F}_2$

Este trabajo presenta "Linear Layouts", un enfoque novedoso que modela la disposición de tensores mediante álgebra lineal sobre $\mathbb{F}_2$ para generar código eficiente, permitir conversiones genéricas entre layouts y reducir la complejidad en compiladores como Triton.

Keren Zhou, Mario Lezcano, Adam Goucher, Akhmed Rakhmati, Jeff Niu, Justin Lebar, Pawel Szczerbuk, Peter Bell, Phil Tillet, Thomas Raoux, Zahi MoudallalMon, 09 Ma💻 cs

A Hierarchical Sharded Blockchain Balancing Performance and Availability

El artículo presenta PyloChain, una blockchain jerárquica y fragmentada que equilibra rendimiento y disponibilidad mediante la ejecución especulativa en cadenas locales y un consenso BFT eficiente en una cadena principal basada en DAG, logrando un mayor rendimiento y menor latencia que las soluciones existentes.

Yongrae Jo, Chanik ParkMon, 09 Ma💻 cs

A Systematic Evaluation of the Potential of Carbon-Aware Execution for Scientific Workflows

Este estudio evalúa sistemáticamente el potencial de la ejecución consciente del carbono en flujos de trabajo científicos, demostrando que estrategias como el desplazamiento temporal y el escalado dinámico de recursos pueden reducir las emisiones de carbono en más de un 80% y un 67%, respectivamente.

Kathleen West, Youssef Moawad, Fabian Lehmann, Vasilis Bountris, Ulf Leser, Yehia Elkhatib, Lauritz ThamsenMon, 09 Ma💻 cs

A-3PO: Accelerating Asynchronous LLM Training with Staleness-aware Proximal Policy Approximation

El artículo presenta A-3PO, un método que acelera el entrenamiento asíncrono de modelos de lenguaje grandes al aproximar la política proximal mediante interpolación simple en lugar de calcularla explícitamente, logrando una aceleración de 1.8x sin comprometer el rendimiento.

Xiaocan Li, Shiliang Wu, Zheng ShenMon, 09 Ma🤖 cs.AI

Reexamining Paradigms of End-to-End Data Movement

Este artículo demuestra que el rendimiento real de la transferencia de datos a gran escala depende de un diseño holístico hardware-software que aborde seis paradigmas críticos más allá del ancho de banda de la red, introduciendo el modelo de "Patrón de Cuenca de Drenaje" para identificar y resolver los cuellos de botella que limitan el rendimiento en entornos de producción.

Chin Fang, Timothy Stitt, Michael J. McManus, Toshio MoriyaMon, 09 Ma💻 cs

Why Ethereum Needs Fairness Mechanisms that Do Not Depend on Participant Altruism

El análisis empírico de este paper demuestra que la suposición de que una fracción significativa de proponentes de bloques en Ethereum actúa de forma altruista es incorrecta, ya que menos del 1,4% cumple consistentemente con los objetivos de descentralización, lo que evidencia la necesidad de implementar mecanismos de incentivos o penalizaciones que no dependan de la buena voluntad de los participantes para garantizar la equidad.

Patrick Spiesberger, Nils Henrik Beyer, Hannes HartensteinMon, 09 Ma💻 cs

Parallelization Strategies for Dense LLM Deployment: Navigating Through Application-Specific Tradeoffs and Bottlenecks

Este artículo analiza las estrategias de paralelización para la implementación de modelos de lenguaje grandes (LLM) densos, demostrando que la paralelización tensorial optimiza la latencia mientras que la paralelización de pipeline mejora el rendimiento, permitiendo mediante su combinación un control efectivo sobre el equilibrio entre ambos factores.

Burak Topcu, Musa Oguzhan Cim, Poovaiah Palangappa, Meena Arunachalam, Mahmut Taylan KandemirMon, 09 Ma🤖 cs.LG

A Lock-Free Work-Stealing Algorithm for Bulk Operations

Este artículo presenta una nueva cola de robo de trabajo sin bloqueos optimizada para un marco maestro-trabajador en la resolución de programación entera mixta mediante diagramas de decisión, que ofrece operaciones por lotes nativas y un rendimiento de latencia constante superior al de las implementaciones existentes como Taskflow.

Raja Sai Nandhan Yadav Kataru, Danial Davarnia, Ali JannesariMon, 09 Ma🔢 math

First-Order Softmax Weighted Switching Gradient Method for Distributed Stochastic Minimax Optimization with Stochastic Constraints

Este artículo presenta un nuevo método de gradiente conmutativo ponderado por softmax para la optimización minimax estocástica distribuida con restricciones estocásticas, que garantiza una convergencia estable y de alta probabilidad en escenarios de aprendizaje federado con participación parcial, superando las limitaciones de los enfoques tradicionales basados en primal-dual o penalizaciones.

Zhankun Luo, Antesh Upadhyay, Sang Bin Moon, Abolfazl HashemiMon, 09 Ma🤖 cs.LG

Gathering Autonomous Mobile Robots Under the Adversarial Defected View Model

Este artículo presenta dos algoritmos distribuidos que garantizan la reunión determinista en tiempo finito de robots móviles autónomos bajo el modelo de vista defectuosa adversaria, resolviendo casos abiertos en sincronía total y estableciendo la convergencia en entornos asíncronos con restricciones de visibilidad.

Prakhar Shukla, Seshunadh Tanuj Peddinti, Subhash BhagatMon, 09 Ma💻 cs

StreamWise: Serving Multi-Modal Generation in Real-Time at Scale

El sistema StreamWise aborda los desafíos de costo y complejidad en la generación de contenido multimodal en tiempo real mediante un diseño de servicio adaptativo y modular que gestiona dinámicamente la calidad, la paralelización de modelos y la asignación de recursos en hardware heterogéneo, logrando una latencia de inicio inferior a un segundo con un costo inferior a 45 dólares.

Haoran Qiu, Gohar Irfan Chaudhry, Chaojie Zhang, Íñigo Goiri, Esha Choukse, Rodrigo Fonseca, Ricardo BianchiniMon, 09 Ma🤖 cs.AI

Knowledge-driven Reasoning for Mobile Agentic AI: Concepts, Approaches, and Directions

Este artículo propone un marco de razonamiento impulsado por conocimiento para la IA agencial móvil que extrae y sincroniza estructuras de decisión reutilizables para superar las limitaciones de recursos y conectividad, demostrando mediante un caso de estudio en UAV que una exposición equilibrada al conocimiento permite a modelos pequeños lograr una fiabilidad perfecta con menor costo computacional.

Guangyuan Liu, Changyuan Zhao, Yinqiu Liu, Dusit Niyato, Biplab SikdarMon, 09 Ma💻 cs

Domain-Adaptive Model Merging across Disconnected Modes

El artículo presenta DMM, un marco de fusión de modelos sin datos que aborda la divergencia entre modelos especializados mediante la síntesis de pseudo-datos y la destilación de conocimiento, logrando un rendimiento superior al estado del arte en benchmarks unimodales y multimodales.

Junming Liu, Yusen Zhang, Rongchao Zhang, Wenkai Zhu, Tian WuMon, 09 Ma🤖 cs.AI

Edge Intelligence-Driven LegalEdge Contracts for EV Charging Stations: A Fedrated Learning with Deep Q-Networks Approach

El artículo presenta LegalEdge, un marco de inteligencia en el borde que integra aprendizaje federado y redes de Q profundas en contratos inteligentes para optimizar la infraestructura de carga de vehículos eléctricos mediante la gestión transparente de precios y la preservación de la privacidad de los datos.

Rahim Rahmani, Arman ChianehMon, 09 Ma💻 cs

Provuse: Platform-Side Function Fusion for Performance and Efficiency in FaaS Environments

El artículo presenta Provuse, una optimización transparente del lado de la plataforma que fusiona automáticamente funciones en entornos FaaS para eliminar instancias redundantes, reduciendo la latencia y el consumo de recursos sin requerir cambios en el código del desarrollador.

Niklas Kowallik, Natalie Carl, Leon Pöllinger, Wei Wang, Sharan Santhahanam, David BermbachMon, 09 Ma💻 cs

MoEless: Efficient MoE LLM Serving via Serverless Computing

El artículo presenta MoEless, el primer marco de servicio de modelos de lenguaje grandes tipo Mezcla de Expertos (MoE) basado en computación sin servidor, que utiliza predictores de carga y estrategias de escalado optimizadas para mitigar el desequilibrio de expertos, reduciendo la latencia de inferencia en un 43% y los costos en un 84% en comparación con soluciones existentes.

Hanfei Yu, Bei Ouyang, Shwai He, Ang Li, Hao WangMon, 09 Ma🤖 cs.AI

Comparative Analysis of Cross-Chain Token Standards

Este artículo presenta un análisis comparativo exhaustivo de cinco estándares y marcos principales de tokens transcadena (xERC20, OFT, NTT, CCT y SuperchainERC20), examinando sus diferencias en arquitectura, mecanismos de paso de mensajes, modelos de confianza y compatibilidad de ecosistemas.

Fatemeh Heidari Soureshjani, Jan GorznyMon, 09 Ma💻 cs

OrchMLLM: Orchestrate Multimodal Data with Batch Post-Balancing to Accelerate Multimodal Large Language Model Training

El paper presenta OrchMLLM, un marco que utiliza un equilibrador de lotes posterior y un orquestador global para mitigar la incoherencia en la composición de modalidades y mejorar la eficiencia y escalabilidad del entrenamiento de modelos grandes de lenguaje multimodal.

Yijie Zheng, Bangjun Xiao, Lei Shi, Xiaoyang Li, Faming Wu, Tianyu Li, Xuefeng Xiao, Yang Zhang, Yuxuan Wang, Shouda LiuFri, 13 Ma🤖 cs.AI

← Anterior Siguiente →

cs.DC