{\lambda}Scale: Enabling Fast Scaling for Serverless Large Language Model Inference

{\lambda}Scale es un sistema de inferencia serverless para grandes modelos de lenguaje que acelera la escalabilidad mediante el uso de redes RDMA para la multicasting rápida de modelos y la ejecución distribuida durante la carga, logrando mejoras significativas en la latencia y reducción de costos.

Minchen Yu, Rui Yang, Chaobo Jia, Zhaoyuan Su, Sheng Yao, Tingfeng Lan, Yuchen Yang, Zirui Wang, Yue Cheng, Wei Wang, Ao Wang, Ruichuan ChenMon, 09 Ma💻 cs

FAST: An Efficient Scheduler for All-to-All GPU Communication

El paper presenta FAST, un planificador eficiente para comunicaciones All-to-All(v) en clusters de GPU que resuelve problemas de desequilibrio de carga y congestión mediante rebalanceo interno y transferencias equilibradas, logrando superar a las soluciones existentes en rendimiento y reducir el tiempo de síntesis en órdenes de magnitud.

Yiran Lei, Dongjoo Lee, Liangyu Zhao, Daniar Kurniawan, Chanmyeong Kim, Heetaek Jeong, Changsu Kim, Hyeonseong Choi, Liangcheng Yu, Arvind Krishnamurthy, Justine Sherry, Eriko NurvitadhiMon, 09 Ma💻 cs

Linear Layouts: Robust Code Generation of Efficient Tensor Computation Using F2\mathbb{F}_2

Este trabajo presenta "Linear Layouts", un enfoque novedoso que modela la disposición de tensores mediante álgebra lineal sobre F2\mathbb{F}_2 para generar código eficiente, permitir conversiones genéricas entre layouts y reducir la complejidad en compiladores como Triton.

Keren Zhou, Mario Lezcano, Adam Goucher, Akhmed Rakhmati, Jeff Niu, Justin Lebar, Pawel Szczerbuk, Peter Bell, Phil Tillet, Thomas Raoux, Zahi MoudallalMon, 09 Ma💻 cs

A Systematic Evaluation of the Potential of Carbon-Aware Execution for Scientific Workflows

Este estudio evalúa sistemáticamente el potencial de la ejecución consciente del carbono en flujos de trabajo científicos, demostrando que estrategias como el desplazamiento temporal y el escalado dinámico de recursos pueden reducir las emisiones de carbono en más de un 80% y un 67%, respectivamente.

Kathleen West, Youssef Moawad, Fabian Lehmann, Vasilis Bountris, Ulf Leser, Yehia Elkhatib, Lauritz ThamsenMon, 09 Ma💻 cs

Reexamining Paradigms of End-to-End Data Movement

Este artículo demuestra que el rendimiento real de la transferencia de datos a gran escala depende de un diseño holístico hardware-software que aborde seis paradigmas críticos más allá del ancho de banda de la red, introduciendo el modelo de "Patrón de Cuenca de Drenaje" para identificar y resolver los cuellos de botella que limitan el rendimiento en entornos de producción.

Chin Fang, Timothy Stitt, Michael J. McManus, Toshio MoriyaMon, 09 Ma💻 cs

Why Ethereum Needs Fairness Mechanisms that Do Not Depend on Participant Altruism

El análisis empírico de este paper demuestra que la suposición de que una fracción significativa de proponentes de bloques en Ethereum actúa de forma altruista es incorrecta, ya que menos del 1,4% cumple consistentemente con los objetivos de descentralización, lo que evidencia la necesidad de implementar mecanismos de incentivos o penalizaciones que no dependan de la buena voluntad de los participantes para garantizar la equidad.

Patrick Spiesberger, Nils Henrik Beyer, Hannes HartensteinMon, 09 Ma💻 cs

Parallelization Strategies for Dense LLM Deployment: Navigating Through Application-Specific Tradeoffs and Bottlenecks

Este artículo analiza las estrategias de paralelización para la implementación de modelos de lenguaje grandes (LLM) densos, demostrando que la paralelización tensorial optimiza la latencia mientras que la paralelización de pipeline mejora el rendimiento, permitiendo mediante su combinación un control efectivo sobre el equilibrio entre ambos factores.

Burak Topcu, Musa Oguzhan Cim, Poovaiah Palangappa, Meena Arunachalam, Mahmut Taylan KandemirMon, 09 Ma🤖 cs.LG

First-Order Softmax Weighted Switching Gradient Method for Distributed Stochastic Minimax Optimization with Stochastic Constraints

Este artículo presenta un nuevo método de gradiente conmutativo ponderado por softmax para la optimización minimax estocástica distribuida con restricciones estocásticas, que garantiza una convergencia estable y de alta probabilidad en escenarios de aprendizaje federado con participación parcial, superando las limitaciones de los enfoques tradicionales basados en primal-dual o penalizaciones.

Zhankun Luo, Antesh Upadhyay, Sang Bin Moon, Abolfazl HashemiMon, 09 Ma🤖 cs.LG

StreamWise: Serving Multi-Modal Generation in Real-Time at Scale

El sistema StreamWise aborda los desafíos de costo y complejidad en la generación de contenido multimodal en tiempo real mediante un diseño de servicio adaptativo y modular que gestiona dinámicamente la calidad, la paralelización de modelos y la asignación de recursos en hardware heterogéneo, logrando una latencia de inicio inferior a un segundo con un costo inferior a 45 dólares.

Haoran Qiu, Gohar Irfan Chaudhry, Chaojie Zhang, Íñigo Goiri, Esha Choukse, Rodrigo Fonseca, Ricardo BianchiniMon, 09 Ma🤖 cs.AI

Knowledge-driven Reasoning for Mobile Agentic AI: Concepts, Approaches, and Directions

Este artículo propone un marco de razonamiento impulsado por conocimiento para la IA agencial móvil que extrae y sincroniza estructuras de decisión reutilizables para superar las limitaciones de recursos y conectividad, demostrando mediante un caso de estudio en UAV que una exposición equilibrada al conocimiento permite a modelos pequeños lograr una fiabilidad perfecta con menor costo computacional.

Guangyuan Liu, Changyuan Zhao, Yinqiu Liu, Dusit Niyato, Biplab SikdarMon, 09 Ma💻 cs

MoEless: Efficient MoE LLM Serving via Serverless Computing

El artículo presenta MoEless, el primer marco de servicio de modelos de lenguaje grandes tipo Mezcla de Expertos (MoE) basado en computación sin servidor, que utiliza predictores de carga y estrategias de escalado optimizadas para mitigar el desequilibrio de expertos, reduciendo la latencia de inferencia en un 43% y los costos en un 84% en comparación con soluciones existentes.

Hanfei Yu, Bei Ouyang, Shwai He, Ang Li, Hao WangMon, 09 Ma🤖 cs.AI

OrchMLLM: Orchestrate Multimodal Data with Batch Post-Balancing to Accelerate Multimodal Large Language Model Training

El paper presenta OrchMLLM, un marco que utiliza un equilibrador de lotes posterior y un orquestador global para mitigar la incoherencia en la composición de modalidades y mejorar la eficiencia y escalabilidad del entrenamiento de modelos grandes de lenguaje multimodal.

Yijie Zheng, Bangjun Xiao, Lei Shi, Xiaoyang Li, Faming Wu, Tianyu Li, Xuefeng Xiao, Yang Zhang, Yuxuan Wang, Shouda LiuFri, 13 Ma🤖 cs.AI