EROICA: Online Performance Troubleshooting for Large-scale Model Training

Dit paper introduceert EROICA, het eerste online systeem voor het oplossen van prestatieproblemen bij het trainen van grote modellen op schaal, dat door middel van gedetailleerde profilering en differentiële observabiliteit succesvol hardware- en softwarefouten diagnoseert op productiesystemen met ongeveer 100.000 GPU's.

Yu Guan, Zhiyu Yin, Haoyu Chen, Sheng Cheng, Chaojie Yang, Kun Qian, Tianyin Xu, Pengcheng Zhang, Yang Zhang, Hanyu Zhao, Yong Li, Wei Lin, Dennis Cai, Ennan ZhaiTue, 10 Ma🤖 cs.LG

ThunderAgent: A Simple, Fast and Program-Aware Agentic Inference System

ThunderAgent is een snelle en programabewuste agentic-inferentiesysteem dat agentic-workflows abstracteert als LLM-programma's om middelen zoals KV-cache en tool-omgevingen geïntegreerd te beheren, wat resulteert in aanzienlijke verbeteringen in doorvoersnelheid en geheugenefficiëntie ten opzichte van bestaande systemen.

Hao Kang, Ziyang Li, Xinyu Yang, Weili Xu, Yinfang Chen, Junxiong Wang, Beidi Chen, Tushar Krishna, Chenfeng Xu, Simran AroraThu, 12 Ma💻 cs