When Scaling Fails: Network and Fabric Effects on Distributed GPU Training Performance
Questo studio empirico dimostra che le prestazioni dell'addestramento distribuito su GPU su larga scala sono spesso dominate da fattori di rete e di fabric, come la topologia e la congestione, che causano un ritorno decrescente e comportamenti instabili non rilevati dagli strumenti di profilazione standard, fornendo al contempo principi diagnostici pratici per mitigare questi problemi.