When Scaling Fails: Network and Fabric Effects on Distributed GPU Training Performance
Este artigo investiga empiricamente como fatores de rede e de infraestrutura, frequentemente negligenciados, causam falhas de escalabilidade e desempenho instável em treinamentos distribuídos de GPUs em grande escala, identificando modos de falha recorrentes e propondo princípios práticos para diagnóstico e otimização.