Marginals Before Conditionals
Cette étude révèle que les réseaux de neurones apprennent d'abord une distribution marginale, stabilisée par le bruit du gradient et caractérisée par un plateau de perte d'entropie conditionnelle, avant de subir une transition collective abrupte vers l'apprentissage complet de la conditionnalité une fois qu'une tête de routage sélective s'est assemblée.