The Geometric Inductive Bias of Grokking: Bypassing Phase Transitions via Architectural Topology
En adoptant une approche interventionnelle, cette étude démontre que l'élimination des degrés de liberté architecturaux liés à la magnitude et au routage de l'attention permet de supprimer le phénomène de « grokking » (généralisation retardée) dans les modèles de Transformers entraînés à l'addition modulaire, en alignant les biais géométriques de l'architecture sur les symétries intrinsèques de la tâche.