The Geometric Inductive Bias of Grokking: Bypassing Phase Transitions via Architectural Topology
Die Studie zeigt durch interventive Architekturmodifikationen, dass die Beseitigung unbeschränkter Darstellungsmagnituden und datenabhängiger Attention-Routing-Mechanismen in Transformer-Modellen den Grokking-Effekt bei modularen Additionen vollständig überwindet, während diese Beschleunigung bei nicht-kommutativen Aufgaben wie der S5-Perposition ausbleibt, was auf eine entscheidende Abhängigkeit der Trainingsdynamik von der geometrischen Ausrichtung der Architekturprioritäten mit den intrinsischen Symmetrien der Aufgabe hindeutet.