The Geometric Inductive Bias of Grokking: Bypassing Phase Transitions via Architectural Topology
Lo studio dimostra che l'adozione di una topologia sferica vincolata e l'ablazione del routing attentivo adattivo nei Transformer eliminano la fase di memorizzazione nel fenomeno del "grokking" sull'addizione modulare, suggerendo che l'allineamento tra le priorità architetturali e le simmetrie intrinseche del compito è cruciale per accelerare la generalizzazione.