Function Induction and Task Generalization: An Interpretability Study with Off-by-One Addition
Questo studio utilizza tecniche di interpretabilità per dimostrare che i grandi modelli linguistici generalizzano compiti nuovi tramite un meccanismo di "induzione di funzioni", in cui più testine di attenzione collaborano per apprendere e riutilizzare strutture astratte come l'addizione con uno spostamento.