Function Induction and Task Generalization: An Interpretability Study with Off-by-One Addition
Diese Studie nutzt Interpretierbarkeitsmethoden, um zu zeigen, wie Large Language Models durch einen neuartigen Mechanismus namens „Funktionsinduktion" generalisieren, bei dem parallele Aufmerksamkeitsköpfe abstrakte Funktionen (wie eine Off-by-One-Addition) lernen und auf diverse neue Aufgaben übertragen.