SR-TTT: Surprisal-Aware Residual Test-Time Training
Die Arbeit stellt SR-TTT vor, eine Methode, die Test-Time-Training-Modelle durch eine verlustgesteuerte, sparse Speichermechanik verbessert, die nur hoch überraschende Tokens in einen exakten Attention-Cache leitet, um so die katastrophalen Erinnerungsfehler bei der genauen Wiederholung von Informationen zu beheben, während der O(1)-Speicherbedarf für den Kontext erhalten bleibt.