Thinking in Latents: Adaptive Anchor Refinement for Implicit Reasoning in LLMs

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen sehr klugen, aber manchmal etwas langsamen Freund, der dir bei schwierigen Matheaufgaben hilft. Wenn du ihn fragst: „Wie viel ist 12 mal 15?", denkt er laut nach: „Okay, 10 mal 15 ist 150, 2 mal 15 ist 30, also 150 plus 30 macht 180." Er spricht jeden einzelnen Gedanken aus. Das ist wie das Chain-of-Thought (CoT)-Verfahren, das heute bei vielen großen KI-Modellen üblich ist.

Das Problem dabei? Wenn die Aufgabe sehr schwer ist, muss dieser Freund einen ganzen Roman aus Gedanken sprechen, bevor er dir das Ergebnis gibt. Das kostet Zeit, kostet Geld (weil Computerressourcen verbraucht werden) und macht die Antwort lang und unübersichtlich.

Die Forscher in diesem Papier haben sich gefragt: Was, wenn unser Freund einfach im Stillen nachdenkt, ohne jedes Wort laut auszusprechen?

Hier ist die einfache Erklärung der Lösung namens AdaAnchor:

1. Der stille Denker (Latente Verankerung)

Stell dir vor, dein Freund hat einen kleinen, unsichtbaren Notizblock (die „Anker-Vektoren") in seinem Kopf.

Bei alten Methoden: Er schreibt jeden Gedanken auf ein Blatt Papier und liest es dir vor.
Bei AdaAnchor: Er schreibt seine Gedanken nur auf diesen unsichtbaren Notizblock. Er aktualisiert diesen Block immer wieder, während er die Aufgabe löst. Er spricht nichts aus, bis er wirklich fertig ist. Am Ende sagt er dir nur das Endergebnis: „180".

Das spart enorm viel Zeit und Platz, weil keine langen Sätze generiert werden müssen.

2. Der intelligente Stopp-Knopf (Adaptives Halten)

Das war aber noch nicht alles. Ein Problem bei solchen „stillen Denk"-Methoden war bisher: Man musste dem Freund vorher sagen: „Denk genau 8 Mal nach, egal ob die Aufgabe leicht oder schwer ist."

Bei einer leichten Aufgabe (z. B. 2+2) war das 8-malige Nachdenken verschwendete Zeit.
Bei einer schweren Aufgabe (z. B. komplexe Algebra) waren 8-mal vielleicht nicht genug.

AdaAnchor löst das mit einem cleveren Trick, den man sich wie einen Gedanken-Stabilitäts-Test vorstellen kann:

Stell dir vor, dein Freund schaut sich seinen Notizblock nach jedem Denk-Schritt an.

Ist der Block noch wild und verändert sich stark? Dann denkt er weiter. Die Lösung ist noch nicht stabil.
Sieht der Block fast genauso aus wie beim letzten Schritt? Dann ist die Lösung „eingefroren" oder stabil. Der Freund weiß: „Ich habe die Antwort gefunden, weiteres Nachdenken bringt nichts mehr."

Dann macht er sofort Stopp.

Bei leichten Aufgaben denkt er vielleicht nur 2-3 Mal nach und stoppt dann.
Bei schweren Aufgaben denkt er vielleicht 7-8 Mal nach, bis er sicher ist.

Warum ist das so toll? (Die Vorteile)

Geld und Zeit sparen: Da der Freund keine langen Texte spricht, sondern nur im Stillen denkt, werden bis zu 93 % weniger Wörter generiert. Das ist wie der Unterschied zwischen einem 10-seitigen Brief und einem kurzen SMS-Nachricht.
Bessere Ergebnisse: Durch das „Stopp-Verhalten" wird die Rechenleistung intelligenter verteilt. Leichte Aufgaben werden nicht überanalysiert, schwere bekommen genug Zeit. Das Papier zeigt, dass dies die Genauigkeit um bis zu 5 % verbessert, verglichen mit Methoden, die immer fest vorgeben, wie oft gedacht werden muss.
Flexibilität: Man muss nicht für jede neue Aufgabe eine neue Einstellung (wie „8 Denk-Schritte") suchen. Das System passt sich automatisch an.

Zusammenfassung in einer Metapher

Stell dir vor, du musst einen Berg besteigen.

Die alte Methode (CoT): Du musst auf jedem Schritt laut schreien: „Ich setze den linken Fuß, dann den rechten, dann greife ich den Ast..." Das dauert ewig und macht dich müde.
Die neue Methode (AdaAnchor): Du hast einen unsichtbaren Kompass in deiner Hand. Du gehst einfach los. Solange der Kompass noch zittert und sich dreht, weißt du, dass du noch nicht am Ziel bist. Sobald der Kompass ruhig steht und auf den Gipfel zeigt, weißt du: „Okay, ich bin da." Du musst nicht jeden Schritt erklären, du kommst einfach schneller und effizienter ans Ziel.

Fazit: AdaAnchor ist eine neue Art für KI-Modelle zu denken: Sie denken leise in ihrem Inneren und stoppen genau dann, wenn sie die Antwort gefunden haben. Das macht sie schneller, günstiger und oft sogar klüger.

Each language version is independently generated for its own context, not a direct translation.

Titel: Thinking in Latents: Adaptive Anchor Refinement for Implicit Reasoning in LLMs

Veröffentlicht bei: Latent & Implicit Thinking Workshop @ ICLR 2026
Autoren: Disha Sheshanarayana, Rajat Subhra Pal, Manjira Sinha, Tirthankar Dasgupta

1. Problemstellung

Large Language Models (LLMs) zeigen starke Fähigkeiten im mathematischen Schlussfolgern, insbesondere wenn sie durch Chain-of-Thought (CoT) Prompting angewiesen werden, explizite Zwischenschritte zu generieren. Dies führt jedoch zu erheblichen Ineffizienzen:

Hohe Kosten: Lange Texttraces erhöhen die Ausgabe-Länge, die Decodierungs-Latenz und die Token-Nutzung, was die Betriebskosten (insbesondere bei hoher Parallelität) in die Höhe treibt.
Ineffizienz bei einfachen Aufgaben: Oft kann das Modell die richtige Antwort auch ohne extensive verbale Begründung finden, doch die Token-Level-Generierung erzwingt dennoch einen langen Output.
Limitationen latenter Reasoning-Ansätze: Bestehende Methoden, die Berechnungen in den latenten Raum verlagern (um nur die finale Antwort auszugeben), benötigen oft eine feste Anzahl an Verfeinerungsschritten (refinement steps) während der Inferenz. Dies führt zu einem neuen Hyperparameter, der für jedes Modell und jeden Datensatz optimiert werden muss. Zudem fehlt oft eine dynamische Anpassung: Einfache Probleme erhalten unnötig viele Schritte, während schwierige Probleme möglicherweise zu früh stoppen.

2. Methodik: AdaAnchor

Die Autoren stellen AdaAnchor vor, ein Framework für implizites, mehrstufiges Rechnen, das Berechnungen in einem latenten Raum durchführt, ohne explizite Zwischentokens zu generieren.

Kernkomponenten:

Latente Anker-Vektoren (Latent Anchors):
- Statt Text zu generieren, werden $m$ lernbare Anker-Vektoren ( $A^{(t)}$ ) in den Embedding-Raum des Eingabetextes eingefügt.
- Diese Anker fungieren als ein kompakter, wiederverwendbarer latenter Zustand, der über mehrere Iterationen hinweg verfeinert wird.
- Im Gegensatz zu statischen Prefix-Tuning-Methoden werden diese Anker während der Inferenz iterativ aktualisiert (geschrieben), um den Denkprozess zu simulieren.
Iterative Verfeinerung (Silent Computation):
- Das Modell führt wiederholt Forward-Passes durch, bei denen die Anker-Vektoren basierend auf den versteckten Zuständen des Modells aktualisiert werden.
- Die Aktualisierung erfolgt über eine geglättete Formel: $A^{(t+1)} = (1 - \beta)A^{(t)} + \beta A^{(t+1)}_{new}$ , wobei $\beta$ die Konvergenz stabilisiert.
- Der Prozess läuft bis zu einem maximalen Budget $K_{max}$ , generiert aber keine Text-Token.
Adaptives Halten (Adaptive Halting):
- Dies ist der entscheidende Innovationsschritt. Anstatt eine feste Anzahl von Schritten zu erzwingen, überwacht AdaAnchor die Stabilität der Anker über die Iterationen hinweg.
- Metrik: Die Stabilität wird durch die kosinusbasierte Distanz zwischen den Mittelwerten der Anker-Vektoren aufeinanderfolgender Schritte gemessen ( $\Delta^{(t)}$ ).
- Halte-Regel: Der Prozess wird gestoppt, sobald die Änderung der Anker unter einen Schwellenwert $\tau$ fällt und dies für $s$ aufeinanderfolgende Schritte anhält.
- Vorteil: Einfache Probleme werden frühzeitig beendet (wenige Schritte), während schwierige Probleme mehr Verfeinerungsschritte erhalten, ohne dass pro Datensatz ein fester Hyperparameter angepasst werden muss.

3. Wichtige Beiträge

Neues Paradigma: Einführung eines Frameworks, das mehrstufiges Reasoning in einen kompakten latenten Zustand verlagert, während die Ausgabe strikt im „Answer-Only"-Format bleibt.
Adaptive Compute-Allokation: Entwicklung einer stabilitätsbasierten Halte-Mechanik, die die Rechenressourcen dynamisch pro Instanz verteilt. Dies eliminiert die Notwendigkeit, eine feste Anzahl latenter Schritte für verschiedene Datensätze zu optimieren.
Effizienzsteigerung: Deutliche Reduktion der generierten Token bei gleichzeitiger Beibehaltung oder Verbesserung der Genauigkeit im Vergleich zu traditionellen Token-basierten Ansätzen.

4. Ergebnisse

Die Evaluation erfolgte auf drei mathematischen Word-Problem-Benchmarks: GSM8K, SVAMP und MultiArith, getestet auf den Modellen Qwen2.5-1.5B und Llama-3.2-1B.

Genauigkeit vs. Effizienz:
- Im Vergleich zu No-CoT (direkte Antwort) konnte AdaAnchor die Genauigkeit signifikant steigern (z. B. +23–32% bei Qwen, +39–64% bei Llama).
- Im Vergleich zu explizitem CoT reduzierte AdaAnchor die Anzahl der generierten Token um 92–93%, da keine langen Begründungstexte ausgegeben werden.
Adaptives vs. Fikses Halten:
- Gegenüber einem festen Verfeinerungsbudget ( $K=8$ ) reduzierte die adaptive Halte-Mechanik die durchschnittliche Anzahl der latenten Schritte um 48–60%.
- Gleichzeitig wurde die Genauigkeit um bis zu 5% verbessert, da schwierige Fälle mehr Schritte erhielten und einfache nicht überrechnet wurden.
Token-Einsparung: Durch die Verlagerung der Berechnung in den latenten Raum und die Vermeidung von Zwischentexten wird die Ausgabe extrem kompakt gehalten.

5. Bedeutung und Ausblick

Bedeutung:
AdaAnchor adressiert das fundamentale Dilemma zwischen Rechenleistung und Ausgabe-Kosten bei LLMs. Es zeigt, dass mehrstufiges Denken nicht zwingend lange Textausgaben erfordert. Die Methode bietet einen praktikablen Weg, um Latenz und Token-Kosten drastisch zu senken, ohne auf die Vorteile von mehrstufigem Reasoning verzichten zu müssen. Die adaptive Halte-Mechanik macht das System robuster und anpassungsfähiger an unterschiedliche Schwierigkeitsgrade von Eingaben.

Limitationen und Zukunft:

Die Stopp-Regel basiert auf einer heuristischen Stabilitätsmetrik, die bei distributionellen Verschiebungen oder atypischen Eingaben zu früh oder zu spät stoppen könnte.
Die Semantik der gelernten Anker-Vektoren ist nicht direkt interpretierbar (Black-Box im latenten Raum).
Zukünftige Arbeiten könnten lernen, den Stopp-Zeitpunkt durch einen Controller (RL oder Supervised Learning) zu bestimmen und Methoden zur Interpretierbarkeit der Anker-Dynamik entwickeln.

Fazit:
Das Papier demonstriert, dass durch „Denken im Latenten" (Thinking in Latents) mit adaptiver Steuerung ein effizientes, kostengünstiges und genaues Reasoning für LLMs möglich ist, das die Abhängigkeit von langen, teuren Texttraces überwindet.

Thinking in Latents: Adaptive Anchor Refinement for Implicit Reasoning in LLMs

1. Der stille Denker (Latente Verankerung)

2. Der intelligente Stopp-Knopf (Adaptives Halten)

Warum ist das so toll? (Die Vorteile)

Zusammenfassung in einer Metapher

Titel: Thinking in Latents: Adaptive Anchor Refinement for Implicit Reasoning in LLMs

1. Problemstellung

2. Methodik: AdaAnchor

Kernkomponenten:

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

Self-Calibrating Language Models via Test-Time Discriminative Distillation

Toward Generalized Cross-Lingual Hateful Language Detection with Web-Scale Data and Ensemble LLM Annotations

HumorGen: Cognitive Synergy for Humor Generation in Large Language Models via Persona-Based Distillation

Generating High Quality Synthetic Data for Dutch Medical Conversations

GIANTS: Generative Insight Anticipation from Scientific Literature