Improving reasoning at inference time via uncertainty minimisation

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen sehr klugen, aber manchmal etwas nervösen Assistenten (einen großen Sprachmodell-KI-Modell), der komplexe Matheaufgaben lösen soll. Wenn Sie ihn bitten, eine Aufgabe zu lösen, denkt er laut nach („Chain of Thought"). Aber manchmal verirrt er sich in Gedanken, wird unsicher und wählt den falschen Weg, nur weil er an einer kleinen Stelle zögerte.

Die Forscher aus Aarhus (Dänemark) haben eine neue Methode entwickelt, wie man diesem Assistenten hilft, den richtigen Weg zu finden, ohne ihn neu zu programmieren oder teure externe Prüfer hinzuzuziehen. Sie nennen ihre Methode „Unsicherheits-Minimierung".

Hier ist die Erklärung in einfachen Worten mit ein paar Bildern:

1. Das Problem: Der verwirrte Wanderer

Stellen Sie sich vor, Ihr Assistent wandert durch einen dichten Wald, um einen Schatz (die richtige Antwort) zu finden.

Der alte Weg (Gieriges Decodieren): Der Assistent nimmt einfach immer den ersten Pfad, der ihm am besten aussieht. Wenn er an einer Kreuzung unsicher ist, wählt er zufällig einen Weg. Oft führt dieser Weg in eine Sackgasse.
Der teure Weg (Selbstkonsistenz): Eine andere Methode ist, 100 verschiedene Wanderer loszuschicken, alle den Wald durchqueren zu lassen und dann zu schauen, wohin die meisten gekommen sind. Das funktioniert gut, kostet aber extrem viel Zeit und Energie (Rechenleistung).

2. Die neue Lösung: Der „Selbstvertrauens"-Kompass

Die Forscher sagen: „Warum 100 Wanderer losschicken? Lassen Sie uns den Assistenten einfach an jeder Kreuzung kurz innehalten und fragen: 'Wie sicher bin ich gerade?'"

Das ist der Kern ihrer Methode:

Der Gedanke als Einheit: Statt jedes einzelne Wort zu prüfen (was oft verrauscht ist), schauen sie auf ganze Gedankenschritte. Ein Gedankenschritt ist wie ein kleiner Abschnitt im Wald, in dem eine Idee formuliert wird (z. B. „Ich muss zuerst die Fläche berechnen").
Der Selbstvertrauens-Score: Der Assistent schaut in sein eigenes Inneres. Wenn er einen Gedankenschritt vorschlägt, fragt er sich: „Bin ich mir zu 100 % sicher, dass dieser Schritt logisch ist?"
- Wenn er sehr unsicher ist (seine Gedanken sind wie ein lautes, chaotisches Rauschen), ist der Score niedrig.
- Wenn er sehr sicher ist (seine Gedanken sind wie ein klarer, fester Pfad), ist der Score hoch.
Die Auswahl: An jeder Kreuzung lässt der Assistent sich ein paar verschiedene Ideen einfallen (z. B. 4 Varianten). Er wählt dann nur die Idee aus, bei der er sich am sichersten fühlt.

3. Warum das genial ist: Der frühe Planer

Die Forscher haben etwas Überraschendes entdeckt, das wie ein Wetterbericht für den Denkprozess funktioniert:

Der entscheidende Moment: Wenn der Assistent eine Aufgabe richtig löst, findet er den richtigen Weg sehr früh. Schon in den ersten paar Schritten wird er sehr sicher. Seine Unsicherheit verschwindet schnell.
Der falsche Weg: Wenn er sich verirrt, bleibt er lange unsicher. Er hüpft von einer Idee zur anderen, wird immer verwirrter und läuft oft bis zum Ende des Waldes, ohne den Schatz zu finden.

Die Erkenntnis: Es reicht oft, nur die ersten paar Schritte sorgfältig zu prüfen und den sichersten Weg auszuwählen. Danach muss man nicht mehr so viel Energie verschwenden, weil der Pfad dann von selbst klar wird.

4. Ein praktisches Beispiel

Stellen Sie sich vor, Sie müssen einen Kuchen backen, aber Sie sind sich nicht sicher, ob Sie Mehl oder Stärke nehmen sollen.

Ohne Methode: Sie nehmen einfach Mehl, weil es zuerst im Kopf kam. Der Kuchen wird flach.
Mit der neuen Methode: Sie denken sich drei Varianten aus: „Mehl", „Stärke", „Mischung". Sie fragen Ihr Bauchgefühl (den Selbstvertrauens-Score): „Bin ich mir sicher, dass Mehl hier passt?" – Nein, das Gefühl ist schwach. „Bin ich mir sicher bei Stärke?" – Ja, das Gefühl ist stark! Sie wählen Stärke. Der Kuchen gelingt.

5. Das Ergebnis

Die Forscher haben das an verschiedenen KI-Modellen getestet (sogar auf Dänisch, einer Sprache mit weniger Daten). Das Ergebnis:

Die KIs wurden besser im Lösen von Matheaufgaben.
Sie brauchten weniger Rechenzeit als die alten Methoden (die 100 Wanderer schickten).
Es funktionierte auch bei kleineren KIs, die normalerweise nicht so gut sind.

Zusammenfassend:
Die Forscher haben dem KI-Assistenten beigebracht, nicht blindlings weiterzulaufen, sondern an jeder Denk-Kreuzung kurz zu stoppen, sein Selbstvertrauen zu prüfen und den Weg zu wählen, bei dem er sich am sichersten fühlt. Besonders wichtig ist: Die ersten Entscheidungen sind die wichtigsten. Wenn man dort den richtigen, sicheren Weg wählt, führt das fast immer zum Erfolg. Das spart Zeit, Geld und macht die KI schlauer.

Each language version is independently generated for its own context, not a direct translation.

Problemstellung

Große Sprachmodelle (LLMs) zeigen zwar starke Fähigkeiten im mehrstufigen Schlussfolgern (z. B. durch Chain-of-Thought-Prompting), doch bestehende Methoden zur Skalierung der Inferenzleistung (Inference-Time Scaling) weisen erhebliche Nachteile auf:

Hohe Rechenkosten: Viele Ansätze erfordern umfangreiches Sampling (z. B. Self-Consistency mit hundertfachen Durchläufen) oder externe Evaluatoren (z. B. Reward Models), was teuer und ineffizient ist.
Falsche Granularität: Bestehende Unsicherheitsmetriken arbeiten oft auf der Ebene einzelner Tokens (zu laut und lokal verzerrt) oder auf der Ebene der vollständigen Generierung (ignoriert die dynamische Struktur des Denkprozesses und erfordert teure Rollouts).
Mangelnde Robustheit: Es ist unklar, ob Unsicherheitsminimierung in Sprachen mit geringeren Ressourcen oder bei komplexen Randfällen funktioniert.

Das Ziel der Autoren ist es, eine effiziente, rein modellinterne Methode zu entwickeln, die den Denkprozess auf der Ebene sinnvoller Zwischenschritte („Thoughts") steuert, ohne externe Bewertung oder massive Rechenressourcen.

Methodik: Unsicherheitsminimierung auf Thought-Ebene

Die Autoren schlagen einen Ansatz vor, der das Schlussfolgern als Prozess der Unsicherheitsminimierung betrachtet. Statt auf Token-Ebene zu optimieren, operiert die Methode auf der Ebene von Denkschritten (Thoughts).

Definition eines Denkschritts: Ein „Thought" wird als eine Folge von Tokens definiert, die zwischen vordefinierten Trennzeichen (Delimtern) liegt und eine kohärente semantische Einheit bildet (z. B. einen Teilschritt in einer mathematischen Herleitung).
Selbstgewissheit (Self-Certainty): Als Metrik wird die Selbstgewissheit $C$ $C$ verwendet, basierend auf der Kullback-Leibler-Divergenz (KL-Divergenz) zwischen der vom Modell vorhergesagten Token-Verteilung und einer uniformen Verteilung (maximale Unsicherheit).
- Formel (vereinfacht): $C_i = D_{KL}(U \parallel p(\cdot|x, y_{<i}))$ .
- Höhere Selbstgewissheit bedeutet eine spitzere Verteilung und damit ein stärkeres internes Commitment zu einer bestimmten Fortsetzung.
Selektionsprozess (Inference-Time Scaling):
- Zu jedem Denkschritt generiert das Modell $k$ Kandidaten (z. B. 2, 4 oder 8).
- Jeder Kandidat wird anhand seiner durchschnittlichen Selbstgewissheit über den gesamten Schritt bewertet (normalisiert nach Länge).
- Der Kandidat mit der höchsten Selbstgewissheit wird ausgewählt und zum Kontext hinzugefügt.
- Dieser Prozess wiederholt sich, bis eine gültige Antwort gefunden ist oder ein Limit erreicht wird.
Vorteile: Die Methode ist rein intern (keine externen Judge-Modelle), funktioniert online (kein Warten auf komplette Trajektorien) und ist für offene Fragen geeignet.

Hauptbeiträge

Neue Skalierungsstrategie: Einführung einer Methode, die Unsicherheitssignale auf die Granularität einzelner Denkschritte erweitert, anstatt auf Token oder ganze Generierungen.
Umfassende Evaluation: Testung auf den Benchmarks MATH500 und GSM8K über verschiedene Modellgrößen hinweg (Families: Qwen2.5 und Llama-3.2, von 0.5B bis 3B Parameter).
Analyse der Dynamik: Identifikation zeitlicher Muster der Selbstgewissheit, die die Korrektheit des Schlussfolgerns vorhersagen.
Sprachübergreifende Generalisierung: Evaluation auf Dänisch (eine Sprache mit geringeren Ressourcen), um die Robustheit der Strategie zu testen.

Ergebnisse

Die Experimente lieferten folgende zentrale Erkenntnisse:

Leistungssteigerung: Die Selbstgewissheits-Maximierung übertrifft konsistent das greedy Decoding und erreicht oder übertrifft die Self-Consistency (bei vergleichbarem Token-Budget) mit nur wenigen Samples (schon 2 Samples reichen oft aus).
Effizienz: Die Methode erzielt signifikante Verbesserungen mit einem sehr begrenzten Sampling-Budget und benötigt keine teuren externen Evaluatoren.
Sprachunabhängigkeit: Die Methode funktioniert robust auch auf Dänisch. Obwohl die Basisleistung bei Dänisch-Prompts sank, waren die relativen Gewinne durch Unsicherheitsminimierung vergleichbar mit denen im Englischen (in einigen Fällen bis zu 4-fache Verbesserung gegenüber greedy Decoding).
Dynamik der Selbstgewissheit:
- Frühe Konvergenz: Korrekte Lösungswege zeigen bereits in den allerersten Denkschritten eine signifikant höhere Selbstgewissheit als falsche Wege.
- Unsicherheitsauflösung: Bei korrekten Trajektorien stabilisiert sich die Unsicherheit früh (die Selbstgewissheit steigt schnell an und bleibt stabil). Falsche Trajektorien zeigen oft lange Ketten mit abnehmender Selbstgewissheit.
Strategische Budget-Allokation: Die Analyse zeigte, dass die Maximierung der Selbstgewissheit nur in den ersten Schritten (z. B. den ersten 1–3 Schritten) den größten Leistungsbeitrag liefert. Eine fortlaufende Optimierung über den gesamten Pfad hinweg führt zu abnehmenden Grenzerträgen oder sogar Leistungsabfall (durch „Over-Optimierung" und zu frühes Festfahren auf suboptimalen Pfaden).

Bedeutung und Fazit

Das Paper demonstriert, dass die Qualität des Schlussfolgerns in LLMs stark von den frühen Planungsentscheidungen abhängt.

Effizientes Inference-Time Scaling: Es ist nicht notwendig, den gesamten Generierungsprozess mit hohem Rechenaufwand zu durchsuchen. Stattdessen ist es effektiver, den Rechenbudget gezielt auf die frühen Denkschritte zu konzentrieren, um die Unsicherheit dort zu minimieren, wo sie für den Erfolg am kritischsten ist.
Ressourcenschonung: Die Methode ermöglicht es kleineren Modellen, die Leistung größerer Systeme zu erreichen, ohne zusätzliche Trainingsdaten oder externe Reward-Modelle zu benötigen.
Kognitive Implikationen: Die Ergebnisse stützen die Hypothese, dass LLMs (ähnlich wie menschliches Denken) durch eine frühe Planung und Unsicherheitsreduktion funktionieren, wobei die Qualität der ersten Schritte den Ausgang des gesamten Problems bestimmt.

Zusammenfassend bietet die vorgeschlagene Methode einen einfachen, aber hocheffizienten Weg, die Reasoning-Fähigkeiten von LLMs zu verbessern, indem sie die interne Selbstgewissheit als Steuerungssignal auf der Ebene sinnvoller Denkschritte nutzt.

Improving reasoning at inference time via uncertainty minimisation

1. Das Problem: Der verwirrte Wanderer

2. Die neue Lösung: Der „Selbstvertrauens"-Kompass

3. Warum das genial ist: Der frühe Planer

4. Ein praktisches Beispiel

5. Das Ergebnis

Problemstellung

Methodik: Unsicherheitsminimierung auf Thought-Ebene

Hauptbeiträge

Ergebnisse

Bedeutung und Fazit

Mehr davon

On the security of 2-key triple DES

Security issues in a group key establishment protocol

The impact of quantum computing on real-world security: A 5G case study

Yet another insecure group key distribution scheme using secret sharing

How not to secure wireless sensor networks: A plethora of insecure polynomial-based key pre-distribution schemes