Improving reasoning at inference time via uncertainty minimisation

Diese Arbeit stellt eine effiziente Inferenzzeit-Methode vor, die das logische Schlussfolgern von großen Sprachmodellen durch die Maximierung der internen Selbstgewissheit auf Ebene einzelner Gedankenschritte verbessert und dabei bestehende Ansätze wie Greedy Decoding oder Self-Consistency bei geringeren Token-Kosten übertrifft.

Nicolas Legrand, Kenneth Enevoldsen, Márton Kardos, Kristoffer Nielbo

Veröffentlicht 2026-03-10
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen sehr klugen, aber manchmal etwas nervösen Assistenten (einen großen Sprachmodell-KI-Modell), der komplexe Matheaufgaben lösen soll. Wenn Sie ihn bitten, eine Aufgabe zu lösen, denkt er laut nach („Chain of Thought"). Aber manchmal verirrt er sich in Gedanken, wird unsicher und wählt den falschen Weg, nur weil er an einer kleinen Stelle zögerte.

Die Forscher aus Aarhus (Dänemark) haben eine neue Methode entwickelt, wie man diesem Assistenten hilft, den richtigen Weg zu finden, ohne ihn neu zu programmieren oder teure externe Prüfer hinzuzuziehen. Sie nennen ihre Methode „Unsicherheits-Minimierung".

Hier ist die Erklärung in einfachen Worten mit ein paar Bildern:

1. Das Problem: Der verwirrte Wanderer

Stellen Sie sich vor, Ihr Assistent wandert durch einen dichten Wald, um einen Schatz (die richtige Antwort) zu finden.

  • Der alte Weg (Gieriges Decodieren): Der Assistent nimmt einfach immer den ersten Pfad, der ihm am besten aussieht. Wenn er an einer Kreuzung unsicher ist, wählt er zufällig einen Weg. Oft führt dieser Weg in eine Sackgasse.
  • Der teure Weg (Selbstkonsistenz): Eine andere Methode ist, 100 verschiedene Wanderer loszuschicken, alle den Wald durchqueren zu lassen und dann zu schauen, wohin die meisten gekommen sind. Das funktioniert gut, kostet aber extrem viel Zeit und Energie (Rechenleistung).

2. Die neue Lösung: Der „Selbstvertrauens"-Kompass

Die Forscher sagen: „Warum 100 Wanderer losschicken? Lassen Sie uns den Assistenten einfach an jeder Kreuzung kurz innehalten und fragen: 'Wie sicher bin ich gerade?'"

Das ist der Kern ihrer Methode:

  • Der Gedanke als Einheit: Statt jedes einzelne Wort zu prüfen (was oft verrauscht ist), schauen sie auf ganze Gedankenschritte. Ein Gedankenschritt ist wie ein kleiner Abschnitt im Wald, in dem eine Idee formuliert wird (z. B. „Ich muss zuerst die Fläche berechnen").
  • Der Selbstvertrauens-Score: Der Assistent schaut in sein eigenes Inneres. Wenn er einen Gedankenschritt vorschlägt, fragt er sich: „Bin ich mir zu 100 % sicher, dass dieser Schritt logisch ist?"
    • Wenn er sehr unsicher ist (seine Gedanken sind wie ein lautes, chaotisches Rauschen), ist der Score niedrig.
    • Wenn er sehr sicher ist (seine Gedanken sind wie ein klarer, fester Pfad), ist der Score hoch.
  • Die Auswahl: An jeder Kreuzung lässt der Assistent sich ein paar verschiedene Ideen einfallen (z. B. 4 Varianten). Er wählt dann nur die Idee aus, bei der er sich am sichersten fühlt.

3. Warum das genial ist: Der frühe Planer

Die Forscher haben etwas Überraschendes entdeckt, das wie ein Wetterbericht für den Denkprozess funktioniert:

  • Der entscheidende Moment: Wenn der Assistent eine Aufgabe richtig löst, findet er den richtigen Weg sehr früh. Schon in den ersten paar Schritten wird er sehr sicher. Seine Unsicherheit verschwindet schnell.
  • Der falsche Weg: Wenn er sich verirrt, bleibt er lange unsicher. Er hüpft von einer Idee zur anderen, wird immer verwirrter und läuft oft bis zum Ende des Waldes, ohne den Schatz zu finden.

Die Erkenntnis: Es reicht oft, nur die ersten paar Schritte sorgfältig zu prüfen und den sichersten Weg auszuwählen. Danach muss man nicht mehr so viel Energie verschwenden, weil der Pfad dann von selbst klar wird.

4. Ein praktisches Beispiel

Stellen Sie sich vor, Sie müssen einen Kuchen backen, aber Sie sind sich nicht sicher, ob Sie Mehl oder Stärke nehmen sollen.

  • Ohne Methode: Sie nehmen einfach Mehl, weil es zuerst im Kopf kam. Der Kuchen wird flach.
  • Mit der neuen Methode: Sie denken sich drei Varianten aus: „Mehl", „Stärke", „Mischung". Sie fragen Ihr Bauchgefühl (den Selbstvertrauens-Score): „Bin ich mir sicher, dass Mehl hier passt?" – Nein, das Gefühl ist schwach. „Bin ich mir sicher bei Stärke?" – Ja, das Gefühl ist stark! Sie wählen Stärke. Der Kuchen gelingt.

5. Das Ergebnis

Die Forscher haben das an verschiedenen KI-Modellen getestet (sogar auf Dänisch, einer Sprache mit weniger Daten). Das Ergebnis:

  • Die KIs wurden besser im Lösen von Matheaufgaben.
  • Sie brauchten weniger Rechenzeit als die alten Methoden (die 100 Wanderer schickten).
  • Es funktionierte auch bei kleineren KIs, die normalerweise nicht so gut sind.

Zusammenfassend:
Die Forscher haben dem KI-Assistenten beigebracht, nicht blindlings weiterzulaufen, sondern an jeder Denk-Kreuzung kurz zu stoppen, sein Selbstvertrauen zu prüfen und den Weg zu wählen, bei dem er sich am sichersten fühlt. Besonders wichtig ist: Die ersten Entscheidungen sind die wichtigsten. Wenn man dort den richtigen, sicheren Weg wählt, führt das fast immer zum Erfolg. Das spart Zeit, Geld und macht die KI schlauer.