Eliciting Numerical Predictive Distributions of LLMs Without Autoregression

Each language version is independently generated for its own context, not a direct translation.

Das große Rätsel: Wie denken LLMs über Zahlen?

Stell dir vor, ein Large Language Model (LLM) ist wie ein extrem kluger, aber sehr pedantischer Koch. Wenn du ihn fragst: „Wie wird das Wetter morgen?", denkt er sich die Antwort nicht einfach aus. Er „kocht" sie Wort für Wort (oder besser: Token für Token) zusammen.

Das Problem bei Zahlen ist: Um eine Zahl wie „123,45" zu sagen, muss der Koch erst das „1", dann das „2", dann das „3" usw. sagen. Das dauert lange. Wenn du wissen willst, wie unsicher der Koch ist (z. B. „Ist es eher 120 oder 125?"), musst du ihn oft hintereinander fragen und die Antworten mitteln. Das ist wie wenn du den Koch 100 Mal fragst: „Wie sieht das Wetter aus?", nur um eine grobe Schätzung zu bekommen. Das ist teuer und langsam.

Die Entdeckung: Der Koch hat den Plan schon im Kopf

Die Forscher aus Cambridge haben etwas Spannendes entdeckt: Der Koch hat die ganze Antwort schon im Kopf, bevor er auch nur das erste Wort sagt.

Stell dir vor, der Koch steht in der Küche. Bevor er anfängt zu kochen, hat er den fertigen Teller schon in seinem Geist gesehen. Er weiß genau, ob das Essen groß oder klein sein wird (die „Größenordnung") und wie es schmeckt (der genaue Wert).

Normalerweise zwingen wir den Koch aber, den Teller erst Stück für Stück auf den Tisch zu legen (das ist die autoregressive Generierung). Die Forscher sagen: „Warte mal! Wir müssen nicht warten, bis er den Teller auf den Tisch stellt. Wir können einfach in seinen Kopf schauen (in die inneren Repräsentationen des Modells) und die Antwort direkt ablesen."

Die Methode: Ein spezieller „Zahlen-Dolmetscher"

Wie lesen sie diesen Gedanken? Sie haben einen kleinen, schlauen Boten gebaut – nennen wir ihn den „Zahlen-Dolmetscher".

Der Blick in den Kopf: Der Dolmetscher schaut sich an, was im Gehirn des LLMs passiert, bevor es eine Zahl ausspricht.
Die zwei-Schritte-Strategie: Zahlen sind tricky. Eine Zahl wie „0,0001" ist ganz anders als „1.000.000". Der Dolmetscher macht das in zwei Schritten:
- Schritt 1 (Der Schätzer): Er fragt: „Ist die Zahl klein, mittel oder riesig?" (Das nennt man die Größenordnung). Das ist wie zu erraten, ob ein Elefant oder eine Maus im Raum ist.
- Schritt 2 (Der Feinschmecker): Sobald er weiß, ob es ein Elefant ist, schaut er sich genau an, wie groß genau dieser Elefant ist.
Durch diese Aufteilung kann der Dolmetscher Zahlen aller Größenordnungen verstehen, ohne vom Computer zu verrückt werden.

Was haben sie herausgefunden?

Die Ergebnisse sind fast schon magisch:

Die Antwort ist da: Der Dolmetscher kann die genaue Zahl vorhersagen, die der Koch eigentlich aussprechen wollte, und das sofort, ohne dass der Koch auch nur ein einziges Wort gesagt hat.
Die Unsicherheit: Der Dolmetscher kann sogar sagen, wie sicher sich der Koch ist. Wenn der Koch unsicher ist (vielleicht schwankt er zwischen 10 und 20), sieht der Dolmetscher das in den Gehirnwellen des LLMs. Er kann dir sagen: „Der Koch ist sich zu 95 % sicher, dass die Zahl zwischen 12 und 18 liegt."
Geschwindigkeit: Das ist der größte Clou. Anstatt den Koch 100 Mal zu fragen, um eine Unsicherheit zu berechnen, schaut der Dolmetscher nur einmal kurz in den Kopf des Kochs. Das ist riesig schneller und spart enorm viel Rechenleistung.

Warum ist das wichtig?

Stell dir vor, du nutzt eine KI, um den Aktienkurs vorherzusagen oder das Wetter zu berechnen.

Aktuell: Du musst warten, bis die KI langsam ihre Zahl heruntersagt, und sie dann oft wiederholen, um zu wissen, wie sicher sie ist. Das kostet Zeit und Geld.
Mit dieser neuen Methode: Du bekommst die Zahl und die Sicherheitsschätzung sofort und kostenlos (fast), indem du einfach den „Gedanken" der KI abhörst, bevor sie spricht.

Fazit

Die Forscher haben bewiesen, dass KI-Modelle bei Zahlenaufgaben viel mehr wissen, als sie uns sagen. Die „Rechnung" findet schon im Hintergrund statt. Wir müssen nur lernen, wie man diese Gedanken direkt abliest, ohne den ganzen langen Prozess des „Sprechens" abwarten zu müssen.

Das ist wie wenn du einem Freund eine Zahl nennst, und er sagt: „Ich habe die Antwort schon im Kopf, bevor du sie ausgesprochen hast." Und das Beste: Er hat recht!

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Große Sprachmodelle (LLMs) haben sich zunehmend erfolgreich für Regressionsaufgaben wie Zeitreihenvorhersagen und tabellarische Datenanalyse bewährt. Ein zentrales Problem bei der Verwendung von LLMs für numerische Ausgaben ist jedoch deren autoregressiver Dekodierungsprozess.

Ineffizienz: Reelle Zahlen bestehen oft aus mehreren Tokens (z. B. Ziffern, Dezimalpunkt, Vorzeichen). Um eine einzige numerische Vorhersage zu generieren, muss das Modell viele Vorwärtsdurchläufe durchführen.
Unsicherheitsquantifizierung: Um die Unsicherheit der Vorhersage (die prädiktive Verteilung) zu ermitteln, ist eine wiederholte Stichprobenziehung (Sampling) erforderlich. Dies führt zu extrem hohen Rechenkosten und langen Inferenzzeiten, insbesondere wenn viele Samples für Konfidenzintervalle benötigt werden.
Forschungsfrage: Kann die prädiktive Verteilung eines LLMs und deren Unsicherheit direkt aus den internen Repräsentationen (Hidden States) des Modells abgeleitet werden, ohne den kostspieligen autoregressiven Generierungsprozess durchzuführen?

2. Methodik

Die Autoren untersuchen, ob die Hidden States eines LLMs (speziell für Zeitreihenvorhersagen) genügend Informationen enthalten, um statistische Funktionale der Zielverteilung vorherzusagen.

A. Datengrundlage und Repräsentation

Modell: Hauptsächlich Llama-2-7B (Tokenisierung trennt Ziffern, was die Herausforderung erhöht).
Eingabe: Zeitreihen werden als Text serialisiert.
Features: Es werden die Hidden States der letzten 8 Transformer-Schichten extrahiert und zu einem einzigen Eingabevektor für den „Probe" (eine kleine nachgeschaltete Schicht) konkateniert.

B. Der „Magnitude-Factorised" Probing-Ansatz
Ein Hauptproblem bei der Regression von Zahlen mit LLMs ist die enorme Varianz der Größenordnungen (z. B. von $10^{-3}$ bis $10^{4}$ ). Standard-Regressionen (MSE) oder Log-Transformationen scheitern oft an instabilen Gradienten.
Die Autoren lösen dies durch ein zweigeteiltes Modell:

Magnitude-Klassifikator ( $f_{order}$ ): Ein Klassifikator, der die Größenordnung (Exponent zur Basis 10) der Zielzahl vorhersagt.
Skalen-invariante Regressor ( $f_{val}$ ): Ein Regressor, der den Wert basierend auf der vorhergesagten Größenordnung skaliert.
- Die endgültige Vorhersage ist das Produkt aus dem skalierten Wert und der vorhergesagten Größenordnung ( $10^{\text{order}}$ ).
- Dies ermöglicht das Lernen über verschiedene Größenordnungen hinweg.

C. Aufgabenstellungen

Punktschätzung (Abschnitt 2): Vorhersage des Greedy-Outputs, des Mittels (Mean) und des Medians der LLM-Verteilung.
Unsicherheitsquantifizierung (Abschnitt 3): Vorhersage von Quantilen (z. B. 2.5%, 50%, 97.5%) mittels Quantil-Regression (Pinball-Loss), um Konfidenzintervalle und den Interquartilsabstand (IQR) zu rekonstruieren.

D. Trainingsstrategie

Zwei-Phasen-Training (für Punktschätzung): Zuerst wird nur der Klassifikator trainiert, dann der Regressor (bei fixiertem Klassifikator). Dies erweist sich als stabiler als gemeinsames Training.
Gemeinsames Training (für Quantile): Da die Verteilung komplex ist, werden Klassifikations- und Quantil-Verluste gemeinsam optimiert.

3. Wichtige Ergebnisse

A. Kodierung von Punktschätzungen

Die internen Repräsentationen des LLMs enthalten detaillierte Informationen über die beabsichtigte numerische Ausgabe, noch bevor ein Token generiert wurde.
Der Probe kann den Exponenten (Größenordnung) mit über 90 % Genauigkeit vorhersagen.
Die Korrelation zwischen den vorhergesagten und den tatsächlichen Werten (Mittelwert, Median, Greedy) ist extrem hoch (Pearson-Korrelation $\approx 0.98$ für Mittelwert und Median).
Die Genauigkeit des Probes ist vergleichbar mit der des LLMs selbst, das durch direktes Sampling (Ground Truth der Verteilung) gewonnen wurde.

B. Unsicherheitsquantifizierung

Die Unsicherheit (Streuung der Verteilung) ist ebenfalls in den Hidden States kodiert.
Der Probe kann den Interquartilsabstand (IQR) und Konfidenzintervalle (50 %, 90 %, 95 %) zuverlässig rekonstruieren.
Die empirische Abdeckung der vorhergesagten Intervalle stimmt fast perfekt mit den nominalen Werten überein (z. B. 95 % vorhergesagte Intervalle enthalten tatsächlich ~95 % der Samples).

C. Effizienz und Kosten

Rechenkosten: Die Inferenzzeit des Probes ist massiv geringer als die des autoregressiven Samplings.
- Ein Probe-Inferenzschritt dauert ca. 0,034 Sekunden.
- Das Generieren von nur einem Sample via Autoregression dauert ca. 1,59 Sekunden (Faktor ~47 langsamer).
- Um eine vergleichbare Genauigkeit wie der Probe zu erreichen, müsste das LLM ca. 20–25 Samples generieren, was die Kosten weiter vervielfacht.

D. Generalisierung

Kontextlänge: Der Probe generalisiert auf längere und kürzere Zeitreihen als im Training gesehen, wobei die Kalibrierung bei sehr großen Abweichungen leicht nachlässt.
Echte Daten: Auf realen Zeitreihendatensätzen (z. B. Monash, Darts) zeigt der Probe eine gute Übertragbarkeit, obwohl eine gewisse Kalibrierungsverschlechterung bei Out-of-Distribution-Daten auftritt.
Skalen: Der Ansatz funktioniert über verschiedene Größenordnungen hinweg, ist jedoch bei extremen Skalensprüngen (Synthetisch zu Real) herausfordernder.

4. Bedeutung und Beiträge

Paradigmenwechsel: Die Arbeit widerlegt die Annahme, dass für numerische Vorhersagen und Unsicherheitsquantifizierung zwingend ein autoregressiver Dekodierungsprozess notwendig ist. Viel des „Denkens" des LLMs über numerische Werte findet bereits in den Hidden States vor der Token-Generierung statt.
Leichtgewichtige Alternative: Die vorgeschlagenen Probes bieten eine extrem effiziente, einstufige Methode, um LLMs für Regressionsaufgaben einzusetzen. Dies macht LLMs in ressourcenbeschränkten Umgebungen oder für Echtzeitanwendungen praktikabler.
Interpretierbarkeit: Die Ergebnisse liefern neue Einblicke in die interne Mechanik von LLMs: Unsicherheitsinformationen und Verteilungsmerkmale sind explizit in den neuronalen Aktivierungen kodiert und können durch lineare oder einfache nichtlineare Schichten abgerufen werden.
Praktische Anwendung: Die Methode ermöglicht eine unsicherheitsbewusste numerische Vorhersage ohne den Overhead von Sampling, was für sicherheitskritische Anwendungen (z. B. medizinische Vorhersagen, Steuerungssysteme) entscheidend ist.

Fazit: Das Paper demonstriert, dass LLMs ihre numerischen Vorhersagen und deren Unsicherheit bereits in ihren internen Repräsentationen „wissen". Durch den Einsatz von magnitude-faktorisierten Probes kann diese Information effizient extrahiert werden, was den Weg für schnellere und kostengünstigere Anwendungen von LLMs in der Regression ebnet.

Eliciting Numerical Predictive Distributions of LLMs Without Autoregression

Das große Rätsel: Wie denken LLMs über Zahlen?

Die Entdeckung: Der Koch hat den Plan schon im Kopf

Die Methode: Ein spezieller „Zahlen-Dolmetscher"

Was haben sie herausgefunden?

Warum ist das wichtig?

Fazit

1. Problemstellung

2. Methodik

3. Wichtige Ergebnisse

4. Bedeutung und Beiträge

Mehr davon

Holos: A Web-Scale LLM-Based Multi-Agent System for the Agentic Web

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Compositional Neuro-Symbolic Reasoning

Understanding the Nature of Generative AI as Threshold Logic in High-Dimensional Space

AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems