Boosting In-Context Learning in LLMs Through the Lens of Classical Supervised Learning

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen sehr intelligenten, aber manchmal etwas verwirrten Assistenten (das ist das Large Language Model oder LLM). Du gibst ihm ein paar Beispiele, wie man eine Aufgabe löst (z. B. "Dieser Film war toll" = positiv, "Dieser Film war schrecklich" = negativ), und er soll dann neue Sätze bewerten. Das nennt man In-Context Learning (Lernen aus dem Kontext).

Das Problem ist: Dieser Assistent hat oft eine schlechte Gewohnheit. Er ist wie ein Kompass, der nicht nach Norden zeigt, sondern immer ein bisschen nach Osten abdriftet. Manchmal zeigt er sogar komplett in die entgegengesetzte Richtung, wenn er verwirrt ist.

Bisherige Methoden, um ihn zu korrigieren, waren wie ein kleiner Schieber: Man hat versucht, die Anzeige des Kompasses ein wenig nach links oder rechts zu verschieben, damit sie näher am Ziel liegt. Aber wenn der Kompass komplett verkehrt herum liegt (also z. B. "schlecht" als "gut" bewertet), hilft ein kleiner Schieberegler nicht mehr. Man müsste den Kompass komplett umdrehen.

Hier kommt die neue Methode aus dem Papier ins Spiel: Supervised Calibration (SC) – oder auf Deutsch: Überwachtes Kalibrieren.

Die Idee: Vom Schieber zum Drehknopf

Stell dir vor, der Assistent gibt dir nicht nur eine Richtung, sondern auch eine Stärke seiner Überzeugung.

Die alten Methoden (Label Marginal Calibration): Sie sagten: "Okay, du bist zu sehr von 'Positiv' überzeugt. Wir ziehen einfach einen kleinen Betrag davon ab." Das ist wie ein Schubser. Wenn der Kompass aber komplett falsch liegt, reicht ein Schubser nicht.
Die neue Methode (SC): Sie sagt: "Moment mal. Du liegst nicht nur falsch, du liegst auch in die falsche Richtung. Wir müssen nicht nur schieben, wir müssen auch drehen und skalieren."

Die Autoren nennen das eine affine Transformation. Klingt kompliziert, ist aber einfach wie ein Drehknopf und ein Vergrößerungsglas:

Verschieben (Bias): Wie bei den alten Methoden.
Drehen/Umkehren (Scaling): Das ist der Clou. Wenn der Assistent "schlecht" sagt, aber eigentlich "gut" meint, dreht die neue Methode den Wert um. Sie sagt: "Nein, dein 'schlecht' ist eigentlich 'gut'!" Sie kann also die Entscheidungsgrenze des Assistenten umdrehen, nicht nur verschieben.

Wie lernt der Assistent das? (Die "Geheime Probe")

Normalerweise braucht man viele neue Beispiele, um einen Assistenten zu trainieren. Aber hier haben wir nur die wenigen Beispiele im Prompt. Wie macht man das?

Die Autoren nutzen einen cleveren Trick, den sie "Surrogate Data" (Ersatzdaten) nennen:
Stell dir vor, du hast 8 Beispiele im Prompt. Du nimmst 2 davon heraus, gibst sie dem Assistenten als "Kontext" und lässt ihn die anderen 6 bewerten. Dann nimmst du andere 2, lässt ihn wieder die restlichen 6 bewerten.
So erzeugst du aus den wenigen vorhandenen Beispielen viele kleine "Mini-Tests". Aus diesen Tests lernt der Assistent dann, wie er seine eigenen Vorhersagen korrigieren muss, ohne dass du ihm neue Daten geben musst.

Zwei Sicherheitsgurte (Regularisierung)

Da der Assistent manchmal wild herumtollt, wenn man ihn zu stark korrigiert, haben die Autoren zwei Sicherheitsgurte eingebaut:

Der "Kontext-Gurt" (Context Invariance):
Stell dir vor, du änderst die Reihenfolge der Beispiele im Prompt. Der Assistent sollte trotzdem das gleiche Ergebnis liefern. Dieser Gurt sorgt dafür, dass die Korrektur stabil bleibt, egal wie die Beispiele gemischt sind. Er verhindert, dass der Assistent panisch wird, wenn sich die Reihenfolge ändert.
Der "Vertrauens-Gurt" (Directional Trust-Region):
Dieser Gurt sagt: "Wir vertrauen dir noch ein bisschen." Wenn der Assistent eigentlich ganz gut ist, korrigieren wir ihn nur sanft. Wenn er aber total danebenliegt, dürfen wir ihn auch kräftig drehen. Dieser Gurt verhindert, dass wir den Assistenten zu sehr in die Irre führen, wenn er eigentlich schon recht hatte.

Das Ergebnis: Ein Meister-Kompass

In Tests mit verschiedenen KI-Modellen (wie Llama, Mistral und Qwen) hat sich gezeigt, dass diese neue Methode deutlich besser funktioniert als alle bisherigen Tricks.

Besonders beeindruckend ist ein Beispiel aus dem Papier (SST-5 Datensatz):

Die alten Methoden kamen auf eine Genauigkeit von 25 %.
Die neue Methode (SC) schaffte 44 %.
Warum? Weil sie die Entscheidungsgrenze des Assistenten komplett umgedreht hat. Sie hat erkannt: "Hey, du drehst hier alles auf den Kopf!" und hat es korrigiert.

Zusammenfassung für den Alltag

Stell dir vor, du fährst mit einem Auto, dessen Lenkrad klemmt und immer nach rechts zieht.

Die alten Methoden sagten: "Drück einfach ein bisschen stärker nach links." Das hilft ein wenig, aber wenn die Lenkung komplett blockiert ist, kommst du nicht weiter.
Die neue Methode (SC) sagt: "Wir reparieren die Lenkung, drehen sie um und stellen sie neu ein." Sie nutzt die wenigen Beispiele, die du hast, um zu verstehen, wie das Lenkrab klemmt, und korrigiert es so, dass das Auto wieder geradeaus fährt – und zwar stabil, egal wie du die Sitze verschiebst.

Das Papier zeigt also, wie man KI-Modelle nicht nur "besser macht", sondern ihnen beibringt, ihre eigenen Fehler zu erkennen und ihre Denkweise komplett neu auszurichten, wenn es nötig ist.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Boosting In-Context Learning in LLMs Through the Lens of Classical Supervised Learning" auf Deutsch:

1. Problemstellung

Large Language Models (LLMs) besitzen eine beeindruckende Fähigkeit zum In-Context Learning (ICL), bei der sie neue Aufgaben mit nur wenigen Beispielen (Few-Shot) lösen können, ohne fine-tuning. Allerdings leiden die Vorhersagen von LLMs im ICL-Modus oft unter systematischen Verzerrungen (Biases), die zu instabilen Leistungen führen. Diese Biases entstehen durch Faktoren wie die Formulierung der Prompts, die Reihenfolge der Demonstrationsbeispiele oder die Häufigkeit bestimmter Labels.

Bisherige Kalibrierungsmethoden (z. B. Label Marginal Calibration wie Contextual Calibration oder Batch Calibration) versuchen, diese Verzerrungen zu korrigieren, indem sie die Wahrscheinlichkeitsverteilung der Labels basierend auf internen Schätzungen des Modells anpassen. Das Paper zeigt jedoch, dass diese Methoden im Logit-Raum (dem Raum der unnormalisierten Modell-Ausgaben) im Wesentlichen nur die Entscheidungsgrenze verschieben (Shift), aber nicht ihre Orientierung ändern können.

Das Kernproblem: Wenn das Basis-LLM systematisch falsch liegt (z. B. eine Klasse konstant falsch klassifiziert), reicht eine reine Verschiebung der Schwelle nicht aus, um die Leistung zu verbessern. In extremen Fällen bleibt die Genauigkeit auf dem Niveau eines zufälligen Raten beschränkt, da die Richtung der Entscheidung nicht umgekehrt werden kann.

2. Methodik: Supervised Calibration (SC)

Die Autoren schlagen Supervised Calibration (SC) vor, einen neuartigen Rahmen, der ICL-Kalibrierung als klassisches überwachtes Lernproblem im Logit-Raum betrachtet.

A. Grundlegende Idee

Anstatt nur einen Bias-Term zu lernen, lernt SC eine affine Transformation der Logits des Basis-LLMs für jede Klasse. Das Ziel ist es, eine Funktion $f$ zu finden, die die Logits $m(x)$ des LLMs so transformiert, dass sie der wahren Posterior-Verteilung $P^*(y|x)$ näher kommen.
Die Transformation wird wie folgt definiert:
$L_c(x) = w_c \cdot m_c(x) + b_c$
Dabei ist:

$m_c(x)$ : Der Logit des Basis-LLMs für Klasse $c$ .
$b_c$ : Ein Bias-Term (Verschiebung), der die Label-Marginal-Verzerrungen korrigiert.
$w_c$ : Ein Skalierungsfaktor (Steigung), der die Orientierung der Entscheidungsgrenze ändern kann.

Der entscheidende Unterschied: Wenn $w_c$ negativ wird, kehrt SC die Vorhersagerichtung für diese Klasse um. Dies ermöglicht es, systematisch falsche Vorhersagen des Basis-LLMs vollständig zu korrigieren, was reine Verschiebungsmethoden nicht leisten können.

B. Datengenerierung (Surrogate Data)

Da keine externen Kalibrierungsdaten verfügbar sind, generiert SC einen Surrogat-Datensatz direkt aus dem gegebenen Kontext ( $C_k$ ) mittels einer „Leave-Subset-Out"-Strategie:

Aus dem $k$ -Shot-Kontext werden Teilmengen (Sub-Kontexte) der Größe $i < k$ gebildet.
Die verbleibenden Beispiele des ursprünglichen Kontexts werden als Testfragen verwendet, wobei die Teilmengen als Kontext dienen.
Die Logits, die das LLM für diese Testfragen liefert, werden mit den wahren Labels der verbleibenden Beispiele gepaart, um Trainingsdaten für die affine Regression zu erstellen.

C. Regularisierung

Um die Stabilität im datenarmen ICL-Setting zu gewährleisten, integriert SC zwei Regularisierungstechniken in die Verlustminimierung:

Context-Invariance Regularizer: Sorgt dafür, dass die kalibrierten Vorhersagen für dieselbe Eingabe $x$ konsistent bleiben, unabhängig davon, welche spezifische Teilmenge des Kontexts als Prompt verwendet wurde. Dies bekämpft die Instabilität von ICL gegenüber der Kontextzusammensetzung.
Directional Trust-Region Regularizer: Begrenzt die Anpassung der Parameter, damit sie nicht zu weit von der ursprünglichen Vorhersage des LLMs abweichen (falls das LLM bereits gut ist). Dies verhindert Überanpassung (Overfitting) an den kleinen Surrogat-Datensatz.

D. Ensembling

Das finale Modell nutzt ein Ensembling über verschiedene Kontextgrößen ( $i$ ) und verschiedene Sub-Kontexte, um die Robustheit weiter zu erhöhen und die Varianz zu reduzieren.

3. Hauptbeiträge

Neues Framework (SC): Einführung eines verlustminimierenden Ansatzes, der affine Transformationen (Bias + Skalierung) lernt, um die Orientierung der Entscheidungsgrenze von LLMs zu ändern.
Theoretische Verallgemeinerung: SC wird als Verallgemeinerung bestehender Label-Marginal-Methoden dargestellt. Diese werden als Spezialfall identifiziert, bei dem der Skalierungsfaktor $w_c$ auf 1 fixiert ist.
Stabilitätsmechanismen: Integration von Context-Invariance und Directional Trust-Region Regularizern, um das Bias-Varianz-Dilemma im Few-Shot-Learning zu adressieren.
Umfassende Evaluation: Nachweis des State-of-the-Art (SOTA) auf neun verschiedenen Datensätzen und drei unterschiedlichen LLMs (Mistral-7B, Llama-2-7B, Qwen2-7B).

4. Ergebnisse

Die experimentellen Ergebnisse zeigen eine konsistente Überlegenheit von SC gegenüber etablierten Baselines (CC, BC, DC) und dem rohen Basis-LLM:

Leistungssteigerung: SC erzielt im Durchschnitt eine absolute Verbesserung von +11,1% im Macro-F1-Score über alle Modelle und Shot-Konfigurationen (4, 8, 16 Shots) hinweg.
Kritische Fälle: Auf dem schwierigen SST-5-Datensatz (5 Klassen Sentiment-Analyse) mit dem Qwen2-7B-Modell (8-Shot) steigerte SC die Genauigkeit von 25% (Baselines) auf 44%.
- Ursache: Das Modell lernte einen negativen Skalierungsfaktor ( $w_c \approx -0,19$ ) für bestimmte Klassen, was die Entscheidungsgrenze umkehrte und die systematischen Fehler des Basis-Modells korrigierte.
Skalierbarkeit: Die Methode skaliert effektiv auf größere Modelle (LLaMA-13B), wobei die Verbesserungen mit der Modellgröße sogar noch zunehmen können.
Ablationsstudien: Die Studie bestätigt, dass das Lernen des Skalierungsfaktors ( $w_c$ ) entscheidend ist. Eine Variante ohne Skalierung ( $w_c=1$ ) performt deutlich schlechter als das volle SC-Modell, besonders bei stark fehlkalibrierten Modellen.

5. Bedeutung und Fazit

Dieses Paper bietet einen paradigmatischen Wechsel in der Behandlung von ICL-Kalibrierung. Anstatt nur die Wahrscheinlichkeiten zu normalisieren, behandelt es die Kalibrierung als ein überwachtes Lernproblem, das die interne Logit-Struktur des Modells aktiv neu justiert.

Praktische Relevanz: SC ermöglicht es, LLMs in Few-Shot-Szenarien robuster und zuverlässiger einzusetzen, ohne Fine-Tuning oder externe Daten zu benötigen.
Theoretischer Fortschritt: Es liefert eine fundierte Erklärung dafür, warum reine Verschiebungsmethoden bei stark fehlkalibrierten Modellen versagen, und zeigt, wie durch Skalierungsfaktoren diese Grenzen überwunden werden können.
Zukunftsausblick: Die Arbeit legt den Grundstein für weitere Forschung zur Kontextauswahl und zur Erweiterung auf Regressionsaufgaben.

Zusammenfassend stellt Supervised Calibration einen leistungsfähigen, theoretisch fundierten und praktisch robusten Ansatz dar, um die Vorhersagequalität von LLMs in Few-Shot-Szenarien signifikant zu steigern.