Retcon -- a Prompt-Based Technique for Precise Control of LLMs in Conversations

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Der verwirrte Chatbot

Stell dir vor, du hast einen sehr intelligenten, aber etwas sturren Roboterkellner (das ist der KI-Chatbot). Du sitzt mit ihm an einem Tisch und unterhältst dich.

Das Ziel: Du möchtest, dass der Kellner zu Beginn der Unterhaltung sehr einfach und kindlich spricht (wie ein kleiner Schüler), aber nach ein paar Sätzen plötzlich wie ein Professor auftritt, der komplexe wissenschaftliche Begriffe benutzt.
Das Problem: Wenn du dem Kellner nur sagst: „Sei am Ende ein Professor", vergisst er das oft. Er bleibt entweder den ganzen Abend ein Kind oder er verwirrt sich und redet durcheinander.

Bisherige Methoden, um das zu lösen, waren wie folgt:

Zero-Shot (Die leere Anleitung): Du sagst dem Kellner nur: „Sei ein Professor." Aber ohne Beispiele versteht er nicht genau, was du meinst.
Few-Shot (Das Beispielbuch): Du gibst dem Kellner ein Buch mit 5 Beispielen, wie er sich in verschiedenen Situationen verhalten soll. Aber das Buch ist statisch. Wenn die Unterhaltung mit dir länger wird, verliert der Kellner den Bezug zu den alten Beispielen im Buch. Er kann sich nicht schnell genug anpassen.

Die Lösung: „Retcon" (Die Rückwärts-Änderung)

Die Autoren des Papers haben eine neue Methode namens Retcon erfunden. Der Name kommt aus der Comic-Welt („Retroactive Continuity"). In Comics passiert es oft, dass ein Autor eine alte Geschichte neu schreibt, um sie an eine neue, aktuelle Handlung anzupassen.

Wie funktioniert Retcon im echten Leben?

Stell dir vor, du bist der Regisseur dieses Gesprächs. Anstatt dem Kellner nur ein statisches Buch zu geben, schreibst du das Skript live um, während die Szene läuft.

Hier ist die Magie:

Jeder Satz ist ein Beispiel: Bei der alten Methode (Few-Shot) gab es 5 ganze Gespräche als Beispiele. Bei Retcon wird jeder einzelne Satz in deinem aktuellen Gespräch zu einem Beispiel.
Die „Zwischen-Töne": Bevor der Kellner antwortet, fügst du unsichtbar einen kleinen Zettel in sein Ohr ein: „Okay, für diesen Satz hier sprich bitte auf Niveau A1 (einfach)." Und beim nächsten Satz: „Jetzt sprich auf Niveau C2 (schwer)."
Der Trick: Der Kellner sieht nicht nur deine Frage, sondern er sieht auch den „Zettel" (die Anweisung) direkt vor dem Satz, den er gerade lesen muss. Er lernt also durch die aktuelle Unterhaltung selbst, wie er sich anpassen soll.

Die Analogie: Der Tanzlehrer

Stell dir vor, du lernst Tanzen.

Die alte Methode (Few-Shot): Der Lehrer zeigt dir 5 Videos von anderen Leuten, die tanzen. Dann sagt er: „Mach jetzt auch so." Aber wenn du selbst tanzt, vergisst du die Videos schnell, besonders wenn der Tanz lang wird.
Die Retcon-Methode: Der Lehrer steht direkt neben dir. Er hält dir nicht nur Videos vor, sondern er korrigiert dich Schritt für Schritt.
- Bevor du den ersten Schritt machst, flüstert er: „Mach es langsam."
- Bevor du den zweiten Schritt machst, flüstert er: „Mach es jetzt schnell."
- Bevor du den dritten Schritt machst, flüstert er: „Mach es jetzt sehr elegant."

Der Kellner (die KI) lernt dadurch viel schneller, weil er die Regel („Wie man spricht") direkt mit der Aktion („Was ich gerade sage") verknüpft sieht. Er sieht das Muster in Echtzeit.

Was hat das Experiment ergeben?

Die Forscher haben das an einem Englisch-Lehrer-Chatbot getestet. Sie wollten, dass der Bot die Schwierigkeit der Sprache (von „Kindergarten" bis „Universität") genau einhält.

Das Ergebnis: Die Retcon-Methode war viel genauer als die alten Methoden.
Warum? Weil der Bot nicht auf alte, statische Beispiele aus der Vergangenheit angewiesen war, sondern die Regeln direkt aus dem aktuellen Gesprächsverlauf „abgelesen" hat. Es ist, als würde man einem Schüler nicht nur ein Lehrbuch geben, sondern ihn direkt am Tisch sitzen lassen und ihm bei jeder einzelnen Aufgabe sagen: „So löst du diese Aufgabe."

Zusammenfassung in einem Satz

Retcon ist eine Technik, bei der man dem KI-Modell nicht nur alte Beispiele gibt, sondern die aktuelle Unterhaltung so umschreibt, dass jeder einzelne Satz als Lehrbeispiel dient, damit die KI genau weiß, wie sie sich in diesem spezifischen Moment verhalten soll.

Es ist der Unterschied zwischen einem Schüler, der ein altes Buch liest, und einem Schüler, bei dem der Lehrer ihm live in die Ohren flüstert, wie er den nächsten Satz bilden soll.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Große Sprachmodelle (LLMs) sind zwar leistungsfähig in der Ausführung komplexer natürlichsprachlicher Aufgaben, doch ihre Kontrolle in Multi-Turn-Konversationen (Gesprächen mit mehreren Runden) stellt eine erhebliche Herausforderung dar.

Mangelnde Anpassungsfähigkeit: Traditionelle Prompting-Techniken wie Zero-Shot (nur Anweisungen) oder Few-Shot (Anweisungen plus wenige Beispielkonversationen) stoßen an Grenzen, wenn das Verhalten des LLMs im Verlauf eines Gesprächs dynamisch angepasst werden muss (z. B. Tonfall, Schwierigkeitsgrad, emotionale Reaktion).
Diskrepanz zu vorherigen Runden: Wenn die gewünschte Antwort nicht dem Ton oder Inhalt vorheriger Runden entspricht, oder wenn das Gespräch länger als ein paar Runden ist, verlieren traditionelle Few-Shot-Ansätze oft ihre Wirksamkeit.
Kostenfaktoren: Fine-Tuning oder spezielle Controllability-Frameworks sind zwar möglich, aber rechenintensiv, teuer und für viele reale Anwendungen unpraktisch. Es besteht daher ein Bedarf an einer Prompting-Methode, die eine präzise Kontrolle ohne Fine-Tuning ermöglicht.

2. Methodik: Retcon

Die Autoren stellen Retcon vor, eine Weiterentwicklung des Few-Shot-Promptings, die speziell für die Steuerung von LLMs in laufenden Konversationen entwickelt wurde. Der Name leitet sich von „Retconning" (Rückwirkende Kontinuität in der Fiktion) ab, da die Konversationsgeschichte dynamisch umgeschrieben wird.

Kernprinzip:
Im Gegensatz zum traditionellen Few-Shot-Prompting, bei dem ganze Konversationen als Beispiele dienen, dienen bei Retcon einzelne Konversationsrunden (Turns) als Beispiele.

Der Prozess:

Rewriting der Historie: Die gesamte Konversationshistorie (sowohl in den Beispiel-Konversationen als auch in der aktuellen laufenden Konversation) wird umgeschrieben.
Injektion von Anweisungen: Vor jeder einzelnen Antwort des Assistenten in den Beispielen wird eine spezifische Instruktion eingefügt, die den gewünschten Zustand (z. B. Schwierigkeitsgrad) für genau diesen Turn definiert.
Bewertungsfunktion ( $E(T)$ ): Ein zentrales technisches Erfordernis ist eine Bewertungsfunktion, die den gewünschten Zielzustand für einen gegebenen Text misst (z. B. „Gemessene Fröhlichkeit" oder „CEFR-Sprachniveau"). Diese Funktion muss in den Serving-Pfad integriert werden, um die Instruktionen für die Beispiele zu generieren.
Prompt-Struktur:
- Statt $x$ Beispiel-Konversationen erhält das Modell eine enorme Anzahl von Beispiel-Turns.
- Jeder Turn in den Beispielen wird durch eine Instruktion $I(E(T))$ eingeleitet, gefolgt vom Text $T$ .
- Dies erzeugt für das Modell eine hohe Dichte an Beispielen, die direkt auf den Kontext des aktuellen Gesprächs zugeschnitten sind.

3. Experimentelles Setup

Die Autoren evaluierten Retcon gegen Zero-Shot und traditionelles Few-Shot in einem spezifischen Szenario:

Aufgabe: Ein LLM fungiert als Englischlehrer und passt die Schwierigkeit seiner Antworten an einen Lernenden an.
Metrik: Der Schwierigkeitsgrad wurde anhand der CEFR-Skala (A1 bis C2) gemessen.
Daten: 20 manuell erstellte Konversationen (je 20 Runden) mit verschiedenen Themen und Schwierigkeitsstufen.
Evaluation: Ein BERT-basiertes Modell bewertete die tatsächliche Schwierigkeit der generierten Antworten. Die Zielabweichung wurde als Mean Squared Error (MSE) auf der CEFR-Skala berechnet.
Vergleich: Es wurden verschiedene Anzahlen von Beispiel-Konversationen (0 bis 10) getestet. Bei Retcon wurden bei 10 Beispielen über 100 einzelne Turn-Beispiele generiert, während Few-Shot nur 10 Konversationen bot.

4. Ergebnisse

Die Ergebnisse zeigen eine signifikante Überlegenheit von Retcon:

Genauigkeit: Retcon erzielte bei fast allen Konfigurationen einen deutlich niedrigeren MSE (bessere Übereinstimmung mit dem Ziel) als Few-Shot und Zero-Shot.
- Bestes Retcon-Ergebnis: MSE $0.544 \pm 0.036$.
- Bestes Few-Shot-Ergebnis: MSE $0.659 \pm 0.020$.
- Zero-Shot: MSE $1.621$ (fast doppelt so hoch wie Retcon).
Effizienz bei Kontextlänge: Selbst wenn Few-Shot so viele Beispiel-Turns erhielt wie Retcon (indem man die Beispiel-Konversationen künstlich verlängerte), schnitt Retcon besser ab. Dies deutet darauf hin, dass nicht nur die reine Anzahl der Beispiele, sondern deren Dichte und die proximität zur aktuellen Instruktion entscheidend sind.
Robustheit: Retcon performte auch bei 0 Beispiel-Konversationen (nur die aktuelle Historie) deutlich besser als Zero-Shot, da jeder Turn der laufenden Konversation als Beispiel dient.

5. Wichtige Beiträge

Neue Prompting-Technik: Einführung von Retcon als Methode zur feingranularen, rundenweisen Kontrolle von LLMs in Multi-Turn-Szenarien ohne Fine-Tuning.
Dynamische Umstrukturierung: Der Ansatz, die Konversationshistorie „on-the-fly" umzuschreiben und Instruktionen vor jeden Turn zu setzen, um die Lernfähigkeit des Modells im Kontext zu maximieren.
Empirische Validierung: Demonstration, dass die Dichte an Beispielen und deren Nähe zur aktuellen Aufgabe wichtiger sind als die bloße Anzahl ganzer Beispiel-Konversationen.
Benchmark-Erstellung: Entwicklung eines neuen Datensatzes und einer Evaluierungsmethode für die Anpassungsfähigkeit von LLMs an dynamische Instruktionsänderungen in Gesprächen.

6. Bedeutung und Ausblick

Praktische Relevanz: Retcon ermöglicht Anwendungen wie Support-Agenten, Lehrassistenten oder interaktive Spielfiguren, die sich präzise an verändernde Anforderungen (z. B. Tonfall, Komplexität) anpassen können, ohne dass teures Fine-Tuning nötig ist.
Herausforderungen:
- Ressourcen: Die Methode erfordert die Integration einer Bewertungsfunktion in den Serving-Pfad, was zusätzliche Rechenleistung und Entwicklungsaufwand bedeutet.
- Datenerstellung: Das Erstellen von hochwertigen Beispiel-Konversationen mit annotierten Zielen ist aufwendig.
- Missbrauchsrisiko: Die präzise Kontrolle könnte genutzt werden, um subtile Manipulationen (z. B. versteckte Werbung) in Chatbots einzubauen.
Zukünftige Arbeit: Die Autoren schlagen vor, die zugrundeliegenden Mechanismen (Dichte vs. Anzahl vs. Nähe) weiter zu untersuchen und Retcon mit Fine-Tuning und Chain-of-Thought-Prompting zu vergleichen.

Fazit: Retcon stellt einen signifikanten Fortschritt in der Prompt-Engineering-Methodik dar, indem es die Kontrolle über LLMs in langen, dynamischen Gesprächen durch eine intelligente Umstrukturierung des Kontexts und eine hohe Dichte an kontextspezifischen Beispielen verbessert.

Retcon -- a Prompt-Based Technique for Precise Control of LLMs in Conversations

Das Problem: Der verwirrte Chatbot

Die Lösung: „Retcon" (Die Rückwärts-Änderung)

Die Analogie: Der Tanzlehrer

Was hat das Experiment ergeben?

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik: Retcon

3. Experimentelles Setup

4. Ergebnisse

5. Wichtige Beiträge

6. Bedeutung und Ausblick

Mehr davon

Constraining constructions with WordNet: pros and cons for the semantic annotation of fillers in the Italian Constructicon

Attribution Quality in AI-Generated Content:Benchmarking Style Embeddings and LLM Judges

QA-Dragon: Query-Aware Dynamic RAG System for Knowledge-Intensive Visual Question Answering

OraPO: Oracle-educated Reinforcement Learning for Data-efficient and Factual Radiology Report Generation

Stop Before You Fail: Operational Capability Boundaries for Mitigating Unproductive Reasoning in Large Reasoning Models