Retcon -- a Prompt-Based Technique for Precise Control of LLMs in Conversations

Each language version is independently generated for its own context, not a direct translation.

Wat is het probleem?

Stel je voor dat je een gesprek voert met een slimme robot (een AI). Soms wil je dat de robot op een specifieke manier praat. Bijvoorbeeld:

"Praat alsof je een boze klant bent."
"Leg het uit alsof ik 5 jaar oud ben."
"Gebruik heel moeilijke woorden."

Het probleem is dat robots vaak vergeten wat ze moeten doen zodra het gesprek langer duurt. Als je ze alleen een opdracht geeft aan het begin (zoals "Wees aardig"), vergeten ze dat vaak na een paar zinnen. Als je ze voorbeelden geeft (zoals "Kijk hoe ik hier reageer"), werkt dat vaak ook niet goed als het gesprek al lang is, omdat de robot dan verstrikt raakt in de oude voorbeelden.

De Oplossing: Retcon (De "Terug in de Tijd"-Techniek)

De auteurs van dit paper hebben een nieuwe manier bedacht die ze Retcon noemen. De naam komt uit strips en films: een retcon (retroactive continuity) is wanneer je een bestaand verhaal herschrijft om een nieuwe plotlijn toe te voegen.

De Metafoor: De Regisseur met een Telefoon
Stel je voor dat je een toneelstuk speelt met een acteur (de AI).

De oude manier (Few-shot): Je geeft de acteur een script met drie voorbeelden van hoe hij moet spelen. Daarna laat je hem het stuk spelen. Als het stuk lang duurt, vergeet hij vaak de instructies uit het script.
De Retcon-methode: Je bent de regisseur. Je staat niet alleen aan het begin, maar je loopt tijdens het hele stuk langs de acteur. Voor elke zin die de acteur zegt, fluister je hem in zijn oor: "Oké, nu moet je heel boos klinken" of "Nu moet je heel simpel praten".

Je "schrijft" het gesprek dus in real-time om. Je voegt een instructie toe voor elke draai in het gesprek, niet alleen voor de voorbeelden.

Hoe werkt het precies?

In plaats van dat je de AI een paar volledige gesprekken als voorbeeld geeft, geef je de AI een lijst met alle zinnen uit die gesprekken, maar met een klein labeltje erbovenop.

Voorbeeld: In plaats van te zeggen: "Hier is een gesprek van 10 zinnen, en de laatste zin was goed."
Retcon: Zeg je: "Hier is zin 1 (met instructie), hier is zin 2 (met instructie), hier is zin 3 (met instructie)..."

Zo ziet de AI voor elke zin een voorbeeld van hoe hij moet reageren op een specifieke opdracht. Het is alsof je de AI een spiegel voorhoudt bij elke stap die hij zet.

Wat hebben ze ontdekt?

De auteurs hebben dit getest met een taak waarbij de AI moest praten op verschillende moeilijkheidsniveaus (van heel simpel tot heel moeilijk, zoals voor een taalstudent).

Het resultaat: Retcon werkt veel beter dan de oude methoden.
De verrassing: Zelfs als je Retcon gebruikt met minder voorbeeldgesprekken dan de andere methode, wint het vaak.
Waarom? Omdat de instructies "verser" zijn. De AI hoeft niet te gissen wat hij moet doen na 20 zinnen; hij krijgt bij elke nieuwe zin een herinnering.

De Kooltjes en de Aardappelen (De Nadelen)

Natuurlijk is er een prijs te betalen.

Meer werk: Je moet een extra "controle-model" hebben dat elke zin meet om te zien of hij wel goed is. Dit is alsof je naast de regisseur een critici hebt die elke zin direct nakijkt.
Langer gesprek: Omdat je bij elke zin een instructie toevoegt, wordt het bericht dat naar de AI gaat erg lang. Dit kost meer rekenkracht en tijd.

Conclusie

Retcon is een slimme truc om robots beter te laten luisteren tijdens lange gesprekken. In plaats van ze een opdracht te geven en te hopen dat ze het niet vergeten, geef je ze bij elke stap een herinnering. Het is alsof je een robot niet alleen een kaart geeft, maar hem bij elke afslag ook even de weg wijst.

Het is een beetje meer werk om het op te zetten, maar het resultaat is een veel gehoorzamender en preciezer gesprekspartner.

Each language version is independently generated for its own context, not a direct translation.

Titel: Retcon: Een prompt-gebaseerde techniek voor precieze controle van LLM's in gesprekken

Auteurs: David Kogan, Sam Nguyen, Masanori Suzuki, Feiyang Chen (Google)

1. Het Probleem

Grote Taalmodellen (LLM's) zijn uitstekend in het uitvoeren van complexe natuurlijke taakopdrachten, maar het blijft een uitdaging om hun gedrag te sturen binnen meerdere-omgangsgesprekken (multi-turn conversations).

Beperkingen van bestaande methoden: Traditionele technieken zoals zero-shot (instructies zonder voorbeelden) en few-shot prompting (instructies met enkele voorbeeldgesprekken) werken vaak onvoldoende wanneer de gewenste respons afwijkt van de toon of inhoud van eerdere omgangen in het gesprek.
Kosten en complexiteit: Het oplossen van dit probleem door middel van fine-tuning is kostbaar in termen van rekentijd en training, en is voor veel gebruikers niet toegankelijk.
Behoefte: Er is een behoefte aan een prompting-techniek die geen fine-tuning vereist, maar wel een hoge graad van controle biedt op per-omgang-niveau (turn-level control) gedurende een lopend gesprek.

2. Methodologie: Retcon

De auteurs introduceren Retcon (een afkorting van "retconning", verwijzend naar het herschrijven van verhaallijnen in fictie). Het is een geavanceerde few-shot prompting-techniek die het concept van voorbeelden fundamenteel herdefinieert.

Kernprincipes:

Van Gesprek naar Omgang: In traditionele few-shot prompting dient elk volledig voorbeeldgesprek als één voorbeeld. Bij Retcon dient elke individuele omgang (turn) binnen een gesprek als een apart voorbeeld voor het model.
Dynamische Injectie: De prompt wordt geconstrueerd door de geschiedenis van het gesprek (zowel voorbeeldgesprekken als het lopende gesprek) te herschrijven. Voor elke omgang wordt een instructie (bijv. een gewenste moeilijkheidsgraad of toon) direct daarvoor ingevoegd.
Rol van de Evaluatiefunctie: Retcon vereist een geïntegreerde evaluatiefunctie $E(T)$ die de gewenste doelstelling (bijv. "vrolijkheid: 0.5" of "CEFR-niveau B1") voor een gegeven tekst kan meten. Deze functie wordt gebruikt om de instructies te genereren die aan de LLM worden gepresenteerd.

Opbouw van de Retcon-prompt:
In plaats van:
[Intro] + [Voorbeeld 1] + [Voorbeeld 2] + [Huidig Gesprek] + [Instructie]

Ziet de Retcon-prompt er als volgt uit:
[Intro] + [Instructie voor omgang 1] + [Omgang 1] + [Instructie voor omgang 2] + [Omgang 2] + ... + [Huidige Instructie]

Dit creëert een veel dichter patroon van voorbeelden en instructies, waarbij de context van het lopende gesprek direct wordt gebruikt om het model te "leren" hoe het moet reageren op specifieke eisen, zelfs als er geen externe voorbeeldgesprekken zijn.

3. Belangrijkste Bijdragen

Nieuwe Prompting-Paradigma: Retcon verschuift de focus van het leren van volledige conversatiepatronen naar het leren van per-omgang responscontrole.
Efficiëntie zonder Fine-tuning: Het biedt een methode om LLM-gedrag dynamisch aan te passen zonder de hoge kosten van modeltraining.
Validatie op een Nieuw Benchmark: De auteurs hebben een nieuwe dataset en evaluatiemethode ontwikkeld om de aanpassing van een model aan instructies binnen een gesprek te testen (gebaseerd op taalmoeilijkheidsniveaus), aangezien bestaande benchmarks dit niet adequaat dekken.

4. Experimenten en Resultaten

Opzet:

Taak: Een LLM fungeert als een Engelsleraar en moet antwoorden geven op verschillende CEFR-niveaus (A1 t/m C2, van beginner tot expert) binnen een lopend gesprek.
Vergelijking: Zero-shot, traditionele Few-shot, en Retcon.
Data: 20 handgeschreven gesprekken van 20 omgangen elk.
Meting: Gemiddelde Kwartafstand (MSE) tussen de gewenste moeilijkheidsgraad en de daadwerkelijke output van het model.

Resultaten:

Superieure Prestaties: Retcon presteerde significant beter dan zowel zero-shot als traditionele few-shot prompting over een breed scala aan voorbeeldaantallen.
- Beste Retcon resultaat: MSE van 0.544.
- Beste Few-shot resultaat: MSE van 0.659.
Efficiëntie: Retcon bereikte zijn beste resultaten met slechts 4 voorbeeldgesprekken, terwijl few-shot 8 nodig had voor zijn piekprestatie.
Contextlengte: Hoewel Retcon-prompten langer zijn door de extra instructietekst, presteerde het zelfs beter wanneer de vergelijking werd gemaakt op basis van totale contextlengte (karakteraantal).
Zero-shot Vergelijking: Zelfs zonder externe voorbeeldgesprekken (0 examples) presteerde Retcon (MSE 0.821) bijna tweemaal zo goed als traditionele zero-shot (MSE 1.621), omdat elke omgang in het lopende gesprek fungeert als een voorbeeld.

5. Betekenis en Toekomstperspectief

Praktische Toepassingen: Retcon is zeer relevant voor toepassingen zoals klantenservice-agenten (aanpassing van toon), onderwijsassistenten (aanpassing van moeilijkheidsgraad) en interactieve game-personages.
Beperkingen:
- Vereist een geïntegreerde evaluatiefunctie tijdens het uitvoeren (serving path), wat technisch complex kan zijn voor bepaalde taken (bijv. emotiemeting).
- De creatie van kwalitatieve voorbeeldgesprekken en evaluatie-data kan arbeidsintensief zijn.
- De techniek is momenteel alleen getest op Engels en één specifiek model.
Risico's: De verhoogde controle over LLM-gedrag brengt ook risico's met zich mee, zoals het mogelijk maken van subtiele manipulatie (bijv. onopvallende reclame) door kwaadwillende actoren. Transparantie en regelgeving zijn essentieel.

Conclusie:
Retcon biedt een krachtige, prompt-gebaseerde oplossing voor het probleem van dynamische controle in conversaties. Door de context van het gesprek zelf te gebruiken als een reeks van voorbeelden, overtreft het traditionele few-shot prompting aanzienlijk in nauwkeurigheid en flexibiliteit, zonder de noodzaak van kostbare modeltraining.

Retcon -- a Prompt-Based Technique for Precise Control of LLMs in Conversations

Wat is het probleem?

De Oplossing: Retcon (De "Terug in de Tijd"-Techniek)

Hoe werkt het precies?

Wat hebben ze ontdekt?

De Kooltjes en de Aardappelen (De Nadelen)

Conclusie

Titel: Retcon: Een prompt-gebaseerde techniek voor precieze controle van LLM's in gesprekken

1. Het Probleem

2. Methodologie: Retcon

3. Belangrijkste Bijdragen

4. Experimenten en Resultaten

5. Betekenis en Toekomstperspectief

Meer zoals dit

The Moral Foundations Reddit Corpus

Automated stance detection in complex topics and small languages: the challenging case of immigration in polarizing news media

BioMamba: Domain-Adaptive Biomedical Language Models

Multilingual LLMs Struggle to Link Orthography and Semantics in Bilingual Word Processing

Byte-token Enhanced Language Models for Temporal Point Processes Analysis