TurnWise: The Gap between Single- and Multi-turn Language Model Capabilities

Each language version is independently generated for its own context, not a direct translation.

Turnwise: Waarom slimme chatbots soms vergeten wat je eerder zei

Stel je voor dat je een gesprek voert met een zeer intelligente, maar soms wat vergeetachtige vriend. Als je in één zin vraagt: "Wat is de beste pizza in Amsterdam?", geeft hij een perfect antwoord. Maar als je daarna vraagt: "En wat als ik vegetarisch ben?" en vervolgens: "En heb je daar een plek met een terras?", begint hij soms te struikelen. Hij vergeet dat je net over vegetarisch eten had gesproken, of hij raakt de draad kwijt.

Dit is precies het probleem dat dit onderzoek, genaamd Turnwise, aanpakt.

Het Probleem: De "Eén-op-Deen" Valkuil

Tot nu toe zijn slimme taalmodellen (zoals de AI's die we vandaag gebruiken) vooral getraind op één-op-één gesprekken. Het is alsof ze alleen maar hebben geoefend voor een sollicitatiegesprek van 5 minuten, maar nu ineens moeten werken als een echte vriend die urenlang met je kan kletsen.

De onderzoekers zeggen: "We trainen ze op de verkeerde manier." De meeste data die we gebruiken om deze AI's slimmer te maken, bestaat uit losse vragen en antwoorden. Er wordt niet genoeg gekeken naar hoe ze reageren in een doorlopend gesprek, waar context en herinnering cruciaal zijn.

Oplossing 1: De Nieuwe Test (TurnwiseEval)

Om te zien hoe goed een AI echt is in lange gesprekken, hebben de onderzoekers een nieuwe test bedacht, TurnwiseEval.

De Analogie: Stel je voor dat je twee sporters meet.
- Test A: Ze rennen een enkele sprint van 100 meter (één vraag, één antwoord).
- Test B: Ze rennen een marathon met obstakels (een lang gesprek met veel vragen).
- De onderzoekers vergelijken nu niet alleen of de marathonloper snel is, maar kijken specifiek naar het verschil tussen zijn sprinttijd en zijn marathontijd.

Met deze test ontdekten ze iets verrassends: Zelfs de allerbeste AI's (zoals GPT-5) doen het in lange gesprekken vaak slechter dan in korte gesprekken. Ze verliezen de draad, net als onze vergeetachtige vriend.

Oplossing 2: De Nieuwe Trainingsmethode (TurnwiseData)

Hoe maak je een AI die goed is in lange gesprekken? Je moet haar laten oefenen met lange gesprekken. Maar echte menselijke gesprekken verzamelen is duur en moeilijk.

Dus bedachten de onderzoekers TurnwiseData. Dit is een slimme manier om kunstmatige gesprekken te genereren.

De Analogie: In plaats van te wachten tot iemand je een vraag stelt en dan pas een antwoord te geven, laten we de AI "met zichzelf praten" (een beetje zoals een acteur die een scène repeteert).
1. De AI krijgt een startvraag.
2. De AI bedenkt zelf: "Wat zou een mens nu als vervolg vragen?" (bijvoorbeeld: "Waarom is dat zo?" of "Kun je dat uitleggen?").
3. De AI antwoordt daarop.
4. Dit proces herhaalt zich, waardoor er een lang, logisch gesprek ontstaat.

Dit is als het bouwen van een trainingsbaan voor een atleet: je creëert zelf de obstakels die je nodig hebt om sterker te worden, in plaats van te hopen dat ze toevallig op de weg verschijnen.

Wat leerden ze?

Toen ze een AI (Olmo 3) trainden met deze nieuwe, kunstmatige lange gesprekken, gebeurde er iets magisch:

Kleine hoeveelheid, groot effect: Ze hoefden maar 10.000 van deze kunstmatige gesprekken toe te voegen aan de training. Dat is een druppel op een gloeiende plaat in vergelijking met de enorme datasets die normaal worden gebruikt.
Groot resultaat: De prestaties van de AI in lange gesprekken verbeterden met maar liefst 12%.
Geen schade: De AI werd niet dommer in korte gesprekken; hij werd gewoon beter in het onthouden van de context.

Conclusie

De boodschap van dit onderzoek is simpel: Om een AI echt slim te maken voor het echte leven, moeten we stoppen met alleen maar korte vragen te stellen. We moeten ze laten oefenen in lange, doorlopende gesprekken.

Met hun nieuwe methode (TurnwiseData) en hun nieuwe test (TurnwiseEval) hebben ze laten zien dat zelfs een klein beetje extra "gesprekstraining" een enorm verschil maakt. Het is alsof je je vriend niet alleen leert hoe hij een vraag beantwoordt, maar ook hoe hij een heel gesprek volhoudt zonder de draad kwijt te raken.

TurnWise: The Gap between Single- and Multi-turn Language Model Capabilities

Het Probleem: De "Eén-op-Deen" Valkuil

Oplossing 1: De Nieuwe Test (TurnwiseEval)

Oplossing 2: De Nieuwe Trainingsmethode (TurnwiseData)

Wat leerden ze?

Conclusie

Probleemstelling

Methodologie

1. TURNWISEEVAL: De Evaluatie Benchmark

2. TURNWISEDATA: Synthetische Data Generatie

Kernresultaten

Belangrijkste Bijdragen

Significantie en Conclusie

TurnWise: The Gap between Single- and Multi-turn Language Model Capabilities

Het Probleem: De "Eén-op-Deen" Valkuil

Oplossing 1: De Nieuwe Test (TurnwiseEval)

Oplossing 2: De Nieuwe Trainingsmethode (TurnwiseData)

Wat leerden ze?

Conclusie

Probleemstelling

Methodologie

1. TURNWISEEVAL: De Evaluatie Benchmark

2. TURNWISEDATA: Synthetische Data Generatie

Kernresultaten

Belangrijkste Bijdragen

Significantie en Conclusie

Meer zoals dit

Caption First, VQA Second: Knowledge Density, Not Task Format, Drives Multimodal Scaling

WorkRB: A Community-Driven Evaluation Framework for AI in the Work Domain

Text-as-Signal: Quantitative Semantic Scoring with Embeddings, Logprobs, and Noise Reduction

A Multi-Model Approach to English-Bangla Sentiment Classification of Government Mobile Banking App Reviews

KMMMU: Evaluation of Massive Multi-discipline Multimodal Understanding in Korean Language and Context