Chain-of-Thought Reasoning Improves Context-Aware Translation with Large Language Models

Dit onderzoek toont aan dat chain-of-thought redenering de prestaties van grote taalmodellen bij contextbewuste vertaling significant verbetert, waarbij de beste modellen zoals GPT-4 en Phi een 'wijzen worden wijzer'-effect vertonen met accuratesse tot 90% en COMET-scores van ongeveer 92%.

Shabnam Ataee, Hugo Huart, Andrei Popescu-Belis

Gepubliceerd 2026-03-09
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Hier is een uitleg van het onderzoek in eenvoudig Nederlands, met behulp van een paar creatieve vergelijkingen.

De Kern: Slimme Vertalers die "Nadenken"

Stel je voor dat je een vertaler hebt die niet alleen woorden omzet, maar ook de samenhang tussen zinnen begrijpt. Soms is dat lastig. Als je in het Engels zegt: "Ik heb de rivier gezien. Het ziet er mooi uit," dan weet een mens dat "het" verwijst naar de rivier. Maar als je in het Frans vertaalt, moet je weten dat rivier (rivière) vrouwelijk is, dus moet je zeggen "la" en niet "le".

Dit artikel onderzoekt of grote taalmodellen (LLMs) – de slimme AI's zoals GPT-4 – hier beter in worden als je ze vraagt om eerst even na te denken voordat ze antwoorden.

De Proef: Twee Spelletjes

De onderzoekers gebruikten een speciale testset (een soort examen) met twee soorten opgaven:

  1. Het "Aanwijzen"-spel (Contrastieve taak):
    De AI krijgt twee mogelijke vertalingen. De ene is goed, de andere lijkt goed maar heeft een foutje (bijvoorbeeld de verkeerde lidwoord of een verkeerd woord voor "aanval"). De AI moet kiezen welke de juiste is.

    • Vergelijking: Dit is alsof je een leraar bent die twee antwoorden op een proefwerk bekijkt en moet zeggen welk het goede is.
  2. Het "Schrijven"-spel (Vertaalt taak):
    De AI moet de zin zelf vertalen, zonder dat er een voorbeeldoptie wordt gegeven.

    • Vergelijking: Dit is alsof de AI zelf het proefwerk moet maken.

De Magische Knop: "Chain-of-Thought" (Denkstappen)

Normaal gesproken vragen we een AI: "Vertaal deze zin."
In dit onderzoek vroegen we sommige AI's: "Vertaal deze zin, maar leg eerst stap voor stap uit waarom je dit woord kiest."

Dit noemen ze Chain-of-Thought (een keten van gedachten). Het is alsof je iemand vraagt niet alleen het antwoord te geven, maar ook zijn rekenwerk op het papier te zetten.

Wat Vonden Ze? De "Wise Get Wiser" Regels

Hier komen de belangrijkste bevindingen, vertaald naar alledaagse taal:

1. De Slimmen Worden Slimmer (Wise Get Wiser)
Dit is de meest interessante ontdekking. Je zou denken dat "nadenken" vooral helpt voor de minder slimme leerlingen. Maar nee!

  • De slimste modellen (zoals GPT-4o en Phi-4) werden nog veel slimmer toen ze mochten nadenken. Hun score steeg enorm.
  • De minder sterke modellen (zoals sommige kleinere Llama- of Mistral-versies) raakten in de war door de instructie om te "nadenken". Ze maakten juist meer fouten of gaven onzin antwoorden.
  • Vergelijking: Stel je hebt een meesterchef en een beginnende kok. Als je de meesterchef vraagt om zijn recept stap voor stap uit te leggen terwijl hij kookt, wordt het gerecht nog lekkerder. Maar als je de beginnende kok vraagt om alles uit te leggen terwijl hij kookt, verbrandt hij de pan. De slimste AI's kunnen het "nadenken" gebruiken als een superkracht; de minder slimme raken erdoor in de war.

2. Het Resultaat

  • Bij het "Aanwijzen"-spel haalden de beste modellen met de "nadenk"-methode bijna 90-97% juiste antwoorden. Dat is een nieuw wereldrecord voor deze specifieke test.
  • Bij het "Schrijven"-spel (de echte vertaling) verbeterde de kwaliteit ook, vooral bij de slimste modellen. Ze maakten minder fouten in de samenhang tussen zinnen.

3. De Kosten van Nadenken
Nadenken kost tijd en geld (rekenkracht).

  • De modellen die moesten nadenken, gaven soms lange, gedetailleerde antwoorden (soms honderden woorden aan uitleg voordat ze de vertaling gaven).
  • Voor de kleinere modellen was dit niet de moeite waard: het kostte meer tijd en leverde geen betere vertaling op.
  • Voor de grote modellen (zoals GPT-4o) was het de moeite waard: de extra tijd leverde een veel betere vertaling op.

Conclusie in Eén Zin

Dit onderzoek laat zien dat de slimste AI's het beste presteren als je ze vraagt om eerst hun gedachten te ordenen, net als een mens die even stopt om na te denken voordat hij een moeilijk antwoord geeft. Maar voor de minder sterke AI's werkt deze methode juist averechts: ze worden dan verward in plaats van slimmer.

Het is dus niet voor iedereen een goede tip om "eerst na te denken"; het werkt alleen voor degenen die al slim genoeg zijn om die gedachtenketen goed te volgen.