Do LLMs Truly Benefit from Longer Context in Automatic Post-Editing?

Each language version is independently generated for its own context, not a direct translation.

De Grote Context-Test: Helpt het om het hele boek te lezen voor één zin?

Stel je voor dat je een vertaler bent. Je krijgt een zin uit een boek om te vertalen.

De oude manier (APEseg): Je kijkt alleen naar die ene zin. Je vertaalt hem en bent klaar.
De nieuwe manier (APEdoc): Je krijgt het hele boek mee. Je leest de vorige hoofdstukken, de sfeer, de personages, en probeert die ene zin te vertalen met die extra kennis.

De vraag die deze onderzoekers (Ahrii Kim en Seong-heum Kim) stellen, is: Is die extra kennis van het hele boek echt nodig voor moderne AI-vertalers (LLMs), of is het gewoon een dure en trage manier om hetzelfde te doen?

Ze hebben dit getest met verschillende "hersenen" van AI: de dure, gesloten modellen (zoals GPT-4o van OpenAI) en de goedkopere, open modellen (zoals LLaMA en Qwen).

Hier zijn de belangrijkste bevindingen, vertaald in alledaagse taal:

1. De "Super-Vertaler" doet het prima zonder het hele boek

De dure AI-modellen (zoals GPT-4o) zijn als een ervaren chef-kok. Als je ze vraagt om een gerecht te maken, doen ze dat al perfect, zelfs als je ze alleen de ingrediënten van dat ene gerecht geeft. Ze hoeven niet het hele restaurant te inspecteren om te weten hoe ze een ei moeten koken.

Het resultaat: Deze modellen vertalen bijna net zo goed als een mens, zelfs zonder het document-context. Ze zijn zo slim dat ze de context van de hele zin al "in hun hoofd" hebben.

2. De "Leerling-Kok" raakt in de war

De goedkopere, open modellen (zoals LLaMA) zijn als een leerling-kok die nog veel moet leren. Als je ze het hele boek geeft, raken ze overprikkeld.

Het probleem: Ze beginnen dingen te verzinnen die er niet staan (hallucinaties) of ze vergeten wat ze eigenlijk moesten doen. Het is alsof je een leerling in een drukke keuken zet met 100 recepten tegelijk; in plaats van te focussen op het ene gerecht, begint hij te koken met de verkeerde ingrediënten uit een ander recept.
Het risico: Ze worden vaak "vergiftigd" door de extra informatie. Ze lezen de hele tekst en vergeten dan de opdracht om alleen die ene zin te verbeteren.

3. De "Dure Rekening" (Kosten en Snelheid)

Dit is misschien wel het belangrijkste punt. Het gebruik van het hele document is extreem duur en traag.

De analogie: Stel je voor dat je een boodschappenlijstje wilt maken.
- Zonder context: Je loopt de supermarkt in, pakt de producten en gaat naar huis. (Snel, goedkoop).
- Met context: Je moet eerst het hele magazijn van de supermarkt doorlopen, elke schaal bekijken, voordat je ook maar één product pakt. (Zeer traag, kost enorm veel energie en geld).
De bevinding: Voor de dure AI-modellen kost het gebruik van het hele document 4.300% meer geld en 146% meer tijd. Voor de goedkope modellen is het zelfs nog erger qua snelheid. Het is alsof je een Ferrari gebruikt om een blokje om te doen, terwijl je gewoon met de fiets had gekund.

4. De "Onzichtbare" Verbetering

Soms maakt de AI met de hele context wel een betere vertaling (bijvoorbeeld door de toon aan te passen, zoals van formeel naar informeel). Maar de automatische meetinstrumenten (zoals een "scoremeter" voor vertalingen) zien dit niet.

De analogie: Het is alsof je een schilderij maakt. De automatische meter zegt: "De kleuren zijn hetzelfde, dus de kwaliteit is gelijk." Maar een mens kijkt er naar en zegt: "Ah, deze versie heeft een veel mooiere sfeer." De computer ziet de nuance niet, alleen de mens wel.

Conclusie: Is het de moeite waard?

Het antwoord van de onderzoekers is een groot "Nee" voor nu, tenzij je heel specifieke, moeilijke taken hebt.

Voor de dure AI: Het werkt goed, maar het is te duur en te traag om het hele document erbij te halen. Je krijgt voor je geld niet veel meer dan je al had.
Voor de goedkope AI: Het werkt vaak slechter. Ze raken in de war door de extra informatie en maken meer fouten dan nodig.

De les voor de toekomst:
We moeten niet zomaar "meer context" gooien naar AI. In plaats daarvan moeten we slimme manieren vinden om de AI alleen de belangrijke stukjes van het document te laten lezen, net zoals een mens die snel scant naar de relevante informatie in plaats van het hele boek woord voor woord te lezen.

Kortom: Soms is "minder meer" beter, zeker als je niet wilt betalen voor een dure, trage rit die je toch niet nodig hebt.

Do LLMs Truly Benefit from Longer Context in Automatic Post-Editing?

De Grote Context-Test: Helpt het om het hele boek te lezen voor één zin?

1. De "Super-Vertaler" doet het prima zonder het hele boek

2. De "Leerling-Kok" raakt in de war

3. De "Dure Rekening" (Kosten en Snelheid)

4. De "Onzichtbare" Verbetering

Conclusie: Is het de moeite waard?

Titel: Do LLMs Truly Benefit from Longer Context in Automatic Post-Editing?

1. Probleemstelling

2. Methodologie

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Do LLMs Truly Benefit from Longer Context in Automatic Post-Editing?

De Grote Context-Test: Helpt het om het hele boek te lezen voor één zin?

1. De "Super-Vertaler" doet het prima zonder het hele boek

2. De "Leerling-Kok" raakt in de war

3. De "Dure Rekening" (Kosten en Snelheid)

4. De "Onzichtbare" Verbetering

Conclusie: Is het de moeite waard?

Titel: Do LLMs Truly Benefit from Longer Context in Automatic Post-Editing?

1. Probleemstelling

2. Methodologie

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models