Each language version is independently generated for its own context, not a direct translation.
Stel je voor dat je een zeer slimme, maar soms wat overgevoelige vertaler hebt: Whisper. Deze vertaler kan urenlang audio opnemen en omzetten in tekst. Maar als je een heel lang gesprek laat vertalen, begint hij soms te "hallucineren". Hij verzint woorden die niet gezegd zijn, blijft in een kringetje hangen (herhalingen) of slaat hele zinnen over.
Het ergste is: als hij een fout maakt in het eerste stukje van het gesprek, gebruikt hij die fout als basis voor het volgende stukje. De fouten stapelen zich op, net als een dominosteenrij die nooit stopt.
De auteurs van dit papier hebben een oplossing bedacht die ze Whisper-CD noemen. Ze hoeven de vertaler niet opnieuw te leren (geen "retraining"), maar geven hem een slimme truc mee tijdens het vertalen. Hier is hoe het werkt, uitgelegd met een paar alledaagse vergelijkingen:
1. Het Probleem: De "Dronken Vertaler"
Stel je voor dat je een vertaler hebt die net een beetje te veel koffie heeft gedronken. Als hij een gesprek vertaalt, begint hij soms dingen te verzinnen die niet gebeurd zijn, omdat hij denkt dat hij het moet horen. Als hij eenmaal begint met verzinnen, blijft hij dat doen, alsof hij in een droomland zit.
2. De Oplossing: De "Realiteitscheck"
Whisper-CD werkt als een dubbelcheck-systeem. Terwijl de vertaler de tekst schrijft, doet hij tegelijkertijd drie andere dingen om te controleren of hij niet aan het fantaseren is. Het is alsof je een spiegel voorhoudt, maar dan met drie verschillende vervormingen:
- De "Ruis-test" (Gaussian Noise): De vertaler krijgt het gesprek te horen alsof er een storm buiten waait en er statische ruis op de radio zit. Als hij dan toch nog dezelfde woorden "hoort" en vertaalt, zijn die woorden waarschijnlijk niet echt, maar uit zijn eigen verbeelding.
- De "Stilte-test" (Silence Signal): De vertaler krijgt een volledig stil geluid te horen (alsof er niemand praat). Als hij dan toch nog woorden begint te typen (bijvoorbeeld "Bedankt voor het kijken"), dan weten we: "Aha! Hij fantaseert nu!"
- De "Tijdsverschuiving" (Temporal Shift): De vertaler krijgt het gesprek te horen alsof de tijd een beetje is opgeschoven (bijvoorbeeld alsof hij de volgende zin al hoort voordat de vorige klaar is). Als hij hierdoor in de war raakt en fouten maakt, weten we dat hij te veel afhankelijk is van de context en niet echt naar het geluid luistert.
3. De Slimme Truc: De "Gedachtenkrant"
Normaal gesproken kijkt de vertaler alleen naar het echte geluid. Bij Whisper-CD doet hij dit:
- Hij luistert naar het echte gesprek.
- Hij luistert tegelijkertijd naar de drie vervormde versies (ruis, stilte, verschoven tijd).
- Hij vergelijkt wat hij in het echte gesprek denkt te horen, met wat hij in de vervormde versies denkt te horen.
Als hij in het echte gesprek een woord kiest dat hij ook kiest als er alleen ruis of stilte is, zegt het systeem: "Wacht even! Dat woord komt waarschijnlijk uit je eigen hoofd, niet uit het gesprek. Laten we dat woord negeren."
Het is alsof je een detective bent die drie getuigen vraagt naar een gebeurtenis. Als de echte getuige iets zegt, maar de drie getuigen die onder invloed van drugs (de vervormingen) zitten, zeggen exact hetzelfde, dan is de echte getuige waarschijnlijk ook aan het liegen of hallucineren.
4. Waarom is dit geweldig?
- Geen nieuwe training: Je hoeft de vertaler niet opnieuw te leren. Het is een "plug-and-play" trucje dat je gewoon toevoegt aan wat je al hebt.
- Snelheid: Het is veel sneller dan de oude manier om fouten te voorkomen (waarbij je 5 of 10 verschillende versies van de tekst probeerde en de beste koos). Whisper-CD is bijna net zo snel als het normale vertalen, maar veel accurater.
- Geen herhalingen: Het breekt die vervelende kringetjes waarin de vertaler blijft hangen (bijvoorbeeld: "en toen... en toen... en toen...").
Samenvattend
Whisper-CD is als een waakhond die naast de vertaler staat. Terwijl de vertaler werkt, fluistert de waakhond: "Hé, dat woord klinkt verdacht. Als ik het gesprek met ruis zou horen, zou je dat woord ook zeggen? Nee? Dan is het waarschijnlijk een hallucinatie. Laten we het weglaten."
Hierdoor krijgen we veel schonere, betrouwbaardere transcripties van lange gesprekken, zonder dat de computer trager wordt of dat we de software opnieuw hoeven te bouwen.