The Logovista English-Japanese Machine Translation System

Each language version is independently generated for its own context, not a direct translation.

Het Logovista-vertelmechanisme: Een reis door de tijd

Stel je voor dat je een enorme, oude fabriek hebt die vertaalt. In plaats van dat deze fabriek leert door miljoenen voorbeelden te 'lezen' (zoals moderne AI dat doet), werkt deze fabriek volgens een gigantisch, handgeschreven receptenboek. Dit is het verhaal van het Logovista-systeem, een computerprogramma dat van de jaren '90 tot 2012 Engels naar het Japans vertaalde.

De auteur van dit paper, Barton Wright, was de hoofdingenieur van deze fabriek. Hij schrijft nu in 2026 terug om te vertellen hoe het werkte, hoe het groeide en waarom het uiteindelijk stopte. Het doel is niet om te zeggen dat we dit systeem weer moeten gebruiken, maar om een historisch verslag te maken voor de toekomst.

Hier is hoe het in de praktijk werkte, vertaald in alledaagse beelden:

1. De Bouwstenen: Een handgemaakte stad

Het systeem was geen 'zwarte doos' die vanzelf leerde. Het was meer als een stad die volledig op papier was getekend voordat er ook maar één steen werd gelegd.

De Grammatica: Dit was de blauwdruk. Taalkundigen schreven duizenden regels op over hoe Engelse zinnen zijn opgebouwd.
Het Woordenboek: Dit was de enorme bibliotheek in het centrum van de stad. Elke woord had een kaartje met daarop niet alleen de betekenis, maar ook regels over waar het mag staan en wat het mag doen (bijvoorbeeld: "Het woord 'eten' mag alleen bij een persoon, niet bij een rots").
De Software: Dit was de straten en het verkeerssysteem dat zorgde dat alles op de juiste plek kwam.

2. Hoe het vertaalde: De detective en de jury

Wanneer je een Engelse zin invoerde, gebeurde er een wonderlijke dans in drie stappen:

De Splitsing (De Pre-parser): De computer splitste de zin op in losse stukjes, net als een kok die groenten in blokjes snijdt.
De Boom (De Chart-parser): De computer probeerde alle mogelijke manieren om die blokjes tot een zin te maken. Stel je voor dat je een legpuzzel hebt met 1000 stukjes. De computer probeerde niet één oplossing, maar alle mogelijke puzzels tegelijk.
De Jury (Scoring): Omdat er vaak duizenden mogelijke puzzels waren, moest er een winnaar worden gekozen. Hiervoor hadden ze een jury van experts.
- Expert A keek of het woord vaak voorkomt.
- Expert B keek of de betekenis logisch is (bijv. "de rots eet" is raar, dus die krijgt een strafpunt).
- Expert C keek naar de zinsbouw.

De computer gaf punten aan elke mogelijke vertaling. De winnaar was de vertaling met de hoogste score. Om de computer niet te laten crashen door te veel opties, gebruikten ze snoeiheken: als een optie te raar leek, werd die direct weggegooid voordat de jury er zelfs maar naar keek.

3. Het probleem: De chaos van de keuzes

Het moeilijkste deel was dat het systeem soms 10^35 (een 1 met 35 nullen) mogelijke vertalingen had voor één zin. Dat is meer dan het aantal zandkorrels op aarde!

De Analogie: Stel je voor dat je een restaurantmenu hebt. Als je "hamburger" zegt, wil je waarschijnlijk een gewone hamburger. Maar als je "hamburger met kaas, friet en cola" zegt, moet de kok weten dat je geen "hamburger met kaas, maar dan als dessert" bedoelt.
Het systeem moest constant kiezen tussen miljoenen wegen. Als ze een nieuwe regel toevoegden om een specifiek probleem op te lossen, kon het zijn dat ze per ongeluk een ander, goed werkend probleem verstoorden. Dit noemen ze regressie: iets dat gisteren werkte, werkt vandaag niet meer omdat je ergens anders een schroefje hebt vastgedraaid.

4. De menselijke touch: Waarom gebruikers niet wilden helpen

Het systeem had een speciale functie: als de computer twijfelde, kon de gebruiker zelf zeggen: "Kies optie A" of "Dit woord betekent hier X".

De Realiteit: Dit was als een auto met een knopje "Help de bestuurder". Technisch werkte het perfect, maar mensen waren lui. Ze wilden gewoon op "Start" drukken en een antwoord krijgen, zelfs als het antwoord niet 100% perfect was. Niemand wilde de computer helpen met de puzzel.

5. De groei en de val

In het begin was het systeem slim voor standaardzinnen. Maar naarmate ze meer woorden en regels toevoegden om ook moeilijke teksten te kunnen vertalen, werd het systeem traag en onvoorspelbaar.

De Analogie: Het was alsof je een huis bouwt. Eerst was het een eenvoudig huis. Toen je er een verdieping bijbouwde, moest je de fundering aanpassen. Toen je nog een verdieping toevoegde, begon het dak te lekken. Uiteindelijk werd het huis zo complex dat je niet meer wist welke steen je weg kon halen zonder dat het hele huis instortte.
Het toevoegen van nieuwe regels maakte de "puzzel" zo ingewikkeld dat het moeilijk werd om fouten te repareren zonder nieuwe fouten te maken.

6. Het erfgoed: De kist in de kelder

Toen het bedrijf in 2012 stopte, nam de auteur een kist mee met alles wat er was:

De volledige software (geschreven in C++).
De duizenden regels en woordenboeken.
De versiegeschiedenis (een logboek van elke verandering die ooit is gemaakt).
Duizenden voorbeeldzinnen om te testen of het nog steeds werkte.

Deze kist ligt nu veilig bewaard. De auteur wil niet dat het bedrijf weer begint, maar hoopt dat toekomstige onderzoekers (misschien over 50 jaar) deze kist kunnen openen om te zien hoe mensen vroeger probeerden computers taal te leren geven, voordat we AI gebruikten die vanzelf leert.

Samenvattend

Dit paper is geen handleiding om een nieuwe vertaalmachine te bouwen, maar een museumstuk. Het laat zien hoe ingenieurs en taalkundigen samenwerkten om een machine te bouwen die "dacht" met regels in plaats van met statistieken. Het was een indrukwekkend project dat jarenlang werkte, maar uiteindelijk de grenzen bereikte van hoe complex een handgeschreven systeem kan worden voordat het te ingewikkeld wordt om te beheersen.

The Logovista English-Japanese Machine Translation System

Het Logovista-vertelmechanisme: Een reis door de tijd

1. De Bouwstenen: Een handgemaakte stad

2. Hoe het vertaalde: De detective en de jury

3. Het probleem: De chaos van de keuzes

4. De menselijke touch: Waarom gebruikers niet wilden helpen

5. De groei en de val

6. Het erfgoed: De kist in de kelder

Samenvattend

Technische Samenvatting: Het Logovista Engels–Japans Machinevertaalsysteem

Meer zoals dit

The Moral Foundations Reddit Corpus

Automated stance detection in complex topics and small languages: the challenging case of immigration in polarizing news media

BioMamba: Domain-Adaptive Biomedical Language Models

Multilingual LLMs Struggle to Link Orthography and Semantics in Bilingual Word Processing

Byte-token Enhanced Language Models for Temporal Point Processes Analysis