Evaluating Explainable AI Attribution Methods in Neural Machine Translation via Attention-Guided Knowledge Distillation

Dit artikel introduceert een nieuwe methode om XAI-attributiemethoden voor neurale machinevertaling te evalueren via attention-geleide kennisdistillatie, waarbij wordt vastgesteld dat op attention gebaseerde attributiemethoden de meest consistente verbeteringen in vertaalkwaliteit opleveren.

Aria Nourbakhsh, Salima Lamsiyah, Adelaide Danilov, Christoph Schommer

Gepubliceerd 2026-03-13
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

🧠 De "Zwarte Doos" en de Slimme Leerling

Stel je voor dat je een zeer slimme, maar mysterieuze vertaler hebt (een kunstmatige intelligentie). Deze vertaler kan perfect Nederlands naar Engels vertalen, maar niemand weet precies hoe hij dat doet. Hij is een "zwarte doos". Als hij het woord "hond" vertaalt als "dog", weten we niet of hij dat deed omdat hij "hond" zag, of omdat hij "kat" zag en per ongeluk "dog" dacht.

Om dit op te lossen, hebben wetenschappers methoden bedacht om te kijken waar de AI naar "kijkt" terwijl hij werkt. Dit noemen ze XAI (Explainable AI). Het is alsof je een warmtebeeldcamera op de AI zet om te zien welke woorden het heet (belangrijk) vindt.

Het probleem: Er zijn tientallen van deze "warmtebeeldcamera's". Maar welke is de beste? Sommige zeggen: "Kijk naar het eerste woord!", andere zeggen: "Kijk naar het laatste!". Hoe weet je wie gelijk heeft?

🎓 De Oplossing: De Meester en de Leerling

De auteurs van dit paper hebben een slimme truc bedacht om dit uit te zoeken. Ze gebruiken een meester-leerling scenario:

  1. De Meester (Teacher): Een al getrainde, slimme AI die al goed kan vertalen. We halen de "warmtebeelden" (de attributiekaarten) van deze meester.
  2. De Leerling (Student): Een nog ongetrainde, slimmerke AI die nog niets kan.
  3. De Test: We geven de leerling de vertalingstaken, maar we "flitsen" de warmtebeelden van de meester in zijn hoofd. We zeggen: "Kijk hierheen, dit is belangrijk!"

De logica: Als de warmtebeelden van de meester echt goed zijn (d.w.z. ze tonen waar hij écht naar kijkt), dan zou de leerling hierdoor veel sneller en beter moeten leren vertalen. Als de warmtebeelden slecht of willekeurig zijn, helpt het de leerling niet, of maakt het hem zelfs verward.

Het is alsof je een leerling een kaart geeft:

  • Goede kaart: "De schat ligt bij de grote eik." -> De leerling vindt de schat snel.
  • Slechte kaart: "De schat ligt bij de grote eik" (terwijl de eik er niet is). -> De leerling loopt in het rond.

🛠️ Hoe hebben ze het gedaan?

Ze hebben 8 verschillende methoden getest om die "warmtebeelden" te maken. Ze hebben deze methoden op drie verschillende talenparen getest (Duits-Engels, Frans-Engels, Arabisch-Engels).

Ze probeerden de kaarten op vier manieren in het hoofd van de leerling te steken:

  1. Optellen: De kaart wordt als een extra hint toegevoegd.
  2. Vermenigvuldigen: De kaart werkt als een filter (belangrijke woorden worden harder, onbelangrijke worden zacht).
  3. Gemiddelde: Een mix van de eigen gedachten van de leerling en de kaart.
  4. Vervangen: De leerling negeert zijn eigen gedachten en kijkt alleen naar de kaart.

🏆 De Resultaten: Wie wint er?

Na veel rekenwerk en testen kwamen ze tot een paar duidelijke winnaars:

  • De Winnaars: Methodes die gebaseerd zijn op de aandacht van de AI zelf (Attention) en methodes die kijken wat er gebeurt als je een woord "weghaalt" (Value Zeroing), deden het het beste. De leerling werd hierdoor enorm beter.
  • De Verliezers: Methoden die puur op wiskundige berekeningen van veranderingen (gradiënten) gebaseerd zijn, deden het minder goed. Ze gaven soms zelfs verkeerde hints.
  • De Locatie: Het bleek het meest effectief om de hints in het eerste deel van de AI (de encoder, waar de zin wordt gelezen) te geven, in plaats van in het tweede deel (waar de vertaling wordt geschreven).

🔍 Waarom werkt dit? (De "Attributor")

De onderzoekers wilden ook weten waarom sommige methoden beter werken. Ze bedachten een nieuw model, de Attributor. Dit is een AI die probeert de "warmtebeelden" van de meester na te tekenen.

De ontdekking:
De methoden die het beste werkten voor de leerling, waren precies die methoden waarvan de "warmtebeelden" het makkelijkst na te tekenen waren door de Attributor.

De Metafoor:
Stel je voor dat de "warmtebeelden" een tekening zijn van een landschap.

  • Sommige methoden tekenen een landschap dat zo complex en chaotisch is dat zelfs een kunstenaar (de Attributor) het niet kan nabootsen.
  • De beste methoden tekenen een landschap dat helder en logisch is: "Hier staat een boom, daar een huis."
  • De leerling (de vertaler) kan alleen goed werken als de tekening die hij krijgt, logisch en nabootsbaar is. Als de tekening te gek is, raakt hij in de war.

💡 Conclusie in het kort

  1. Niet alle uitleg-methodes zijn gelijk: Sommige geven betere hints dan andere.
  2. De beste hints zijn logisch: De methoden die het meest lijken op hoe een AI natuurlijk "kijkt" (aandacht), werken het beste.
  3. Simulatie is de sleutel: Als een AI een uitleg kan nabootsen, is die uitleg waarschijnlijk nuttig voor een andere AI om beter te presteren.

Kortom: Om te weten welke "uitleg" van een AI goed is, moet je kijken of die uitleg helpt om een andere AI slimmer te maken. En de beste uitleg is die die het meest logisch en voorspelbaar is.