Interpretable-by-Design Transformers via Architectural Stream Independence

Dit paper introduceert een nieuw transformer-ontwerp met architecturale stroomonafhankelijkheid, genaamd Late Fusion Architecture (LFA), dat interpretatie door ontwerp mogelijk maakt door symbolische en semantische informatie gescheiden te houden totdat de uitvoer, waardoor modellen minder afhankelijk worden van positiële heuristieken en meer van semantisch begrip.

Clayton Kerce, Alexis Fox

Gepubliceerd 2026-03-10
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

De Kern: Een Transparante Keuken voor AI

Stel je een groot restaurant voor (een Transformer-model, de technologie achter slimme chatbots). Tot nu toe werken deze restaurants als een geheime keuken. De chef-kok (het model) pakt ingrediënten (woorden), doet ze in een grote blender, mixt ze tot een ondoorzichtig soepje en serveert het resultaat. We weten wat er in het bord zit, maar we hebben geen idee welke kok precies welke kruiden heeft toegevoegd of waarom de soep op die manier smaakte. Als de soep vies smaakt (de AI maakt een fout), kunnen we niet zeggen: "Ah, kok nummer 3 heeft te veel peper gebruikt," omdat alles door elkaar is gemengd.

De auteurs van dit paper, Clay en Alexis, zeggen: "Laten we de keuken anders inrichten."

Ze hebben een nieuw ontwerp bedacht, de Late Fusion Architecture (LFA). In plaats van alles direct te blenderen, houden ze twee aparte banen open die pas op het allerlaatste moment samenkomen.


Hoe werkt het? De "Twee Sporen"

Stel je voor dat de AI twee parallelle treinrails heeft:

  1. De "Naamlijst"-trein (Symbolische Stroom): Deze trein draagt alleen de namen van de passagiers en hun volgorde. "Tim zit op stoel 1, de sleutel op stoel 2." Deze trein wordt niet aangepast. Hij blijft precies zoals hij is, schoon en onveranderd, van begin tot eind. Hij is als een strakke, ongeschonden lijst met namen.
  2. De "Verhaal"-trein (Contextuele Stroom): Deze trein is de creatieve kok. Hij leest de namen van de eerste trein, maar hij mag alleen zijn eigen notities maken. Hij denkt na over wat de woorden betekenen, hoe ze samenhangen en wat er gebeurt. Hij schrijft zijn gedachten op een apart blokje.

Het grote geheim: In de oude modellen (Standard Transformers) worden deze twee treinen direct bij de start samengevoegd. De namen worden in de soep gegooid en verdampt. In het nieuwe model (LFA) blijven ze gescheiden tot het moment dat het gerecht wordt geserveerd (het antwoord).

Waarom is dit zo slim? (De Vergelijkingen)

1. De "Schaar" vs. De "Blender"

In de oude modellen is alles verward. Als je wilt weten waarom de AI dacht dat "Tim" de sleutel vasthield en niet de doos, moet je proberen de soep terug te draaien. Dat is onmogelijk.
In het nieuwe model is het alsof je een chirurgische schaar hebt. Omdat de "Naamlijst" en het "Verhaal" gescheiden zijn, kun je de "Naamlijst" even stilleggen (de trein laten stoppen) en kijken wat er gebeurt.

  • Resultaat: Als je de "Naamlijst" stopt, blijft het verhaal nog steeds logisch. De AI begrijpt nog steeds wat een "sleutel" is, zelfs als hij de positie niet meer ziet. Dit noemen ze functionele transparantie. Je kunt de machine "chirurgisch" opereren zonder de patiënt te doden.

2. De "Vaste Vriend" vs. De "Wisselende Buren"

Stel je voor dat je een groep vrienden hebt die een verhaal vertellen.

  • Oude modellen: Iedereen zit door elkaar. Soms kijkt iemand naar de persoon links, soms naar rechts, afhankelijk van hoe de wind staat. Het is een chaos van blikken.
  • Nieuwe model (LFA): Er is een speciale vriend (een "specialist") die zich altijd bezighoudt met het volgen van de namen. Hij zit op een vast plekje in de trein (in de diepere lagen van het model) en kijkt altijd naar de juiste persoon, ongeacht waar die persoon zit.
  • Voorbeeld: Als de zin is "Tim zag een sleutel en een doos. Hij gebruikte het," weet de AI dat "het" de sleutel is (want je gebruikt een sleutel, geen doos). In de oude modellen was dit een gok. In het nieuwe model is het een vaste, betrouwbare regel die je kunt zien en controleren.

Wat hebben ze bewezen?

De auteurs hebben dit getest met kleine modellen (vergelijkbaar met een klein restaurantje in plaats van een Michelin-sterrenzaak, maar de principes zijn hetzelfde).

  • De "Verdwijnende" Sporen: In de oude modellen verdwijnt de informatie over de volgorde van woorden al na een paar lagen (zoals een sneeuwpop die smelt in de zon). Na 2 lagen is de "Naamlijst" weg.
  • De "Bestaande" Sporen: In het nieuwe model blijft de "Naamlijst" helder tot het allerlaatste moment. Ze hebben een meetlat (de PDS-score) gebruikt om te laten zien dat in het nieuwe model de volgorde nog steeds duidelijk zichtbaar is, terwijl hij in de oude modellen al lang weg was.

Wat betekent dit voor ons?

Vroeger moesten we AI's analyseren nadat ze waren getraind (zoals een detective die een moordzaak probeert op te lossen door de verdachte te ondervragen). Dat is lastig en vaak onzeker.

Dit paper zegt: "Laten we de AI's zo bouwen dat ze van nature eerlijk en doorzichtig zijn."

  • Betrouwbaarheid: Als een AI een fout maakt, kunnen we precies zien waarom. Was het omdat hij de volgorde verkeerd zag? Of omdat hij de betekenis niet snapte?
  • Veiligheid: Omdat we de mechanismen kunnen isoleren, kunnen we fouten "repareren" zonder het hele model kapot te maken.
  • Ontwerp: Het is niet meer alleen maar "trainen en hopen dat het werkt", maar "ontwerpen met een doel: begrijpbaarheid".

Samenvatting in één zin

De auteurs hebben een manier bedacht om slimme computers zo te bouwen dat hun "gedachten" in aparte, schone kanalen blijven lopen, zodat we precies kunnen zien wat ze doen en waar ze fout gaan, in plaats van te raden in een modderige soep.

Het is de stap van "Waarom deed hij dat?" (raadsel) naar "Kijk, hij deed dat omdat..." (helderheid).