Functorial Neural Architectures from Higher Inductive Types

Dit paper toont aan dat compositional generalisatie in neurale netwerken kan worden gegarandeerd door decoderarchitecturen te construeren als strikte monoidale functors afgeleid van Higher Inductive Types, wat leidt tot aanzienlijk betere prestaties dan bestaande methoden zoals self-attention.

Karen Sargsyan

Gepubliceerd 2026-03-18
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

De Kernboodschap: Waarom AI faalt bij "samenstellen"

Stel je voor dat je een robot hebt die geleerd heeft om één obstakel te omzeilen. Als je hem nu twee obstakels geeft, zou hij dat moeten kunnen door simpelweg het plan voor het eerste obstakel te koppelen aan het plan voor het tweede.

Helaas falen moderne AI-modellen (zoals de grote taalmodellen die we vandaag gebruiken) hier vaak op. Ze zijn geweldig in het leren van patronen, maar slecht in het samenstellen van bekende onderdelen tot iets nieuws. Ze leren het antwoord uit het hoofd, in plaats van de regel te begrijpen.

De auteurs van dit paper zeggen: "Het probleem zit niet in de hersenen van de AI, maar in de bouwplaat."

De Oplossing: Bouwen met wiskundige wetten

De auteurs hebben een nieuwe manier bedacht om neurale netwerken te bouwen. Ze gebruiken een heel geavanceerd stuk wiskunde genaamd Hogere Inductieve Types (HIT).

Laten we dit vergelijken met LEGO:

  1. Het oude probleem (De "Attention" methode):
    Stel je voor dat je een LEGO-kasteel bouwt. De huidige AI (zoals een Transformer) kijkt naar alle blokken tegelijk. Als je een nieuwe toren toevoegt, kijkt de AI naar alle blokken in het kasteel om te beslissen hoe de nieuwe toren eruit moet zien.

    • Het probleem: Als je de volgorde van de blokken verandert, raakt de AI in de war. Het ziet de blokken als losse stukjes die met elkaar "praten" (via zogenoemde attention). Het begrijpt niet dat "eerst links, dan rechts" hetzelfde resultaat moet geven als "rechts, dan links" als de volgorde wiskundig niet uitmaakt. Het is te afhankelijk van de specifieke volgorde van de input.
  2. De nieuwe methode (De "Functorial" methode):
    De auteurs zeggen: "Laten we de AI dwingen om te werken als een LEGO-robotarm die strikt regels volgt."

    • Ze definiëren eerst de regels van de wereld (bijvoorbeeld: "links en rechts mogen worden verwisseld" of "niet").
    • Dan bouwen ze de AI zo, dat hij per definitie die regels volgt.
    • De AI bouwt het plan voor het eerste obstakel, bouwt het plan voor het tweede, en plakt ze daarna simpelweg aan elkaar.
    • Het resultaat: Omdat de AI de regels van de "bouwplaat" (de wiskunde) al in zijn structuur heeft, kan hij niet anders dan het juiste antwoord geven, zelfs voor situaties die hij nooit eerder heeft gezien.

De Drie Experimenten: Van Torus tot Klein-fles

De auteurs testten hun idee op drie verschillende "werelden" om te zien of het werkte.

  1. De Torus (Een donut):

    • De situatie: Hier mag je in elke richting lopen; linksom en rechtsom komen op hetzelfde neer (het is "commutatief").
    • Het resultaat: De nieuwe AI (die de regels volgt) deed het 2 tot 2,7 keer beter dan de oude AI. De oude AI raakte in de war bij lange reeksen, terwijl de nieuwe AI stabiel bleef.
  2. De "Wedge of Circles" (Twee ringen die elkaar raken):

    • De situatie: Hier is de volgorde belangrijk. Als je eerst ring A en dan ring B doet, is dat iets anders dan eerst B en dan A.
    • Het resultaat: Hier was het verschil enorm (5,5 tot 10 keer beter). De oude AI verloor de draad volledig; hij wist niet meer welke ring hij moest volgen. De nieuwe AI hield de volgorde perfect bij, omdat zijn bouwplaat dat vereiste.
  3. De Klein-fles (Een vreemd oppervlak):

    • De situatie: Dit is het moeilijkste. Hier gebeurt er iets raars: als je een rondje loopt, keer je je om (je "draait" de wereld om).
    • Het resultaat: Alleen de nieuwe AI die een extra "bewijsstuk" (een wiskundige 2-cel) had ingebouwd, kon dit oplossen. De andere AI's maakten een fout van 46%. Dit bewijst dat de AI niet alleen de regels moet volgen, maar ook moet begrijpen hoe die regels elkaar beïnvloeden.

Waarom is dit belangrijk?

Stel je voor dat je een robot wilt die een fabriek bestuurt.

  • De oude manier: Je laat de robot duizenden voorbeelden zien van "doe A, doe B". Als je hem nu vraagt "doe C, doe D", faalt hij omdat hij dat specifieke voorbeeld niet heeft gezien.
  • De nieuwe manier: Je geeft de robot de wetten van de machine. Je zegt: "Elke beweging is een som van basisbewegingen." De robot bouwt dan zijn eigen "hersenen" zo dat hij niet anders kan dan de wetten te volgen.

Conclusie in één zin

De auteurs hebben bewezen dat je AI's niet kunt laten "leren" om goed samen te stellen door ze meer data te geven; je moet ze architectonisch dwingen om de regels van samenstellen te volgen, net zoals een LEGO-set die alleen maar op één manier kan worden samengebouwd.

Ze hebben zelfs hun theorie bewezen met een computerprogramma (Cubical Agda), zodat we 100% zeker weten dat hun nieuwe AI-ontwerp wiskundig foutloos is, voordat we hem ook maar één keer trainen.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →