Latent Semantic Manifolds in Large Language Models

Dit paper introduceert een wiskundig raamwerk dat LLM-hiding states interpreteert als punten op een Riemanniaanse semantische manifold met de Fisher-informatiemetriek, waarbij het bewijst dat de discretisatie van tokens leidt tot een lineair schalend expressibiliteitsgat en een universele uurwerk-intrinsieke dimensieprofiel.

Mohamed A. Mabrok

Gepubliceerd 2026-03-25
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat een Large Language Model (LLM), zoals de AI die dit artikel schrijft, een gigantische, onzichtbare bibliotheek is. In deze bibliotheek worden woorden niet als losse blokken bewaard, maar als punten in een oneindig groot, continu landschap van betekenissen.

Dit wetenschappelijke artikel, geschreven door Mohamed Mabrok, probeert de geheimen van dit landschap te onthullen. Het zegt: "Waarom werken deze modellen zo goed, en waar lopen ze vast?" Het antwoord ligt in de vorm van dit denklandschap.

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het Landschap van Betekenis (De "Latent Semantic Manifold")

Stel je voor dat alle mogelijke gedachten en betekenissen die een mens kan hebben, bestaan in een enorm, glad landschap. Dit is het Latent Semantic Manifold.

  • De Verwarring: De computer werkt intern met een heel groot rooster (bijvoorbeeld 4096 dimensies), maar de echte betekenis zit eigenlijk in een veel kleiner, dunner pad binnen dat rooster.
  • De Analogie: Denk aan een gigantisch, donker zwembad (de computerruimte). De waarheid is dat de zwemmers (de betekenissen) eigenlijk alleen op een heel smal, glad ijsbaantje drijven dat door het zwembad slingert. Ze gebruiken maar een heel klein deel van het beschikbare water. Het artikel bewijst dat dit ijsbaantje er echt is en dat het glad is.

2. Woorden als Landkaarten (De "Voronoi-kaarten")

De computer moet die gladde, continue gedachten omzetten in discrete woorden (tokens) die we kunnen lezen.

  • De Analogie: Stel je voor dat je het gladde ijsbaantje moet verdelen in stukjes land, elk met een eigen naamplaatje (een woord).
    • Het woord "hond" is een stuk land.
    • Het woord "kat" is een ander stuk land.
    • De grens tussen hen is een lijn. Als je gedachte precies op die lijn staat, weet de computer niet zeker of hij "hond" of "kat" moet zeggen.
  • Het Probleem: Omdat er maar een eindig aantal woorden is (bijvoorbeeld 50.000), kunnen ze niet elk puntje op het ijsbaantje perfect benoemen. Er zijn altijd gebieden waar de betekenis "tussen twee woorden in" zit.

3. De "Expressibility Gap" (Het Gebrek aan Woorden)

Dit is het belangrijkste nieuwe idee in het artikel. Het noemt dit de Expressibility Gap (het expressie-gat).

  • De Vergelijking: Stel je voor dat je probeert een regenboog (continu kleurenspectrum) te beschrijven met alleen de kleuren van een kinderdoosje verf (rood, blauw, geel). Er zijn gebieden in de regenboog die je niet perfect kunt benoemen.
  • De Ontdekking: Het artikel bewijst wiskundig dat er altijd een "grijze zone" zal zijn waar de AI twijfelt. Hoe meer woorden je hebt, hoe smaller die grijze zone wordt, maar hij verdwijnt nooit helemaal.
  • De Regel: De onderzoekers ontdekten dat deze twijfelzone lineair groeit naarmate je dichter bij de grenzen van de woorden komt. Het is alsof je een meetlat hebt die precies voorspelt hoeveel verwarring er is op basis van hoe "vaag" een gedachte is.

4. De "Uurwerk"-Vorm (Het Hunchback-patroon)

De auteurs keken naar hoe dit landschap verandert terwijl de AI een zin bedenkt (laag voor laag).

  • De Analogie: Stel je voor dat de AI een boodschap door een tunnel stuurt.
    1. Begin: De boodschap is nog vaag en breed (de tunnel is wijd).
    2. Midden: De AI begint te denken en de boodschap wordt complexer en rijker; de tunnel wordt even heel breed (het "buikje" van het uurwerk).
    3. Einde: De AI moet een woord kiezen. De tunnel wordt weer heel smal en strak, zodat er maar één woord uitkomt.
  • De Bevinding: Dit patroon (wijd -> heel breed -> weer smal) is bij alle onderzochte modellen hetzelfde, ongeacht of ze klein of gigantisch zijn. Het is een universele wet van hoe AI denkt.

5. Wat betekent dit voor de toekomst?

Dit artikel is niet alleen theorie; het geeft ingenieurs concrete tips:

  • Slimmer bouwen: Omdat het landschap in het midden het breedst is, hoef je niet bij elke laag even veel rekenkracht te gebruiken. Je kunt de "midden-laag" breder maken en de begin- en eindlagen smaller. Dat bespaart energie.
  • Beter comprimeren: Omdat de AI eigenlijk op een heel dunne ijsbaan zit in een groot zwembad, kun je veel van het water (de geheugenruimte) weggooien zonder dat de AI iets verliest.
  • Betere voorspellingen: Als je ziet dat de AI twijfelt (dicht bij de grens van een woord), kun je de temperatuur van de creatieve keuze verhogen. Als hij zeker is (diep in het woord-land), kun je hem streng houden.

Samenvatting in één zin

Dit artikel toont aan dat AI's niet zomaar woorden raden, maar dat ze een glad, wiskundig landschap van betekenissen navigeren, en dat de beperking van onze taal (het eindige aantal woorden) zorgt voor een onvermijdelijke "twijfelzone" die we nu precies kunnen meten en begrijpen.