LGQ: Learning Discretization Geometry for Scalable and Stable Image Tokenization

Dit paper introduceert LGQ, een nieuwe discrete beeld-tokenisatie-methode die door het leren van discretisatiegeometrie via temperatuur-gestuurde zachte toewijzingen en variational free-energy-optimalisatie, een stabielere en efficiëntere codering bereikt dan bestaande methoden met een betere balans tussen reconstructiekwaliteit en codeboekgebruik.

Idil Bilge Altun, Mert Onur Cakiroglu, Elham Buxton, Mehmet Dalkilic, Hasan Kurban

Gepubliceerd 2026-02-23
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een gigantische bibliotheek met miljoenen boeken (beelden) wilt opslaan, maar je hebt maar een heel klein kastje om ze in te zetten. Hoe pak je dat aan?

In de wereld van kunstmatige intelligentie (AI) proberen computers beelden te comprimeren tot een reeks "woorden" of tokens. Dit is als het vertalen van een complex schilderij naar een simpele lijst met woorden, zodat een andere AI het kan begrijpen en later weer kan "tekenen".

Het probleem is dat de huidige methoden om deze "woorden" te kiezen, vaak vastlopen. Ze zijn ofwel te star, ofwel te chaotisch.

Hier is hoe dit nieuwe papier, LGQ, dat probleem oplost, uitgelegd met een paar simpele analogieën:

1. Het Probleem: De Twee Slechte Opties

Stel je voor dat je een groep mensen (de AI) moet leren om kleuren te benoemen. Je hebt een palet met duizenden verfkleuren (de codebook).

  • Optie A (De Starre Lijst): Je geeft de mensen een vaste lijst met 100 kleuren. Als ze een kleur zien die er niet bij staat, moeten ze de dichtstbijzijnde kiezen.
    • Het nadeel: Als de lijst niet past bij de echte wereld (bijvoorbeeld: er zijn geen tinten blauw, maar wel veel groen), dan wordt de lijst inefficiënt. Veel kleuren worden nooit gebruikt, en de mensen worden verward. Dit is wat methoden als FSQ doen: ze gebruiken een star rooster. Het werkt stabiel, maar het is niet slim genoeg om zich aan te passen.
  • Optie B (De Chaos): Je laat de mensen zelf hun eigen lijst maken. Ze mogen elke kleur kiezen die ze willen.
    • Het nadeel: In het begin kiezen ze allemaal dezelfde paar populaire kleuren (bijvoorbeeld alleen rood en blauw). De andere duizenden kleuren op hun lijst worden nooit gebruikt en vergeten. Dit heet "collapse" (instorting). De AI wordt lui en gebruikt maar een klein deel van zijn potentieel. Dit is wat de oude VQ-methoden doen.

2. De Oplossing: LGQ (De Slimme Leraar)

De auteurs van dit papier hebben LGQ (Learnable Geometric Quantization) bedacht. Dit is als een slimme leraar die de lijst met kleuren leert terwijl de les doorgaat.

In plaats van een vaste lijst of een volledig vrije chaos, doet LGQ het volgende:

  • De "Warme" Keuze: In het begin is de keuze van een kleur "zacht" en onzeker. Stel je voor dat een leerling twijfelt tussen "donkerblauw" en "hemelsblauw". In plaats van direct te zeggen "Kies blauw!", zegt de leraar: "Ik denk dat het 60% blauw is en 40% paars."
    • Waarom is dit slim? Omdat de AI nu weet dat beide kleuren belangrijk zijn, krijgt hij feedback over beide. Niemand wordt genegeerd. Dit voorkomt dat de lijst instort.
  • De "Koude" Keuze: Naarmate de training vordert, wordt de leraar strenger. De twijfel verdwijnt. Uiteindelijk kiest de AI weer één duidelijke kleur (bijvoorbeeld "blauw"), maar dan wel de perfecte blauwe kleur die bij de rest van de lijst past.
  • De Slimme Verdeling: De AI leert dat hij niet alle kleuren even vaak moet gebruiken. Als er veel groene bossen zijn, leert hij dat hij meer groene "woorden" nodig heeft. Als er weinig paarse bloemen zijn, gebruikt hij minder paarse woorden. Hij verdeelt zijn ruimte slim over de hele lijst, in plaats van alles vol te proppen met dezelfde dingen.

3. Het Resultaat: Meer met Minder

Het mooie aan LGQ is dat het efficiënter is dan de oude methoden.

  • Oude methoden: Moesten vaak hun hele lijst van 16.000 kleuren gebruiken om een goed plaatje te maken. Het was als een overvolle koffer waar je alles in probeert te proppen, ook al past het niet.
  • LGQ: Haalt hetzelfde (of zelfs betere) resultaat, maar gebruikt maar ongeveer de helft van de lijst (ongeveer 8.000 kleuren).
    • De metafoor: Het is alsof je een koffer inpakt. De oude methoden gooien alles erin, ook dubbelingen en onnodige spullen. LGQ leert precies welke spullen je echt nodig hebt en hoe je ze slim stapelt. Je hebt minder ruimte nodig, maar je kunt nog steeds alles meenemen.

Samenvattend

Dit papier introduceert een nieuwe manier om beelden voor AI te "vertalen". In plaats van te kiezen tussen een starre, onhandige lijst of een chaotische lijst die instort, leert LGQ zelf hoe de lijst eruit moet zien.

Het is als een levendige, aanpasbare kaart in plaats van een stenen muur. Door zacht te beginnen en geleidelijk harder te worden, leert de AI de perfecte manier om zijn "woorden" te verdelen. Het resultaat? Beelden die er scherper uitzien, met minder rekenkracht en minder "dode" plekken in de geheugenlijst.

Kortom: LGQ maakt de AI slimmer, efficiënter en minder lui bij het onthouden van beelden.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →