BitDance: Scaling Autoregressive Generative Models with Binary Tokens

BitDance is een schaalbaar autoregressief beeldgeneratiemodel dat gebruikmaakt van binaire tokens en een diffusie-gebaseerde decodering om op ImageNet de beste FID-score te behalen, terwijl het tegelijkertijd aanzienlijk minder parameters en rekentijd vereist dan bestaande state-of-the-art modellen.

Yuang Ai, Jiaming Han, Shaobin Zhuang, Weijia Mao, Xuefeng Hu, Ziyan Yang, Zhenheng Yang, Yali Wang, Huaibo Huang, Xiangyu Yue, Hao Chen

Gepubliceerd 2026-03-16
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een kunstenaar bent die een heel gedetailleerd schilderij moet maken, maar je mag alleen zwarte en witte pixels gebruiken om het te beschrijven. En niet zomaar een paar, maar een enorm groot aantal.

Dit is precies wat BitDance doet. Het is een nieuwe manier voor computers om prachtige afbeeldingen te maken, ontwikkeld door onderzoekers van ByteDance (de makers van TikTok). Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De "Woordenboeken" van Computers

Vroeger probeerden computers afbeeldingen te maken door ze op te delen in kleine blokjes (tokens) en voor elk blokje een nummer te kiezen uit een woordenboek.

  • Het oude probleem: Als je een heel groot woordenboek hebt (omdat je heel gedetailleerde plaatjes wilt), wordt het voor de computer een nachtmerrie om het juiste nummer te kiezen. Het is alsof je in een bibliotheek met miljarden boeken moet zoeken naar één specifiek boek, en je mag maar één keer raden. Als je het fout hebt, is je hele schilderij verpest.
  • De oplossing van BitDance: In plaats van te zoeken naar een nummer, laat BitDance de computer direct de zwarte en witte pixels (de bits) voorspellen. Het is alsof je niet meer naar een nummer in een lijst kijkt, maar direct de kleur van de pixel bepaalt.

2. De Magische Truc: De "Binary Diffusion Head"

Hier komt de echte genialiteit. Omdat het woordenboek zo enorm groot is (het kan 22562^{256} verschillende combinaties hebben, dat is meer dan het aantal atomen in het heelal!), kan de computer niet simpelweg "gokken".

BitDance gebruikt een slimme truc die we de "Binary Diffusion Head" noemen.

  • De Analogie: Stel je voor dat je een vaas met modderige water hebt (de ruwe, onduidelijke voorspelling). Je wilt het water helder maken tot een kristalhelder glas.
  • Normaal gesproken zou je proberen het water in één keer helder te maken, wat bijna onmogelijk is.
  • BitDance doet het stap voor stap. Het begint met een wazig beeld en "ontmoddert" het beetje bij beetje, net zoals je een foto zou scherper maken door de focus langzaam bij te stellen. Op het einde heb je een perfect scherp beeld van zwarte en witte pixels. Dit werkt veel sneller en nauwkeuriger dan het oude "raad het nummer"-systeem.

3. De Snelheidstruc: "Next-Patch Diffusion"

Normaal gesproken maken deze computers een afbeelding één pixel tegelijk. Dat is alsof je een muur bouwt door elke steen één voor één te leggen. Het duurt eeuwen, vooral voor grote afbeeldingen.

BitDance heeft een nieuwe methode bedacht: Next-Patch Diffusion.

  • De Analogie: In plaats van één steen tegelijk te leggen, legt de computer nu een heel blok stenen tegelijk neer. Omdat de computer slim is, weet hij dat stenen die dicht bij elkaar liggen (in een "patch" of blokje) op elkaar lijken.
  • Het is alsof je niet meer één tegel legt, maar een heel vierkantje tegels in één keer op de muur plakt. Hierdoor is BitDance 30 keer sneller dan de vorige generatie modellen, terwijl het nog steeds net zo mooi is.

4. Wat kan het eigenlijk?

BitDance is niet alleen snel, het is ook een meesterkunstenaar:

  • Kwaliteit: Het maakt foto's die eruitzien als echte foto's (fotorealistisch), zelfs op heel hoge resoluties (zoals 1024x1024 pixels).
  • Tekst: Het kan tekst in de afbeelding schrijven (bijvoorbeeld "Een bordje met 'Hallo'") en dat doet het veel beter dan eerdere modellen.
  • Efficiëntie: Het doet dit met een model dat 5 keer kleiner is dan de concurrenten, maar toch beter presteert. Het is alsof je een Formule 1-auto bouwt die kleiner is, minder brandstof verbruikt, maar sneller rijdt dan de grote auto's.

Samenvattend

BitDance is een nieuwe manier voor AI om te tekenen. Het vervangt het oude, trage systeem van "nummers raden" door een slim systeem van "stappen voor stappen helder maken" van zwarte en witte pixels. Door dit te doen in blokken in plaats van één voor één, is het niet alleen een stuk sneller, maar maakt het ook prachtige, gedetailleerde kunstwerken die eerder onmogelijk leken voor dit type computer.

Het is alsof je een trage, piepende ouderwetse printer hebt vervangen door een supersnelle, stille laserprinter die perfect schrijft, zelfs als je heel complexe teksten en plaatjes wilt maken.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →