VideoSketcher: Video Models Prior Enable Versatile Sequential Sketch Generation

VideoSketcher is een data-efficiënte methode die voorgeprogrammeerde tekst-naar-video diffusiemodellen en grote taalmodellen combineert om hoogwaardige sequentiële schetsen te genereren die tekstuele volgorde-instructies volgen, waarbij het leren van de tekenvolgorde en de visuele uitstraling in twee fasen wordt ontkoppeld met slechts een handvol menselijke voorbeelden.

Hui Ren, Yuval Alaluf, Omer Bar Tal, Alexander Schwing, Antonio Torralba, Yael Vinker

Gepubliceerd 2026-02-18
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een tekening maakt. Je begint niet met een compleet plaatje dat uit het niets verschijnt. Nee, je pakt je potlood, zet de eerste lijn, dan de tweede, en bouwt zo langzaam je idee op. Dat is tekenen: een proces, een reis, geen enkel moment.

Tot nu toe waren slimme computers (AI) echter heel goed in het maken van het eindresultaat, maar ze snapten niet hoe je er bij kwam. Ze tekenden alsof ze een tovenaar waren die met een zwaai van hun hand een compleet plaatje creëerden, zonder de losse lijntjes te laten zien.

VideoSketcher is een nieuwe manier om computers te leren tekenen, precies zoals mensen dat doen: stap voor stap, lijn voor lijn. Hier is hoe het werkt, vertaald in simpele taal:

1. De Probleemstelling: De "Toveraar" vs. De "Meester"

Stel je twee personages voor:

  • De Toveraar (De Video-AI): Deze kan prachtige, realistische beelden maken. Hij ziet hoe een stad eruitziet of hoe een kat eruitziet. Maar hij heeft geen idee hoe je dat tekent. Als je hem vraagt tekenen, gooit hij soms alle lijnen tegelijk op het papier.
  • De Meester (De Taal-AI): Deze is een expert in woorden en plannen. Hij weet precies in welke volgorde je iets moet tekenen: "Eerst de romp, dan de poten, dan het hoofd." Maar hij kan niet tekenen; zijn "tekeningen" zijn vaak maar stompjes en lijnen die nergens op slaan.

VideoSketcher is de perfecte samenwerking tussen deze twee. De Meester zegt: "Teken eerst dit, dan dat," en de Toveraar zorgt ervoor dat het er prachtig uitziet, alsof een mens het doet.

2. De Grote Idee: Teken als een Film

In plaats van te proberen een tekening te maken, behandelt VideoSketcher een tekening als een korte film.

  • Het begint met een leeg wit vel papier.
  • Vervolgens zie je in de film hoe de lijnen één voor één verschijnen, alsof er een onzichtbare hand tekent.
  • Dit is slim omdat video-AI's (die getraind zijn op duizenden films) al weten hoe beweging en tijd werken. Ze begrijpen dat dingen niet plotseling verschijnen, maar groeien.

3. De Twee Stappen: Eerst Leren, Dan Stylen

De onderzoekers merkten dat je de computer niet direct kon laten tekenen van echte mensen. Dat was te moeilijk. Dus deden ze het in twee stappen, net zoals een kind leert tekenen:

  • Stap 1: De Grammatica van Vormen (De "Blokjes")
    Ze lieten de computer eerst oefenen met simpele vormen: cirkels, vierkanten en driehoeken. Ze leerden de computer de "grammatica" van tekenen: "Als je een huis tekent, begin je met de basis, niet met het dak." Ze gebruikten hier geen echte tekeningen, maar simpele, kunstmatige vormen. Hier leerde de computer wanneer je wat moet tekenen.
  • Stap 2: De Kunststijl (De "Vakmanschap")
    Nu de computer wist hoe je moet tekenen, gaven ze hem slechts zeven echte tekeningen van een mens (een auto, een bloem, een lamp). Dit was genoeg om de computer te leren hoe het eruit moet zien: de krassen, de onvolkomenheden en de stijl van een echte schets.

Het resultaat? Een computer die niet alleen weet wat hij moet tekenen, maar ook hoe hij het moet doen, met de stijl van een mens, maar met de precisie van een machine.

4. Wat Kun Je Ermee?

Dit is niet alleen voor het maken van plaatjes. Het opent nieuwe deuren:

  • Samen Tekenen (Co-Drawing): Stel je voor dat je een tekening begint, en de computer vult het voor je in. Of andersom: de computer begint, en jij voegt details toe. Ze werken samen aan hetzelfde canvas, alsof je aan een tafel zit met een vriend.
  • De Penseelkeuze: Je kunt de computer een foto van een penseel geven (bijvoorbeeld een dikke kwast of een fijne pen). De computer leert dan direct die stijl en tekent de hele tekening met dat specifieke penseel, zelfs als hij die penseelstijl nooit eerder heeft gezien.
  • Van Woord naar Beeld: Je typt gewoon: "Teken een robot die in een spiegel kijkt, eerst het hoofd, dan het lichaam..." en de computer toont je het hele proces, van het eerste lijntje tot het eindresultaat.

Waarom is dit speciaal?

Vroeger hadden computers miljoenen voorbeelden nodig om te leren tekenen. VideoSketcher leert dit met zeer weinig data (slechts zeven echte tekeningen!). Het gebruikt de "herinneringen" van video-AI's (die weten hoe dingen bewegen) om te begrijpen hoe tekenen werkt.

Kortom: VideoSketcher geeft de computer niet alleen een potlood, maar ook geduld en een plan. Het maakt van een statisch plaatje een levendig verhaal van creatie, waarbij jij en de machine samen de kunstenaar zijn.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →