MovieTeller: Tool-augmented Movie Synopsis with ID Consistent Progressive Abstraction

Dit paper introduceert MovieTeller, een trainingsvrij raamwerk dat off-the-shelf tools en een progressieve abstractiepijplijn combineert om ID-consistente en feitelijke filmsynopses te genereren zonder kostbare modelfine-tuning.

Yizhi Li, Xiaohan Chen, Miao Jiang, Wentao Tang, Gaoang Wang

Gepubliceerd 2026-03-16
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een hele film wilt samenvatten in één kort verhaal. Dat klinkt simpel, maar voor een computer is dat als proberen een hele bibliotheek in één adem op te sommen zonder de boeken te verwarren.

Dit paper introduceert MovieTeller, een slimme nieuwe manier om films samen te vatten. Hier is hoe het werkt, vertaald naar alledaagse taal:

Het Probleem: De Verwarde Verteller

Stel je een kunstenaar voor die heel goed is in het beschrijven van één foto. Maar als je hem een hele film laat zien, raakt hij in de war.

  • De identiteitscrisis: In scène 1 noemt hij de held "een man in een jas". In scène 5 noemt hij dezelfde man ineens "een persoon met een hoed". Hij vergeet dat het dezelfde persoon is.
  • Het geheugenprobleem: Een hele film is te lang. De kunstenaar vergeet het begin als hij bij het einde is, waardoor het verhaal uit elkaar valt.

Bestaande computersystemen (zogenaamde Vision-Language Models) hebben precies dit probleem. Ze zien beelden, maar begrijpen niet wie wie is in een lang verhaal.

De Oplossing: MovieTeller (De Regisseur met een Assistent)

MovieTeller lost dit op door niet één grote, alles-wetende robot te bouwen, maar een team te vormen. Het werkt in drie stappen, alsof je een film maakt:

Stap 1: De Camera (Scènes splitsen)

Eerst wordt de film opgebroken in kleine stukjes (scènes), net als hoofdstukken in een boek. De computer pakt alleen de belangrijkste beelden uit elke scène, zodat hij niet overladen wordt met duizenden frames.

Stap 2: De Speciale Assistent (Het "Tool"-gebruik)

Dit is het slimste deel. De hoofdbewerker (de AI die de tekst schrijft) is niet goed in gezichten herkennen. Dus, MovieTeller roept een speciale assistent aan: een gezichtsherkenningstool.

  • De analogie: Stel je voor dat de schrijver een roman schrijft, maar niet weet hoe de personages heten. Dan belt hij een "detective" op die zegt: "Kijk, die man in de hoek heet niet 'de man', hij heet Guo Zhui en hij staat links in het beeld."
  • De schrijver krijgt deze feitelijke informatie (namen en exacte locatie) als een "stempel" op het beeld. Hierdoor kan hij nooit meer vergeten wie wie is. Hij schrijft: "Guo Zhui loopt naar de deur" in plaats van "Iemand loopt naar de deur".

Stap 3: De Samenvatting (Progressieve Abstractie)

Nu heeft de schrijver duizenden korte beschrijvingen van scènes. Als hij die allemaal tegelijk probeert te lezen, wordt hij gek.

  • De analogie: In plaats van alles in één keer te doen, werkt MovieTeller als een redacteur.
    1. Eerst vat hij elke scène samen tot een hoofdstuk.
    2. Dan vat hij alle hoofdstukken samen tot één verhaal.
    3. Uiteindelijk krijgt hij de volledige film in één vloeiend verhaal.
      Dit zorgt ervoor dat het verhaal logisch blijft en niet uit elkaar valt.

Waarom is dit beter?

In tests hebben ze gekeken naar 100 films.

  • Zonder hulp: De standaard AI schreef vaag: "Een man en een vrouw praten."
  • Met MovieTeller: De AI schrijft: "Detective Guo Zhui en zijn partner Song Donglu bespreken de zaak."

De resultaten waren indrukwekkend:

  • De verhalen waren 39% beter volgens een computerbeoordelaar.
  • De consistentie van de personages (wie wie is) was 117% beter.
  • Mensen vonden de samenvattingen van MovieTeller in 62% van de gevallen veel leuker en duidelijker dan die van de andere methoden.

Conclusie

MovieTeller is als het geven van een korte, feitelijke handleiding aan een schrijver. Door een specialist in te huren om de gezichten te herkennen en het verhaal stap voor stap op te bouwen, krijg je een samenvatting die niet alleen klopt, maar ook echt voelt als het verhaal van de film, met de juiste namen en een logische opbouw. Het is een manier om AI te laten werken zoals een slimme mens: door de juiste hulpmiddelen te gebruiken op het juiste moment.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →