Each language version is independently generated for its own context, not a direct translation.
Het Verhaal van de Film: Hoe een AI eindelijk de juiste namen en dialogen leert
Stel je voor dat je een AI hebt die heel goed is in het kijken naar foto's. Als je haar een reeks foto's van een film geeft, kan ze perfect beschrijven wat ze ziet: "Hier loopt een man in een blauwe jas," of "Hier staat een vrouw die boog." Ze is een uitstekende fotograaf.
Maar hier zit het probleem: deze AI is ook een dromer. Als ze niet weet wie de mensen zijn of wat er echt gebeurt, begint ze te verzinnen. Ze kan denken dat de man en de vrouw verliefd zijn, terwijl ze eigenlijk broer en zus zijn. Ze kan laten zeggen wat er in de film wordt gezegd, terwijl de personages in werkelijkheid zwijgen. Ze heeft de beelden goed, maar het verhaal is een fantasie.
De auteurs van dit paper, Daniel en David, wilden deze dromer wakker maken. Ze hebben een nieuw systeem bedacht, genaamd StoryMovie, om de AI te leren wat er echt gebeurt in een film, niet alleen wat er op het scherm te zien is.
1. De Grote Puzzel: Script vs. Ondertiteling
Om dit te doen, moesten ze twee verschillende bronnen samenvoegen, alsof je twee losse puzzels aan elkaar plakt:
- Het Script (Het Drehbuch): Dit is het originele verhaal geschreven door de schrijver. Hierin staan de namen van de personages (bijv. "Harry" en "Sally"), wat ze zeggen, en hoe ze het zeggen (bijv. "boos" of "trillend"). Maar het script heeft geen tijdscode; het weet niet precies op welk frame van de film een zin valt.
- De Ondertiteling (Subtitles): Dit is wat je leest onderaan het scherm tijdens het kijken. Het heeft perfecte tijdstippen (bijv. "op 02:15 zegt iemand iets"), maar het zegt niet wie het zegt. Het staat er alleen maar: "Ik kan dit niet geloven."
De oplossing: De onderzoekers hebben een slimme "lijm" ontwikkeld (een algoritme genaamd Longest Common Subsequence). Deze techniek zoekt naar de langste rij woorden die in zowel het script als de ondertiteling voorkomen. Zodra ze een match vinden, kunnen ze de tijdstippen van de ondertiteling koppelen aan de namen uit het script.
- Vergelijking: Het is alsof je een liedje hebt met de tekst (script) en een opname met de tijdcode (ondertiteling). Door te luisteren waar de woorden samenvallen, weet je precies wie op welk moment zingt.
2. StoryMovie: De Nieuwe Leerboeken
Met deze gekoppelde informatie hebben ze een nieuw leerboek gemaakt, genaamd StoryMovie.
- Het bevat 1.757 verhalen uit films.
- Elk verhaal is niet alleen gebaseerd op de foto's, maar is ook "geaard" in het echte script.
- De AI leert nu: "Ah, de man in de foto is niet zomaar 'de man', hij is 'Mr. Johnny', en hij zegt niet 'hallo', maar 'Ik ben bang'."
3. Qwen Storyteller3: De Nieuwe Ster
De onderzoekers hebben een AI-model getraind met deze nieuwe leerboeken. Ze noemen hem Qwen Storyteller3.
Je kunt het zien als een drie-traps proces:
- Stap 1: De AI leert kijken (wat zie ik?).
- Stap 2: De AI leert onthouden (is dit dezelfde persoon als in de vorige foto?).
- Stap 3 (Deze stap): De AI leert luisteren en begrijpen (wie zegt wat en waarom?).
4. De Test: Wie vertelt het beste verhaal?
Ze hebben de nieuwe AI getest tegen de oude versies. Het resultaat was indrukwekkend:
- Tegen de basis-AI: De nieuwe AI won in 90% van de gevallen als het ging om het juist toewijzen van dialogen. De oude AI zat er vaak naast.
- Tegen de vorige versie: Zelfs tegen een AI die al goed was in kijken, won de nieuwe versie. Ze vertelde verhalen die 48,5% van de tijd beter waren dan de oude, omdat ze de echte namen en gevoelens gebruikte in plaats van verzinsels.
Een voorbeeld uit de test:
- Oude AI: "De man kijkt verdrietig. Hij zegt: 'Het is een zware dag'." (Verzonnen, want de man zegt dat niet in de film).
- Nieuwe AI: "Mr. Johnny, die in de hoek zit, kijkt verdrietig. Hij fluistert: 'Ik kan het niet meer aan'." (Dit komt overeen met wat er echt in de film gebeurt).
Waarom is dit belangrijk?
Tot nu toe konden AI's alleen "kijken". Ze zagen een gezicht, maar wisten niet wie het was of wat ze voelden. Met StoryMovie leren ze de ziel van het verhaal begrijpen. Ze leren dat een gezicht niet alleen een gezicht is, maar een personage met een naam, een geschiedenis en echte woorden.
Het is alsof je een vertaler hebt die niet alleen de woorden vertaalt, maar ook de gevoelens en de context van de schrijver begrijpt. Hierdoor maken ze veel minder "hallucinaties" (verzonnen feiten) en worden de verhalen veel geloofwaardiger.
Kortom: Ze hebben een AI gegeven die niet alleen naar de foto's kijkt, maar ook het script leest. Zo wordt de robot niet langer een dromer, maar een echte verteller.
Ontvang papers zoals deze in je inbox
Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.