EmoStory: Emotion-Aware Story Generation

Deze paper introduceert EmoStory, een tweestapsframework dat agenten voor verhaalplanning en gebiedsgerichte generatie combineert om visuele verhalen te creëren die niet alleen onderwerpconsistent zijn, maar ook expliciete emotionele richtingen effectief vertalen naar concrete beeldelementen.

Jingyuan Yang, Rucong Chen, Hui Huang

Gepubliceerd 2026-03-12
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een fotoboek maakt voor je kleinkind. Je wilt niet alleen laten zien wie er in het boek staat (bijvoorbeeld een hond), maar ook hoe het zich voelt. Moet het een spannend avontuur zijn? Of een rustig momentje in de zon?

Tot nu toe konden computers heel goed foto's maken van een hond, maar ze wisten niet hoe ze die hond een gevoel moesten geven. De foto's waren vaak saai of "neutraal". Het papier EmoStory introduceert een slimme nieuwe manier om dit op te lossen. Het is alsof we een computer hebben gegeven die niet alleen een fotograaf is, maar ook een regisseur en een schrijver in één.

Hier is hoe het werkt, vertaald in alledaags taal:

1. Het Probleem: De "Neutrale" Computer

Stel, je zegt tegen een computer: "Maak een verhaal van een panda."
De computer maakt dan misschien een panda die op een boom zit. Maar is hij blij? Bange? Verdrietig? De computer maakt het vaak gewoon, zonder ziel.

  • De oplossing: EmoStory wil dat je kunt zeggen: "Maak een verhaal van een panda, maar het moet blij zijn!" of "Maak het eng!"

2. De Oplossing: Twee Slimme Assistenten (Agents)

Om dit te doen, heeft EmoStory twee digitale "assistenten" die samenwerken, net als een regie-team in een filmstudio.

  • De Schrijver (De "Emotion Agent"):
    Deze assistent is de regisseur. Als jij zegt "Blij", denkt deze assistent: "Oké, voor blij heb ik zonlicht, ijsjes en een carrousel nodig." Hij kiest de juiste objecten die bij dat gevoel horen. Hij schrijft een script: "De panda eet een ijsje op een zonnige dag."

    • Analogie: Hij is als een toneelschrijver die weet dat voor een grappig toneelstuk je een clown en een taart nodig hebt, niet een doodskist.
  • De Verteller (De "Writer Agent"):
    Deze assistent neemt het script en maakt er een mooi, lopend verhaal van. Hij zorgt dat de eerste foto logisch overgaat in de tweede, en dat de panda er in elke foto hetzelfde uitziet.

    • Analogie: Hij is de verteller die zorgt dat het verhaal vloeiend leest en niet stottert.

3. De Magie: Het "Twee-Gedeelten" Systeem

Het moeilijkste deel is: hoe zorg je dat de panda er in elke foto hetzelfde uitziet (consistentie), terwijl de achtergrond verandert om het gevoel te veranderen?

Stel je voor dat je een foto maakt van een vriend. Je wilt dat zijn gezicht perfect blijft, maar je wilt de achtergrond veranderen van een strand naar een bos.

  • De oude manier: De computer probeerde alles tegelijk te tekenen. Soms werd je vriend dan een beetje een boom, of verdween zijn neus.
  • De EmoStory-methode: Ze splitsen de foto in twee delen, alsof je een doorzichtig masker gebruikt.
    1. Het Masker voor de Hoofdrolspeler: Dit deel kijkt alleen naar de panda. Het zorgt dat de panda er altijd hetzelfde uitziet, waar hij ook staat.
    2. Het Masker voor de Achtergrond: Dit deel is vrij om alles te doen wat nodig is voor het gevoel. Wil je "angst"? Dan komt hier een donker bos met vleermuizen. Wil je "geluk"? Dan komt hier een zonnig park.

Door deze twee delen apart te houden, kan de computer de panda perfect vasthouden, terwijl de wereld om hem heen verandert om het gevoel te creëren.

4. Wat is het resultaat?

In de test hebben ze gekeken of mensen het verschil merkten.

  • Andere methoden: Maakten vaak saaie verhalen of verwarrende foto's waar de panda eruitzag als een monster.
  • EmoStory: Maakte verhalen die echt voelden. Als het verhaal "blij" moest zijn, zag je een panda die geniet van de zon. Als het "eng" moest zijn, zag je een panda die door een donker bos loopt met vleermuizen. Mensen vonden dit veel beter en geloofden het verhaal meer.

Samenvattend

EmoStory is als een slimme filmregisseur die een computer aanstuurt. Hij zorgt dat:

  1. De hoofdrolspeler (de hond, de panda, de mens) er altijd hetzelfde uitziet.
  2. De sfeer (zon, regen, monsters) perfect past bij het gevoel dat je wilt overbrengen.

Het maakt het mogelijk om niet alleen foto's te maken van wat er gebeurt, maar ook van hoe het voelt. En dat maakt het verhaal pas echt echt.