Gen-C: Populating Virtual Worlds with Generative Crowds

Each language version is independently generated for its own context, not a direct translation.

Gen-C: Hoe we virtuele werelden vullen met levende menigten (in simpele taal)

Stel je voor dat je een videospel of een film maakt en je wilt een drukke treinhalte of een bruisende universiteitscampus neerzetten. Vaak zie je dan mensen die als robots rondlopen: ze lopen recht op elkaar af, botsen niet, maar doen ook niets anders dan "lopen". Ze hebben geen doel, ze praten niet met elkaar en ze reageren niet op hun omgeving. Het voelt saai en onnatuurlijk.

De onderzoekers van dit papier, Gen-C, hebben een slimme oplossing bedacht om dit probleem op te lossen. Ze hebben een systeem ontwikkeld dat niet alleen zorgt dat mensen niet botsen, maar dat ze ook denken, plannen en interacteren alsof ze echte mensen zijn.

Hier is hoe het werkt, vertaald in alledaagse termen:

1. Het probleem: Te veel werk, te weinig creativiteit

Vroeger moesten mensen handmatig uitzoeken wat elke persoon in een menigte zou doen. "Hij loopt naar de koffieautomaat, zij wacht op de trein, zij praat met haar vriend." Dit is extreem veel werk en het wordt snel saai omdat iedereen hetzelfde doet.

2. De oplossing: Een slimme "Regisseur" (LLM)

In plaats van alles zelf te schrijven, gebruiken de onderzoekers een AI die gespecialiseerd is in taal (een Large Language Model, of LLM).

De Analogie: Stel je voor dat je een regisseur hebt die een scenario schrijft. Jij zegt tegen de regisseur: "Maak een drukke treinhalte waar mensen wachten, hun koffers slepen en met elkaar praten."
De AI schrijft dan een "script" voor honderden mensen. Maar in plaats van dat script direct in het spel te stoppen (wat vaak foutjes oplevert), gebruiken ze het als inspiratiebron.

3. De "Landkaart van Acties" (Het Grafiek-model)

De AI schrijft het script niet als een lange tekst, maar als een slimme landkaart (een grafiek).

De Analogie: Denk aan een spoorwegnet. De stations zijn de locaties (treinhalte, bankje, uitgang). De treinen zijn de mensen. De lijnen tussen de stations laten zien wat ze doen: "Eerst wachten, dan op de trein stappen, dan met iemand praten."
Deze landkaart houdt rekening met tijd. Het ziet niet alleen wie er is, maar ook wanneer ze iets doen en met wie ze interactie hebben.

4. De "Kopieer- en Leer-machine" (De Twee AI's)

Nu komt het echte magische deel. De onderzoekers hebben twee speciale AI-modellen getraind op deze landkaarten. Ze noemen dit een Variational Graph Autoencoder. Dat klinkt ingewikkeld, maar het werkt als een slimme fotokopieerapparaat die ook leert:

AI 1 (De Architect): Kijkt naar de landkaart en leert hoe mensen zich groeperen. "Ah, als er een trein aankomt, vormen mensen een rij. Als het regent, zoeken ze een overkapping."
AI 2 (De Acteur): Kijkt naar de mensen op de kaart en leert wat ze doen. "Mensen in een rij wachten, mensen op een bankje zitten."

Deze twee AI's werken samen. Ze leren niet alleen na te bootsen, maar ze leren de regels van het gedrag. Zodra ze dit geleerd hebben, kunnen ze nieuwe scenario's bedenken die ze nooit eerder hebben gezien, maar die wel logisch zijn.

5. Het Resultaat: Een levende wereld

Wanneer je nu een tekst invoert (bijvoorbeeld: "Een drukke lunchtijd op de campus"), doet het systeem het volgende:

Het pakt de regels die het heeft geleerd.
Het genereert een nieuwe, unieke landkaart met honderden mensen.
Elk persoon heeft een eigen plan: de ene student zit te eten, de andere loopt naar de bibliotheek, een groepje staat te kletsen bij de koffieautomaat.

Het mooie is: als je de tekst verandert naar "Een rustige ochtend", past het systeem het gedrag direct aan. Minder mensen, meer mensen die rustig wandelen, minder rijen.

Waarom is dit belangrijk?

Geen saaie robots meer: Mensen in virtuele werelden gedragen zich nu als echte mensen met doelen.
Schaalbaar: Je kunt een wereld met 10 mensen of 10.000 mensen vullen zonder dat het systeem vastloopt.
Snel: Je hoeft geen duizenden video's van echte mensen te filmen en te analyseren. De AI "droomt" deze scenario's op basis van wat het al weet over hoe mensen zich gedragen.

Kort samengevat:
Gen-C is als een slimme regisseur die een hele cast van acteurs (de AI) instrueert. In plaats dat elke acteur zijn tekst uit het hoofd moet leren, begrijpen ze de sfeer van het verhaal. Als jij zegt "feest", dan dansen ze. Als je zegt "treinstation", dan wachten ze op de trein. Het vult virtuele werelden met leven, zonder dat een mens elke beweging hoeft te plannen.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Hoewel er de afgelopen twee decennia aanzienlijke vooruitgang is geboekt in het simuleren van agent-gebaseerde menselijke menigten, richten de meeste bestaande methoden zich voornamelijk op laagwaardige taken zoals botsingsvermijding, padvolging en zwermgedrag (flocking). Deze benaderingen hebben moeite om hoogwaardige gedragingen te modelleren die voortvloeien uit langdurige interacties tussen agenten en tussen agenten en de omgeving. Voorbeelden van dergelijk gedrag zijn stoppen om te praten, etalages bekijken of in de rij staan voor een trein.

Daarnaast zijn data-gedreven methoden die leren van echte menigtedata vaak beperkt door de hoge kosten en de arbeidsintensieve aard van het verzamelen en annoteren van videodata. Bestaande datasets dekken vaak slechts een beperkt scala aan hoogwaardige gedragingen, wat generalisatie belemmert. Er is dus behoefte aan een schaalbaar systeem dat coherente, doelgerichte en diverse menigtes kan genereren op basis van tekstuele context, zonder afhankelijk te zijn van uitgebreide real-world annotaties.

Methodologie: Gen-C Framework

Gen-C (Generative Crowds) is een generatief framework dat menigtesituaties synthetiseert door gebruik te maken van Large Language Models (LLMs) en Variational Graph Autoencoders (VGAE). Het proces bestaat uit drie hoofdfasen:

1. Synthetische Datageneratie via LLMs

Om de afhankelijkheid van real-world data te verminderen, bootst het framework menigtescenario's na met behulp van LLMs (specifiek GPT-4.1).

Input: Een korte tekstuele beschrijving van een scenario (bijv. "Studenten zitten op het park om te lunchen").
Proces: Twee gerichte query's worden gebruikt:
1. Omgeving genereren: De LLM genereert een plausibele lay-out met locaties (bijv. koffiebar, entree).
2. Gebeurtenissen authoriseren: De LLM genereert een sequentie van acties en interacties tussen agenten en de omgeving.
Output: Een set van synthetische scenario's die dienen als "zaad" voor het trainen van het generatieve model. De kwaliteit en diversiteit van deze data worden gevalideerd door vergelijking met beperkte real-world annotaties (bijv. YouTube-video's van een treinstation), waarbij gebleken is dat de LLM-sequenties logische patronen en vergelijkbare diversiteit vertonen.

2. Graph-Based Representatie (Crowd Scenario Graph)

Om dynamische menigtes te modelleren, worden de scenario's vertaald naar een tijd-geëxpandeerde graafstructuur (Crowd Scenario Graph).

Knooppunten (Nodes): Representeren een agent op een specifiek tijdstip $t$ , gekenmerkt door een actie ( $A_t$ ) en een locatie ( $L_t$ ).
Randen (Edges):
- Sequentieranden: Verbinden de acties van dezelfde agent over de tijd.
- Deel-randen (Share edges): Verbinden agenten die op hetzelfde moment een gedeelde interactie hebben (bijv. een gesprek voeren).
Structuur: De graaf bestaat uit meerdere subgrafen die groepen van agenten vertegenwoordigen.

3. Leermodel: Dual Variational Graph Autoencoder (VGAE)

Het hart van Gen-C is een architectuur met twee synergetische VGAE's die gezamenlijk de graafstructuur en de knooppuntenkenmerken leren, geconditioneerd op tekstuele input.

Encoder: Deelt een gemeenschappelijke encoder (op basis van GINE-lagen) die de graaf en tekstuele conditionering (via een Sentence-Transformer) omzet in een latente ruimte.
Prior Network: Om posterior-collapse te voorkomen, wordt een conditionele prior $p(Z|C)$ geleerd in plaats van een vaste standaardnormale verdeling. Dit zorgt ervoor dat de gegenereerde grafen consistent zijn met de tekstuele beschrijving.
Decoders:
- VGAE-S (Structure): Reconstructeert de connectiviteit van de graaf (wie interacteert met wie).
- VGAE-F (Features): Reconstructeert de knooppuntenkenmerken (acties en locaties) en zorgt voor consistentie binnen interactiegroepen.
Training: Het model wordt getraind op de synthetische dataset om de verdeling van menigtedynamiek te leren, zodat het in staat is om nieuwe, diverse scenario's te genereren op basis van tekst.

Belangrijkste Bijdragen

Gen-C Framework: Een nieuw systeem voor het synthetiseren van hoogwaardig, doelgericht gedrag van virtuele agenten in complexe menigtescenario's.
Tijd-geëxpandeerde Graafrepresentatie: Een innovatieve manier om zowel agent-agent als agent-omgeving interacties over tijd en ruimte te coderen.
Dual-VGAE Architectuur: Een unieke opzet die structurele patronen en semantische kenmerken (acties/locaties) gezamenlijk leert, geconditioneerd op natuurlijke taal.
LLM-gebootste Data-pijplijn: Een methode om grote hoeveelheden hoogwaardige synthetische trainingsdata te genereren zonder dure real-world annotatie, wat de schaalbaarheid vergroot.

Resultaten en Evaluatie

Het framework is getest op twee scenario's: een Universiteitscampus en een Treinstation.

Kwantitatieve Analyse:
- Gen-C presteert significant beter dan baselines (zoals een enkel VGAE-model of willekeurige perturbaties) op zowel structurele metrics (graafdiameter, clusteringcoëfficiënt) als semantische metrics (verdeling van acties en locaties).
- De KL-divergentie tussen de gegenereerde en de grondwahrheid (ground-truth) distributies is het laagst voor Gen-C, wat aangeeft dat het model de echte dynamiek nauwkeurig nabootst.
- Latente Ruimte Analyse: Metingen zoals FID (Fréchet Inception Distance) en MMD tonen aan dat de gegenereerde grafen goed aligneren met de trainingsverdeling, en dat het model domeinspecifieke nuances (bijv. meer "wachten" op een station vs. meer "praten" op campus) leert.
Kwalitatieve Analyse & User Study:
- Een user study (N=29) toonde aan dat de door Gen-C gegenereerde actieverdelingen sterk overeenkomen met menselijke verwachtingen (lage Jensen-Shannon Divergentie).
- Het model onderscheidt zich van bestaande methoden door het vermogen om context-specifieke regels te volgen (bijv. in een treinstation is gedrag meer gestructureerd dan op een open campus).
- Visuele resultaten in Unity tonen coherente menigtes met diverse activiteiten zoals in de rij staan, praten, wachten en wandelen.
Schaalbaarheid:
- In tegenstelling tot directe LLM-generatie, die inefficiënt wordt en minder diversiteit vertoont naarmate het aantal agenten toeneemt, behoudt Gen-C zijn diversiteit en validiteit bij schaling naar grote menigten (tot 160 agenten) met een voorspelbare inferentietijd.

Betekenis en Toekomstperspectief

Gen-C markeert een verschuiving in menigtesimulatie van louter fysieke navigatie naar semantische planning. Het stelt ontwikkelaars in staat om virtuele werelden te vullen met rijke, menselijke interacties die reageren op tekstuele prompts, wat cruciaal is voor de volgende generatie games, films en simulaties.

Beperkingen en Toekomstig Werk:
Huidige beperkingen omvatten het ontbreken van langetermijnintenties, het niet kunnen wisselen van acties tijdens uitvoering, en een beperkte set vooraf gedefinieerde acties. Toekomstig onderzoek richt zich op:

Integratie van geheugen en overtuigingsstaten voor langdurig coherent gedrag.
Integratie met fysieke simulatoren om hoogwaardige plannen te koppelen aan laagwaardige navigatie.
Uitbreiding van de actie-taxonomie en het leren van hybride datasets (binnen- en buitenruimtes) voor betere aanpasbaarheid.

Samenvattend biedt Gen-C een schaalbare, data-gedreven oplossing om virtuele werelden te bevolken met realistische, interactieve en contextbewuste menigtes.