Specification-Driven Generation and Evaluation of Discrete-Event World Models via the DEVS Formalism

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie wollen einen digitalen Zwilling einer echten Welt bauen. Vielleicht eine Fabrik, ein Krankenhaus oder ein Liefernetzwerk. Sie wollen diesen digitalen Zwilling nutzen, um zu testen: „Was passiert, wenn wir 100 neue Roboter hinzufügen?" oder „Was ist, wenn der Strom ausfällt?"

Das ist das Ziel von Weltmodellen. Aber bisher gab es bei der Erstellung dieser Modelle ein großes Dilemma, wie die Autoren dieses Papiers erklären:

Die Handwerker-Methode (Zu starr): Früher haben Menschen diese Simulationen von Hand programmiert. Das ist sehr zuverlässig und genau, aber es dauert ewig. Wenn sich die Regeln ändern (z. B. neue Roboter), muss man alles neu schreiben. Das ist wie ein Haus zu bauen, bei dem man für jede neue Tür den ganzen Grundriss neu zeichnen muss.
Die KI-Raten-Methode (Zu chaotisch): Heute nutzen viele KI-Modelle (LLMs), um die Zukunft vorherzusagen. Die KI „rät" einfach, was als Nächstes passiert. Das ist flexibel, aber unzuverlässig. Bei langen Vorhersagen macht die KI kleine Fehler, die sich aufaddieren, bis das Ergebnis Unsinn ist. Es ist wie ein Orakel, das manchmal richtig liegt, aber nie erklärt, warum es zu diesem Schluss kam.

Die Autoren schlagen eine dritte, clevere Lösung vor: Spezifikationsgetriebene Generierung von diskreten Ereignis-Modellen.

Klingt kompliziert? Hier ist die einfache Erklärung mit Analogien:

1. Die Idee: Die Welt als eine Kette von Ereignissen

Stellen Sie sich eine Bäckerei vor.

Die Welt verändert sich nicht ständig fließend (wie Wasser in einem Fluss), sondern durch diskrete Ereignisse: Ein Kunde kommt an, ein Brot geht in den Ofen, ein Brot kommt raus, ein Kunde zahlt.
Zwischen diesen Ereignissen passiert nichts. Die Uhr läuft, aber der Zustand der Bäckerei bleibt gleich.

Die Autoren nutzen eine alte, aber sehr strenge Bauanleitung namens DEVS (Discrete Event System Specification). Man kann sich DEVS wie einen perfekten Bauplan für Lego-Steine vorstellen. Jeder Stein (z. B. „Ofen", „Kunde", „Kasse") hat genau definierte Regeln:

Wann kommt er in Aktion?
Was passiert, wenn er ein Signal bekommt?
Was gibt er als Antwort zurück?

2. Der Prozess: Der Architekt und die Handwerker

Anstatt eine KI zu bitten, den ganzen Code auf einmal zu schreiben (was oft zu Fehlern führt), teilen die Autoren die Aufgabe in zwei Schritte auf, ähnlich wie bei einem Bauprojekt:

Schritt 1: Der Architekt (Struktur-Synthese)
Die KI liest Ihre Beschreibung („Ich brauche eine Bäckerei mit 3 Öfen und 2 Kassen") und erstellt zuerst nur den Grundriss. Sie entscheidet: „Okay, wir brauchen einen Hauptknoten, der die Öfen steuert, und einen, der die Kassen steuert." Sie definiert die Schnittstellen: „Der Ofen darf nur mit dem Kassen-Stecker verbunden werden, nicht direkt mit dem Kunden."
- Analogie: Der Architekt zeichnet die Wände und Türen, aber malt noch keine Tapeten auf.
Schritt 2: Die Handwerker (Verhaltens-Synthese)
Jetzt werden die einzelnen Lego-Steine (die Komponenten) einzeln gebaut. Ein Handwerker baut nur den „Ofen", ein anderer nur die „Kasse". Da jeder Handwerker nur für seinen kleinen Bereich zuständig ist und klare Anweisungen vom Architekten hat, macht er weniger Fehler.
- Vorteil: Wenn der „Ofen" kaputt ist, muss man nicht das ganze Haus abreißen, sondern nur den Ofen reparieren.

3. Der Test: Der Qualitätskontrolleur

Das größte Problem bei KI-generiertem Code ist: „Funktioniert es wirklich so, wie ich es mir vorgestellt habe?"
Die Autoren haben einen cleveren Trick: Sie lassen die Simulation laufen und schreiben jedes einzelne Ereignis in ein Logbuch (eine Art Fahrtenbuch).

Der Qualitätskontrolleur liest dieses Logbuch. Er vergleicht nicht den Code, sondern das Verhalten.
Beispiel: Die Spezifikation sagt: „Ein Brot darf nicht verkauft werden, bevor es gebacken ist."
Der Kontrolleur schaut ins Logbuch: „Aha, um 10:00 Uhr wurde Brot verkauft, aber um 10:01 Uhr wurde es erst gebacken." -> Fehler gefunden!
Er kann genau sagen: „Der Ofen-Modul hat das falsche Signal gesendet."

Warum ist das revolutionär?

Es ist wie ein Baukasten: Sie können die Weltbeschreibung auf Englisch eingeben, und das System baut daraus sofort einen funktionierenden Simulator.
Es ist überprüfbar: Da jedes Ereignis protokolliert wird, können Sie genau sehen, warum etwas schiefgelaufen ist. Keine „Black Box", die nur Raten liefert.
Es ist skalierbar: Weil das System in kleine Module zerlegt ist, können Sie riesige Systeme (wie ganze Lieferketten) bauen, ohne dass die KI den Überblick verliert.
Es ist schnell: Die KI muss nicht stundenlang hin und her raten und korrigieren. Sie baut strukturiert nach Plan.

Zusammenfassung in einem Satz

Die Autoren haben eine Methode entwickelt, bei der eine KI nicht einfach „rät", wie eine Welt funktioniert, sondern wie ein disziplinierter Architekt und ein Team von Handwerkern zusammenarbeitet, um aus einer einfachen Beschreibung einen perfekt funktionierenden, überprüfbaren und leicht anpassbaren digitalen Zwilling zu bauen.

Es ist der Unterschied zwischen einem Kind, das mit einem Haufen Lego wild herumspielt (KI-Raten), und einem professionellen Bauprojekt, bei dem jeder Stein an der richtigen Stelle sitzt und jeder Schritt dokumentiert ist (DEVS-Ansatz).

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Weltmodelle sind essenziell für die Planung und Bewertung in agentenbasierten Systemen. Der aktuelle Forschungsstand bewegt sich jedoch zwischen zwei Extremen:

Manuell entwickelte Simulatoren: Diese bieten Konsistenz und Reproduzierbarkeit, sind aber teuer in der Anpassung und schwer an neue Umgebungen (insbesondere Online-Szenarien) anzupassen.
Implizite neuronale Modelle (z. B. LLMs): Diese sind flexibel und können durch Prompting angepasst werden, leiden aber unter mangelnder Verifizierbarkeit, schwerer Debugging-Fähigkeit über lange Zeiträume und der Tendenz, Fehler zu akkumulieren (Drift), da Zeit und Kausalität oft latent bleiben.

Es fehlt eine prinzipielle „Mitte", die die Zuverlässigkeit expliziter Simulatoren mit der Flexibilität von gelernten Modellen verbindet. Das Ziel ist die Entwicklung von Weltmodellen, die:

Konsistent über lange Rollouts sind.
Reproduzierbar und aus beobachtbarem Verhalten verifizierbar sind.
Bei Bedarf während der Online-Ausführung angepasst oder neu synthetisiert werden können.

Der Fokus liegt auf Umgebungen, deren Dynamik primär durch die Reihenfolge, den Zeitpunkt und die Kausalität diskreter Ereignisse bestimmt wird (z. B. Warteschlangen, Netzwerkprotokolle, Lieferketten, Multi-Agenten-Koordination).

2. Methodik

Die Autoren schlagen einen Ansatz vor, bei dem diskrete Ereignis-Weltmodelle als ausführbare Simulatoren synthetisiert werden, die direkt aus natürlichen Sprachspezifikationen abgeleitet sind.

A. Formalismus: DEVS (Discrete Event System Specification)

Als operative Darstellung wird der DEVS-Formalismus verwendet.

Struktur: Systeme werden in eine Hierarchie aus atomaren (eigenständige Zustandslogik) und gekoppelten Komponenten (Verknüpfung und Routing) zerlegt.
Semantik: DEVS erzwingt explizite Zustandsübergänge, Zeitfortschritte und Ereignis-Traces. Dies verhindert den ungebundenen Drift, der bei impliziten Modellen häufig auftritt.
Schnittstelle: Der Simulator agiert als Blackbox mit einer standardisierten CLI-Schnittstelle für Eingriffe und emittiert strukturierte Ereignis-Traces (JSONL-Format).

B. Generierungs-Pipeline (DEVS-Gen)

Ein zweistufiger, LLM-basierter Code-Generierungsprozess wird eingeführt, um die Komplexität der Synthese zu bewältigen:

Strukturelle Synthese (Structural Synthesis):
- Ein LLM analysiert die natürliche Sprachspezifikation und leitet eine Architektur ab (Komponentenhierarchie, Interaktionsgraph, Port-Schemata).
- Das Ergebnis ist ein strukturierter PlanTree, der als Vertrag (Contract) für die nächste Stufe dient.
- Spezialisierte Agenten (Classifier, Splitter, Formulator) bestimmen, welche Komponenten atomar oder gekoppelt sind, und definieren die Schnittstellen.
Verhaltenssynthese (Behavioral Synthesis):
- Basierend auf dem PlanTree werden die atomaren Modelle parallel generiert.
- Ein Summarizer-Agent analysiert den generierten Code der Untermodule, um die „Ground-Truth"-Schnittstellen zu extrahieren.
- Die übergeordneten gekoppelten Modelle werden dann adaptiv basierend auf diesen tatsächlichen Schnittstellen (nicht nur dem ursprünglichen Plan) zusammengesetzt, um Integrationsfehler zu vermeiden.

C. Evaluierungs-Framework (Trace-Based Evaluation)

Da es keine eindeutige „Ground Truth"-Implementierung gibt, wird die Bewertung spezifikationsgetrieben durchgeführt:

Ereignis-Traces: Der generierte Simulator emittiert einen strukturierten Trace (Zeit, Entität, Typ, Payload).
Verifikation: Diese Traces werden gegen regelbasierte Constraints geprüft, die aus der Spezifikation abgeleitet sind (z. B. zeitliche Reihenfolge, semantische Invarianten, Sicherheitsbedingungen).
Metriken:
- Operational Success Score (OSS): Misst, ob der Code kompiliert, läuft und das I/O-Protokoll einhält.
- Behavioral Conformance Score (BCS): Misst, ob die beobachtbaren Verhaltensmuster (Traces) die spezifizierten temporalen und kausalen Constraints erfüllen.

3. Wichtige Beiträge

DEVS-basierte Weltmodelle: Ein neuer Ansatz, der diskrete Ereignis-Simulationen als erste Klasse für Weltmodelle nutzt, um Konsistenz und Verifizierbarkeit zu gewährleisten.
Modulare Synthese-Pipeline: Eine zweistufige Generierungsmethode, die strukturelle Planung von Verhaltenslogik trennt. Dies ermöglicht parallele Generierung und erhöht die Stabilität, da Fehler lokalisiert werden können.
Trace-basierte Evaluierung: Ein Framework zur Verifikation von LLM-generierten Simulatoren ohne Referenzimplementierung, das auf der Einhaltung von Spezifikations-Constraints in den Ereignis-Traces basiert.
Benchmark-Datensatz: Ein kuratiertes Set aus 7 realistischen Szenarien (z. B. Banken, Logistik, Netzwerkprotokolle), das auf existierenden Open-Source-DEVS-Modellen basiert und in natürliche Sprache übersetzt wurde.

4. Ergebnisse

Die Methode (DEVS-Gen) wurde gegen state-of-the-art Software-Engineering-Agenten (OpenHands, SWE-Agent) evaluiert.

Effektivität: DEVS-Gen erreicht vergleichbare oder bessere Ergebnisse in Bezug auf funktionale Korrektheit (OSS und BCS) als iterative Agenten, obwohl es keine Ausführungsrückmeldungen (kein „Try-and-Error"-Debugging) nutzt.
- Beispiel: Mit dem GPT-5.2-Modell erreichte DEVS-Gen einen OSS von 0,86, während iterative Agenten zwar höher lagen (0,96), aber deutlich mehr Ressourcen verbrauchten. Bei kleineren Modellen (z. B. GLM-4.7-Flash) war DEVS-Gen deutlich stabiler (OSS 0,48 vs. 0,13 bei SWE-Agent).
Effizienz: DEVS-Gen ist signifikant ressourcenschonender.
- Token-Verbrauch: Reduktion um ca. eine Größenordnung (Faktor ~10) im Vergleich zu iterativen Agenten, da keine langen Debugging-Schleifen durchlaufen werden.
- Zeit: Deutlich schnellere Generierung, da keine Wartezeiten auf Fehlerbehebungen entstehen.
Skalierbarkeit: Durch die modulare Architektur wächst die Synthesezeit logarithmisch mit der Systemgröße ( $O(\log N)$ ) statt linear, was parallele Generierung von Atommodellen ermöglicht.

5. Bedeutung und Ausblick

Das Paper demonstriert, dass eine „Mitte" zwischen starren Simulatoren und unzuverlässigen neuronalen Modellen möglich ist.

Zuverlässigkeit: Durch die Nutzung von DEVS werden Zeit und Kausalität explizit gemacht, was die Diagnose von Fehlern und die Verifizierung von Langzeitverhalten ermöglicht.
Anpassbarkeit: Modelle können bei Bedarf aus natürlichen Sprachbeschreibungen neu synthetisiert werden, was für dynamische Umgebungen (Online-Execution) entscheidend ist.
Hybride Systeme: Der Ansatz legt den Grundstein für hybride Systeme, in denen LLMs als Entscheidungsagenten innerhalb von DEVS-Komponenten integriert werden, um komplexe Multi-Agenten-Simulationen (z. B. soziale Simulationen) vollständig über natürliche Sprache zu spezifizieren und instanziieren.

Zusammenfassend bietet DEVS-Gen einen skalierbaren, verifizierbaren und effizienten Weg zur Erstellung von Weltmodellen für diskrete Ereignisdomänen, der die Lücke zwischen theoretischer Spezifikation und ausführbarer Simulation schließt.