PhyPrompt: RL-based Prompt Refinement for Physically Plausible Text-to-Video Generation

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen magischen Zauberstab, der aus reinen Textbeschreibungen Filme erstellt. Das ist das, was moderne „Text-zu-Video"-KIs heute können. Aber es gibt ein großes Problem: Diese KIs sind wie kreative Träumer, die die Gesetze der Physik nicht kennen.

Wenn du ihnen sagst: „Ein Glas wird mit Wein gefüllt", malen sie dir vielleicht einen wunderschönen Film, aber der Wein fließt einfach durch das Glas hindurch oder der Füllstand ändert sich gar nicht. Das sieht hübsch aus, ist aber physikalisch unmöglich.

Die Forscher von PhyPrompt haben eine Lösung gefunden, die wie ein persönlicher Physik-Tutor für die KI funktioniert. Hier ist die Erklärung, wie das Ganze funktioniert, ohne Fachchinesisch:

1. Das Problem: Der „Träumer" vs. der „Physiker"

Die aktuellen KIs sind super darin, Dinge hübsch aussehen zu lassen (wie ein Maler, der Farben mischt), aber sie verstehen nicht, wie die Welt wirklich funktioniert.

Das alte Problem: Wenn du der KI sagst „Wein wird eingegossen", denkt sie nur an die Worte. Sie weiß nicht, dass der Wein das Glas füllen muss.
Die manuelle Lösung: Ein Experte könnte die Beschreibung ändern zu: „Wein wird langsam in ein Glas gegossen, und der Füllstand steigt sichtbar an." Das funktioniert! Aber niemand hat Zeit, jede einzelne Beschreibung so zu korrigieren.

2. Die Lösung: PhyPrompt (Der Physik-Coach)

PhyPrompt ist ein kleines, intelligentes Programm (ein „Rewriter"), das zwischen dir und der Film-KI sitzt. Es nimmt deine kurze Eingabe und verwandelt sie in eine detaillierte Anweisung, die die KI versteht.

Es lernt das in zwei Schritten, wie ein Schüler, der erst die Grammatik lernt und dann die Physik:

Schritt 1: Der Physik-Kurs (Supervised Fine-Tuning)
Das Programm lernt zuerst aus einem Buch voller Beispiele, wie man physikalische Gesetze in Worte fasst. Es lernt Begriffe wie „schwerkraftbedingt", „fließend" oder „beschleunigend". Es wird wie ein Schüler, der lernt: „Wenn etwas fällt, muss es nach unten gehen, nicht schweben."
Schritt 2: Der Trainings-Camp (Reinforcement Learning)
Jetzt wird das Programm trainiert, indem es selbst Filme generiert und bewertet. Hier kommt der geniale Trick ins Spiel:
- Der Anfang: Am Anfang sagt der Trainer: „Hauptsache, der Film zeigt das, was du wolltest!" (Semantik).
- Der Fortschritt: Je besser es wird, desto mehr sagt der Trainer: „Jetzt pass auf die Physik auf!" (Physik).
- Warum ist das clever? Wenn man beides gleichzeitig fordert, verwirrt sich die KI oft. Aber wenn man erst die Grundstruktur lernt und dann die physikalischen Details hinzufügt, findet die KI eine perfekte Balance. Es ist wie beim Bauen eines Hauses: Zuerst das Fundament (was soll passieren?), dann die Wände und das Dach (wie bewegt es sich physikalisch korrekt?).

3. Das Ergebnis: Ein „Super-Übersetzer"

Das Ergebnis ist ein System, das so gut ist, dass es sogar GPT-4o (einem riesigen, sehr teuren KI-Modell) schlägt, obwohl es viel kleiner und schlanker ist.

Es ist universell: Es funktioniert bei fast allen aktuellen Film-KIs (wie Lavie, VideoCrafter, CogVideoX), ohne dass man die KIs selbst umbauen muss. Es ist wie ein universeller Adapter, den man einfach aufschraubt.
Es ist effizient: Statt die riesige Film-KI neu zu trainieren (was wie das Umrüsten eines ganzen Kraftwerks wäre), trainieren wir nur diesen kleinen „Coach" (wie einen neuen Fahrlehrer).

Zusammenfassung in einer Metapher

Stell dir vor, die Film-KI ist ein Genießer-Koch, der fantastisch kocht, aber nicht weiß, wie man ein Omelett macht, ohne dass es zerfällt.

Ohne PhyPrompt: Du sagst „Mach ein Omelett", und er wirft Eier in die Luft, die dann auf den Boden fallen.
Mit PhyPrompt: Ein kleiner Assistent (PhyPrompt) nimmt deine Bestellung, schreibt sie um zu: „Schlage die Eier sanft, brate sie bei mittlerer Hitze, damit sie zusammenhalten", und gibt sie dem Koch.
Das Resultat: Der Koch (die KI) macht ein perfektes Omelett, weil er die richtigen Anweisungen bekam. Und das Beste: Der Assistent lernt durch Versuch und Irrtum, wie man diese Anweisungen immer besser formuliert, ohne dass du ihm dabei helfen musst.

Fazit: PhyPrompt zeigt uns, dass man für bessere KI-Filme nicht unbedingt riesigere Computer braucht, sondern einfach bessere Anweisungen, die von einem kleinen, spezialisierten Trainer gelernt werden. Es macht die KI nicht nur hübscher, sondern auch realistischer.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Zustandskünstliche Text-zu-Video-Generatoren (T2V) produzieren zwar visuell beeindruckende Inhalte, verletzen jedoch häufig grundlegende physikalische Gesetze (z. B. Schwerkraft, Impulserhaltung, Kollisionsverhalten). Die Autoren identifizieren, dass dies nicht primär an den Grenzen der Generatormodelle selbst liegt, sondern an unzureichenden physikalischen Constraints in den Eingabe-Prompts.

Das Dilemma: Manuelle Prompt-Engineering-Verfahren, die physikalische Details explizit hinzufügen (z. B. „der Flüssigkeitspiegel steigt"), führen zu physikalisch plausiblen Videos, sind jedoch zeitaufwendig, erfordern Domänenwissen und skalieren nicht.
Bestehende Lösungen: Automatisierte Ansätze wie Promptist (fokussiert auf Ästhetik) oder PhyT2V (iterative Selbstverfeinerung) adressieren das Problem entweder nicht spezifisch genug oder sind ineffizient. Zudem zeigen aktuelle Large Language Models (LLMs) wie GPT-4o oft einen Zielkonflikt: Sie verbessern die physikalische Plausibilität, verschlechtern aber die semantische Treue zum ursprünglichen Nutzerwunsch.

2. Methodik: PhyPrompt

PhyPrompt ist ein zweistufiges Reinforcement-Learning (RL)-Framework, das ein LLM trainiert, um Nutzer-Prompts automatisch in physikalisch realistische Beschreibungen umzuwandeln, ohne den eigentlichen Video-Generator zu verändern.

A. Zwei-Stage Training Pipeline

Supervised Fine-Tuning (SFT):
- Ein LLM (Qwen2.5) wird auf einem speziell kuratierten Chain-of-Thought (CoT)-Datensatz feinabgestimmt.
- Dieser Datensatz basiert auf PhyGenBench und enthält Triplets aus: Original-Prompt, physikalischem Gesetz und einem durch GPT-4o generierten, physikalisch angereicherten Prompt mit einer dazugehörigen Begründungskette.
- Ziel: Das Modell lernt, physikalische Prinzipien (Kraft, Bewegung, Interaktion) in den Prompt zu integrieren, während die Nutzerabsicht erhalten bleibt.
Reinforcement Learning via GRPO:
- Statt des herkömmlichen PPO (Proximal Policy Optimization) wird Group Relative Policy Optimization (GRPO) verwendet. Dies ist effizienter, da es keine separate Wertnetzwerk (Value Network) benötigt, sondern mehrere Kandidaten-Prompts pro Abfrage sampelt und relativ zueinander bewertet.
- Der Generator (z. B. CogVideoX) bleibt eingefroren; nur der Prompt-Rewriter wird trainiert.

B. Dynamisches Reward-Curriculum (Schlüsselinnovation)

Ein zentrales Problem ist der inhärente Konflikt zwischen semantischer Treue (Semantic Adherence, SA) und physikalischem Common Sense (Physical Commonsense, PC). Eine statische Gewichtung führt oft zu einem Trade-off.

Lösung: PhyPrompt nutzt ein dynamisches, zeitabhängiges Reward-Schema.
Ablauf:
- Frühe Trainingsphase: Der Reward priorisiert stark die semantische Treue ( $w_{sa} \approx 1$ ). Das Modell lernt, die Grundstruktur und Objekte korrekt zu beschreiben.
- Späte Trainingsphase: Der Fokus verschiebt sich exponentiell hin zur physikalischen Plausibilität ( $w_{pc} \to 1$ ). Das Modell verfeinert die etablierte semantische Struktur mit physikalischen Details (Kräfte, Dynamik).
Effekt: Dies ermöglicht eine synergistische Optimierung, bei der das Modell Regionen im Prompt-Raum findet, die durch rein einzielige Optimierung unzugänglich sind.

3. Hauptbeiträge

Nachweis der Prompt-Abhängigkeit: Es wird gezeigt, dass T2V-Generatoren physikalisch plausible Videos produzieren können, wenn die Prompts physikalisch bewusst formuliert sind; der Flaschenhals liegt im Prompt, nicht im Generator.
Neues Framework (PhyPrompt): Ein zweistufiges System (SFT + GRPO), das Prompt-Engineering automatisiert und die Qualität manueller Experten-Prompts erreicht.
Dynamisches Curriculum: Ein Reward-Mechanismus, der den Zielkonflikt zwischen Semantik und Physik auflöst und eine über-additive Performance erzielt (besser als die Summe der Einzelziele).
Zero-Shot Transfer: Das System funktioniert ohne Nachtraining auf verschiedenen, architektonisch unterschiedlichen T2V-Modellen (Lavie, VideoCrafter2, CogVideoX).

4. Ergebnisse

Die Evaluation erfolgte auf dem VideoPhy2-Benchmark (500 Prompts) mit verschiedenen Generatoren.

Leistungssteigerung: PhyPrompt-7B erreicht eine Joint Success Rate (SA $\ge$ 4 und PC $\ge$ 4) von 40,8 %.
- Das ist eine Steigerung von +8,6 Prozentpunkten gegenüber dem Basis-Prompt und +10,6 Punkten gegenüber Promptist.
- Physik: Steigerung von 55,8 % auf 66,8 % (+11 Punkte).
- Semantik: Steigerung von 43,4 % auf 47,8 % (+4,4 Punkte).
Vergleich mit State-of-the-Art:
- PhyPrompt-7B (7 Mrd. Parameter) übertrifft GPT-4o (+3,8 % Joint) und DeepSeek-V3 (100x größer, 671 Mrd. Parameter) deutlich in der physikalischen Plausibilität und der Gesamtleistung.
- Dies belegt, dass domänenspezifisches Training mit direktem Feedback effektiver ist als reine Skalierung der Parameterzahl.
Transferfähigkeit: Das auf CogVideoX-2B trainierte Modell zeigt signifikante Verbesserungen bei Lavie (+8,2 %) und VideoCrafter2 (+16,8 %) ohne Anpassung des Rewriters.

5. Bedeutung und Fazit

PhyPrompt demonstriert, dass domänenspezifisches Reinforcement Learning mit kurikularen Ansätzen eine effizientere und leistungsfähigere Strategie für physikalisch fundierte KI-Generierung ist als das bloße Vergrößern von Modellen.

Synergie statt Trade-off: Die Arbeit widerlegt die Annahme, dass semantische Treue und physikalische Plausibilität zwangsläufig gegeneinander arbeiten müssen. Durch die sequenzielle Optimierung (erst Semantik, dann Physik) können beide Ziele gleichzeitig maximiert werden.
Praktische Anwendbarkeit: Da der Rewriter leichtgewichtig und generator-agnostisch ist, bietet PhyPrompt eine skalierbare Lösung für Anwendungen, die hohe physikalische Genauigkeit erfordern (z. B. Robotik-Simulation, wissenschaftliche Visualisierung, Bildung).
Zukunftsausblick: Der Ansatz legt nahe, dass für komplexe generative Aufgaben gezieltes Curriculum-Design und spezialisierte Feinabstimmung wichtiger sind als reine Modellgröße.

PhyPrompt: RL-based Prompt Refinement for Physically Plausible Text-to-Video Generation

1. Das Problem: Der „Träumer" vs. der „Physiker"

2. Die Lösung: PhyPrompt (Der Physik-Coach)

3. Das Ergebnis: Ein „Super-Übersetzer"

Zusammenfassung in einer Metapher

1. Problemstellung

2. Methodik: PhyPrompt

A. Zwei-Stage Training Pipeline

B. Dynamisches Reward-Curriculum (Schlüsselinnovation)

3. Hauptbeiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence

When Is Collective Intelligence a Lottery? Multi-Agent Scaling Laws for Memetic Drift in LLMs

AutoSAM: an Agentic Framework for Automating Input File Generation for the SAM Code with Multi-Modal Retrieval-Augmented Generation

Trust as Monitoring: Evolutionary Dynamics of User Trust and AI Developer Behaviour

Formal Semantics for Agentic Tool Protocols: A Process Calculus Approach