VisionCreator: A Native Visual-Generation Agentic Model with Understanding, Thinking, Planning and Creation

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest einen ganzen Film drehen oder ein komplexes Werbeplakat entwerfen. Früher hast du dafür einen Regisseur, einen Drehbuchautor, einen Kameramann, einen Grafiker und einen Schnittmeister gebraucht. Jeder war ein Experte für seinen Teil, aber niemand konnte alles allein.

Das ist genau das Problem, mit dem sich die KI-Forschung bei visuellen Inhalten (Bilder und Videos) lange herumgeschlagen hat. Entweder war die KI gut darin, ein einzelnes Bild zu malen (wie ein talentierter Maler), oder sie war gut darin, Befehle zu befolgen und Werkzeuge zu benutzen (wie ein strenger Assistent), aber sie konnte nicht beides gleichzeitig: verstehen, planen und kreativ umsetzen.

Die Forscher von Tencent Hunyuan haben jetzt eine Lösung namens VisionCreator vorgestellt. Hier ist eine einfache Erklärung, wie das funktioniert, mit ein paar bildhaften Vergleichen:

1. Der große Unterschied: Der "Allrounder" vs. der "Spezialist"

Bisherige KI-Modelle waren wie zwei verschiedene Arten von Mitarbeitern:

Der "Künstler": Kann tolle Bilder malen, weiß aber nicht, wie man eine ganze Geschichte plant. Wenn du sagst "Mach mir einen Film über einen Hund", malt er nur ein Bild von einem Hund.
Der "Bürokrate": Weiß genau, welche Werkzeuge er benutzen muss (z. B. "erst Text, dann Bild, dann Video"), aber ihm fehlt das kreative Verständnis. Er folgt starren Anweisungen und kann nicht improvisieren, wenn etwas schiefgeht.

VisionCreator ist wie ein kreativer Regisseur, der in einer Person vereint:

Verstehen: Er versteht, was du wirklich willst (nicht nur das, was du sagst).
Denken: Er überlegt sich, wie er das Problem löst.
Planen: Er schreibt ein Drehbuch und einen Arbeitsplan.
Erstellen: Er führt die Arbeit aus und nutzt dabei verschiedene KI-Werkzeuge als seine "Helfer".

2. Das Problem: Woher kommt der Lernstoff?

Ein Regisseur lernt nicht einfach durch Zufall. Er braucht Erfahrung. Das Problem war: Es gab keine guten "Lehrbücher" für KIs, die zeigen, wie man komplexe visuelle Projekte Schritt für Schritt plant.

Die Forscher haben daher VisionAgent erfunden. Stell dir das wie einen Super-Mentor vor. Dieser Mentor (der selbst eine sehr starke KI ist) hat Tausende von kreativen Projekten simuliert, dabei laut mitgedacht ("Metakognition") und die besten Arbeitswege aufgezeichnet.

Aus 20.000 Versuchen haben sie die 4.000 besten "Lehrpfade" herausgefiltert.
Das Ergebnis ist VisGenData-4k: Ein riesiges Lehrbuch, das zeigt, wie man von einer Idee bis zum fertigen Video kommt, inklusive aller Zwischenstufen.

3. Die Ausbildung: Wie lernt die KI?

Die Ausbildung von VisionCreator läuft in zwei Phasen ab, ähnlich wie bei einem Auszubildenden:

Phase 1: Progressive Spezialisierung (PST)
Stell dir vor, du willst ein Chirurg werden. Du kannst nicht sofort am Patienten operieren. Zuerst lernst du Anatomie (allgemeines Wissen), dann übst du an Puppen (Spezialisierung).
Die KI lernt zuerst, allgemein gut zu denken und zu planen. Dann wird sie schrittweise auf visuelle Aufgaben spezialisiert, ohne dabei ihr allgemeines Wissen zu vergessen. Das verhindert, dass sie "dumm" wird, weil sie sich zu sehr auf eine Sache konzentriert.
Phase 2: Virtuelles Reinforcement Learning (VRL)
Hier wird es spannend. Normalerweise müsste man eine KI trainieren, indem man sie echte Bilder und Videos erstellen lässt. Das wäre aber extrem teuer (wie Tausende von Grafikkarten gleichzeitig) und langsam.
Stattdessen haben die Forscher eine Virtuelle Werkstatt (VisGenEnv) gebaut.
- Die Analogie: Stell dir ein Flugsimulator vor. Ein Pilot kann millionenfach in einem Simulator üben, wie er bei Sturm landet, ohne dass ein echtes Flugzeug abstürzt oder Treibstoff kostet.
- In dieser virtuellen Werkstatt simuliert die KI das Verhalten von 36 verschiedenen Werkzeugen (z. B. "Erstelle ein Bild", "Schneide ein Video"). Sie macht Fehler, lernt daraus und bekommt Belohnungen, wenn ihr Plan funktioniert.
- Die Theorie dahinter besagt: Wenn die Simulation realistisch genug ist, lernt die KI so gut, dass sie auch in der echten Welt brilliert.

4. Der Test: VisGenBench

Um zu prüfen, ob der "Regisseur" wirklich gut ist, haben die Forscher einen großen Testlauf namens VisGenBench organisiert.

Es gibt 1.200 verschiedene Aufgaben, von "Erstelle ein Logo" bis "Mach einen 30-sekündigen Werbespot".
Die Ergebnisse sind beeindruckend: VisionCreator (mit nur 8 Milliarden oder 32 Milliarden Parametern) schlägt oder holt sich mit riesigen, geschlossenen KI-Modellen (wie GPT-5 oder Gemini), die viel größer und teurer sind.
Besonders stark ist die KI darin, dass sie konsistent bleibt. Wenn sie einen Charakter in einem Bild plant, sieht dieser Charakter im nächsten Bild und im Video genauso aus. Das ist für KIs oft eine große Herausforderung.

Zusammenfassung

VisionCreator ist wie ein kreativer Generalist, der gelernt hat, nicht nur zu malen, sondern auch zu planen.

Er hat von einem Super-Mentor gelernt (durch die Daten).
Er hat in einer virtuellen Werkstatt geübt (ohne teure Hardware).
Und er ist jetzt so gut, dass er mit den größten KI-Giganten mithalten kann, obwohl er eigentlich "kleiner" ist.

Dieser Ansatz zeigt, dass wir in Zukunft nicht unbedingt riesige, teure Modelle brauchen, um komplexe kreative Aufgaben zu lösen, sondern intelligente Modelle, die verstehen, planen und ausführen können – genau wie ein menschlicher Kreativ-Profi.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die automatische Erstellung visueller Inhalte (Bilder und Videos) durch KI steht vor erheblichen Herausforderungen, da bestehende Ansätze entweder zu starr oder zu oberflächlich sind:

Allgemeine multimodale Modelle (UMM): Diese besitzen zwar starke Verständnisfähigkeiten, fehlen jedoch das domänenspezifische Wissen für autonome kreative Planung und können komplexe Ziele ohne umfangreiches Prompt-Engineering oft nicht in Teilschritte zerlegen.
Workflow-spezifische Agenten: Diese nutzen vordefinierte Pipelines für bestimmte Domänen (z. B. Filmproduktion), sind aber unflexibel und können sich nicht an diverse kreative Aufgaben oder unerwartete Ergebnisse anpassen.
Workflow-geführte Agenten: Diese orchestrieren externe Tools über Prompts, leiden jedoch unter mangelndem tiefgreifendem kreativen Verständnis, starrer Koordinationslogik und der Unfähigkeit, das System end-to-end für die Aufgabenleistung zu optimieren.

Zudem gibt es ein Daten-Engpass: Es fehlen umfassende Datensätze mit hochwertigen Trajektorien, die den gesamten Prozess des Verstehens, Denkens, Planens und Erstellens (UTPC) abbilden. Auch das Training ist schwierig, da direkte Reinforcement Learning (RL) mit realen Tools extrem teuer und instabil ist.

2. Methodik: VisionCreator

Das Paper stellt VisionCreator vor, ein natives, end-to-end lernbares Agentenmodell, das die Fähigkeiten Understanding (Verstehen), Thinking (Denken), Planning (Planen) und Creation (Erstellen) vereint.

A. Datengenerierung: VisGenData-4k

Um das Datenproblem zu lösen, wurde ein Framework namens VisionAgent entwickelt, das auf Metakognition basiert.

Architektur: Ein Dual-Agent-System aus einem TaskAgent (Klassifizierung und Routing) und einem MetaAgent (kernbasiertes Schlussfolgern).
Prozess: Der MetaAgent nutzt vier reasoning-Typen (Situationsbewusstsein, Planerstellung, Tool-Aufruf, Antwortverifikation), um hochwertige Trajektorien zu generieren.
Ergebnis: Aus 16.000 generierten Trajektorien wurden durch algorithmische Filterung und menschliche Prüfung 4.000 hochqualitative Datensätze (VisGenData-4k) extrahiert, die komplexe, mehrstufige kreative Aufgaben abdecken.

B. Trainingsparadigma: PST und VRL

Das Training erfolgt in zwei Stufen, um die Balance zwischen allgemeiner Intelligenz und spezialisierter Kreativität zu finden:

Progressive Specialization Training (PST):
- Ein zweistufiger Lehrplan, der zunächst robuste allgemeine Fähigkeiten (Verstehen/Denken) auf großen allgemeinen Daten aufbaut und dann gezielt auf visuelle Erstellung spezialisiert.
- Dies verhindert das „katastrophale Vergessen" allgemeiner Fähigkeiten und liefert eine starke Initialisierung für das RL.
Virtual Reinforcement Learning (VRL):
- Um die Kosten realer Tool-Aufrufe zu vermeiden, wurde VisGenEnv, eine hochfidelitäre virtuelle Umgebung, entwickelt. Sie simuliert 36 visuelle Erstellungstools (z. B. Text-zu-Video, Bildbearbeitung) mit korrekten physikalischen Attributen.
- LtrReward (Long Trajectory Reasoning Reward): Ein Belohnungssystem, das aus Plan Reward (Qualität des Plans) und Fine-grained Reward (Struktur, Tool-Erfolg, Konsistenz) besteht.
- Plan-Driven Reward: Die Belohnung ist multiplikativ gekoppelt ( $R_{plan} \times R_{fine}$ ), was sicherstellt, dass nur korrekte Pläne, die auch korrekt ausgeführt werden, hohe Belohnungen erhalten.
- Theoretische Fundierung: Das Paper liefert mathematische Beweise (Theoreme 4.1 & 4.2), die zeigen, dass der Transfer von der virtuellen zur realen Welt kontrollierbar ist, solange die Tool-Fähigkeit hoch ist und die Planung logisch korrekt ist.

3. Schlüsselbeiträge

VisionCreator-Modell: Ein natives Agentenmodell, das UTPC-Fähigkeiten in einem end-to-end Framework vereint und keine externen Workflow-Vorlagen benötigt.
VisGenData-4k: Ein hochwertiger Datensatz mit 4.000 Trajektorien, der durch einen metakognitiven Agenten generiert wurde und explizite Strukturen für Verstehen, Denken, Planen und Erstellen enthält.
Neue Trainingsmethode: Die Kombination aus PST und VRL in einer simulierten Umgebung (VisGenEnv) ermöglicht effizientes, stabiles Lernen komplexer kreativer Abläufe ohne tausende GPU-Stunden für reale API-Aufrufe.
VisGenBench: Ein umfassender Benchmark mit 1.200 Testfällen (400 Bilder, 800 Videos) über 35+ reale Szenarien und 10 Evaluierungsdimensionen, der den ersten Standard für die Bewertung mehrstufiger visueller Erstellung darstellt.

4. Ergebnisse

Die Evaluation auf VisGenBench zeigt beeindruckende Leistungen:

Überlegenheit gegenüber großen Modellen: Die Modelle VisionCreator-8B und VisionCreator-32B übertreffen deutlich größere geschlossene Modelle wie GPT-5 und Gemini-2.5-Pro in mehreren Dimensionen.
Erfolgsrate: VisionCreator-8B erreicht eine Erfolgsrate von 92,5 % (vs. 86,3 % bei GPT-5).
Konsistenz: Das Modell erzielt die höchsten Werte bei Objekt- und Szenenkonsistenz, was die Stärke der nativen Agentenarchitektur bei mehrstufigen Aufgaben unterstreicht.
Menschliche Bewertung: In der menschlichen Evaluation (Tab. 3) erreicht VisionCreator-32B den höchsten Gesamtscore (3,42) und übertrifft sowohl GPT-5 (3,19) als auch Gemini-2.5-Pro (3,01).
Ablationsstudien: Diese bestätigen, dass PST essenziell ist, um Überanpassung zu vermeiden, und dass die plan-getriebene Belohnungsfunktion (Plan $\times$ Fine) die Leistung signifikant steigert.

5. Bedeutung und Ausblick

Diese Arbeit stellt einen Paradigmenwechsel dar: Statt auf starre Workflows oder reine Prompt-Engineering-Strategien zu setzen, ermöglicht VisionCreator ein end-to-end lernbares System, das kreative Absichten versteht, komplexe Pläne entwickelt und diese autonom ausführt.

Kosteneffizienz: Durch die Nutzung von VRL in einer simulierten Umgebung wird das Training massiv beschleunigt und die Kosten für GPU-Ressourcen gesenkt.
Skalierbarkeit: Die Methode beweist, dass spezialisierte Agenten mit weniger Parametern (8B/32B) leistungsfähiger sein können als riesige generische Modelle, wenn die Architektur und das Training auf die spezifische Aufgabe (kreative Erstellung) optimiert sind.
Zukunft: Das Paper legt den Grundstein für zukünftige autonome Systeme zur kreativen Inhaltsproduktion, die komplexe, mehrstufige visuelle Aufgaben in realen Anwendungen zuverlässig bewältigen können.

VisionCreator: A Native Visual-Generation Agentic Model with Understanding, Thinking, Planning and Creation

1. Der große Unterschied: Der "Allrounder" vs. der "Spezialist"

2. Das Problem: Woher kommt der Lernstoff?

3. Die Ausbildung: Wie lernt die KI?

4. Der Test: VisGenBench

Zusammenfassung

1. Problemstellung

2. Methodik: VisionCreator

A. Datengenerierung: VisGenData-4k

B. Trainingsparadigma: PST und VRL

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

Model2Kernel: Model-Aware Symbolic Execution For Safe CUDA Kernels

Algorithmic Barriers to Detecting and Repairing Structural Overspecification in Adaptive Data-Structure Selection

Zero-Cost NDV Estimation from Columnar File Metadata

Persistence-based topological optimization: a survey

Multi-LLM Query Optimization