SCHEMA for Gemini 3 Pro Image: A Structured Methodology for Controlled AI Image Generation on Google's Native Multimodal Model

Die vorliegende Arbeit stellt SCHEMA vor, eine auf umfangreichen API-Tests basierende, dreistufige Prompt-Engineering-Methodik für Google Gemini 3 Pro Image, die durch modulare Komponenten und klare Entscheidungsregeln eine signifikant höhere Compliance und Konsistenz bei der generierten Bildinhalte in sechs professionellen Domänen gewährleistet.

Luca Cazzaniga

Veröffentlicht 2026-02-24
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen unglaublich talentierten, aber etwas chaotischen Künstler in deinem Studio. Er kann die schönsten Bilder der Welt malen, aber wenn du ihm sagst: „Mach mal ein schönes Bild von einem Sofa," wird er vielleicht ein Sofa malen, das auf dem Kopf steht, mit rosa Polstern, obwohl du ein graues wolltest, oder er malt drei Sofas statt eines.

Das ist das Problem mit vielen aktuellen KI-Bildgeneratoren: Sie sind kreativ, aber schwer zu zähmen, wenn es um echte, professionelle Arbeit geht.

Die vorliegende Studie von Luca Cazzaniga stellt eine Lösung vor, die er SCHEMA nennt. Hier ist eine einfache Erklärung, wie das funktioniert, ohne Fachchinesisch:

1. Das Problem: Der „Künstler" braucht klare Anweisungen

Bisher haben die Leute versucht, KI-Bilder zu erstellen, indem sie einfach einen langen, fließenden Text schrieben (wie ein Gespräch). Das ist wie wenn du einem Koch sagst: „Mach mir etwas Leckeres." Er könnte eine Pizza machen, du wolltest aber ein Steak. Oder er benutzt Zutaten, die du gar nicht magst.

2. Die Lösung: SCHEMA – Der Bauplan für Bilder

Cazzaniga hat herausgefunden, dass man dem KI-Künstler nicht einfach sagen muss, was er tun soll, sondern ihm einen genauen Bauplan geben muss. Er nennt sein System SCHEMA.

Stell dir SCHEMA wie einen Rezept-Kochbuch-Eintrag vor, der nicht nur sagt „Koch etwas", sondern genau auflistet:

  • Hauptzutat (Subject): Was genau soll da sein? (Ein Sofa aus hellem Eichenholz).
  • Stil (Style): Wie soll es aussehen? (Wie ein Foto aus einem teuren Möbelkatalog).
  • Licht (Lighting): Wie hell und warm soll es sein? (Genau 3000 Kelvin, wie ein gemütlicher Abend).
  • Verbotene Zutaten (Prohibitions): Was darf auf keinen Fall passieren? (Keine rosa Polster, keine verzerrten Beine).

3. Die drei Stufen des Meisters (BASE, MEDIO, AVANZATO)

Das System hat drei Schwierigkeitsgrade, ähnlich wie beim Lernen eines Instruments:

  • BASE (Der Entdecker): Hier lässt du die KI einfach mal frei spielen, um zu sehen, was sie kann. Es ist wie das „Kritzeln" auf einem Blatt Papier, um den Stil des Künstlers zu testen. Du hast wenig Kontrolle, aber du lernst viel.
  • MEDIO (Der Profi): Hier nutzt du den festen Bauplan (die 7 Haupt-Kategorien). Du hast viel mehr Kontrolle. Das ist wie ein Koch, der ein Rezept befolgt. Das Ergebnis ist gut und brauchbar.
  • AVANZATO (Der Meister): Hier wird es extrem präzise. Du gibst keine vagen Begriffe mehr, sondern Zahlen und Codes. Statt „warmes Licht" sagst du „3000 Kelvin". Statt „schönes Sofa" sagst du „Eichenholz, genau 2 Meter breit, grauer Stoff". Hier hast du fast 100% Kontrolle. Das Ergebnis ist so gut, dass man es direkt für Werbung oder Zeitungen nutzen kann.

4. Die große Entdeckung: „Verboten" funktioniert besser als „Muss"

Eine der spannendsten Entdeckungen in der Studie ist ein seltsames Phänomen:
Es ist für die KI viel einfacher zu verstehen, was sie nicht tun soll, als was sie tun muss.

  • Wenn du sagst: „Mache die Beine des Sofas perfekt gerade" (Positiv), macht die KI das oft falsch.
  • Wenn du sagst: „Verbiege die Beine des Sofas nicht" (Negativ/Verbot), macht die KI es fast immer richtig.

Stell dir das wie einen Sicherheitsgurt vor. Es ist schwer, dem Fahrer zu sagen „Fahre perfekt", aber es ist sehr effektiv zu sagen „Fahre nicht gegen die Wand". Die Studie zeigt, dass man mit „Verboten" (Prohibitions) bessere Ergebnisse erzielt als mit langen Beschreibungen.

5. Der „Einmal-und-fertig"-Trick

Früher dachten viele: „Ich generiere ein Bild, schaue es an, korrigiere es, generiere es nochmal."
Cazzaniga hat herausgefunden: Tu das nicht!
Bei diesem speziellen KI-Modell (Gemini 3 Pro) wird das Bild bei jedem neuen Versuch, es zu verbessern, immer schlechter und verzerrter. Es ist wie ein Fotokopierer, der ein Bild immer wieder kopiert: Nach der 3. Kopie ist das Bild unscharf und verzerrt.
Die Lösung? Nimm dir Zeit für den perfekten Bauplan (SCHEMA AVANZATO) und lass die KI das Bild einmal perfekt erstellen. Kein Nachbessern durch erneutes Generieren.

6. Wann man aufhören sollte (Die Ampel)

Das System hat auch eine Art „Ampel". Wenn du merkst, dass die KI etwas nicht kann (z. B. wenn du eine ganze Filmsequenz mit vielen zusammenhängenden Bildern brauchst), sagt SCHEMA dir: „Stopp! Das ist nicht das richtige Werkzeug für diesen Job. Geh zu einem anderen Programm." Das spart Zeit und Nerven.

Zusammenfassung

Dieser Text beschreibt keine neue KI-Technologie, sondern eine neue Art, mit der bestehenden KI zu sprechen.

Statt mit der KI zu „plaudern", behandelt man sie wie einen hochspezialisierten Handwerker, dem man einen technischen Bauplan gibt. Durch klare Regeln, viele Verbote und präzise Zahlen (statt vager Wünsche) kann man aus einem chaotischen KI-Generator ein verlässliches Werkzeug für echte Arbeit machen – von Immobilienfotos bis hin zu Zeitungsgrafiken mit perfektem Text.

Kurz gesagt: Weniger reden, mehr strukturieren. Das ist der Schlüssel, um aus der KI das herauszuholen, was sie wirklich kann.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →