Diffusion-Based sRGB Real Noise Generation via Prompt-Driven Noise Representation Learning

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du bist ein Fotograf, der versucht, ein verschwommenes oder verrauschtes Foto zu reparieren. Das Problem ist: Um einen Computer so zu trainieren, dass er diese Bilder perfekt wiederherstellt, braucht er Tausende von Beispielen. Er muss sehen, wie ein „sauberes" Bild aussieht und wie das gleiche Bild mit „Rauschen" (dem körnigen, störenden Grauschleier) aussieht.

Das ist aber ein riesiges Problem. In der echten Welt gibt es kaum diese perfekten Paare (sauber + verrauscht). Und selbst wenn man sie hat, sind sie oft schwer zu bekommen oder zu teuer.

Bisherige Methoden haben versucht, dieses Problem zu lösen, indem sie dem Computer Metadaten (technische Daten) gegeben haben: „Das wurde mit einem iPhone 7 gemacht, ISO 800, bei Sonnenuntergang." Der Computer lernt dann: „Aha, bei diesen Daten sieht das Rauschen so aus."

Aber hier liegt der Haken: Was passiert, wenn das Foto keine Metadaten mehr hat? Oder wenn es von einer Kamera stammt, die der Computer noch nie gesehen hat? Dann versagt das System. Es ist wie ein Koch, der nur kochen kann, wenn ihm das genaue Rezept und die Marke der Zutaten genannt werden. Fehlt das Rezept, kann er nichts machen.

Die Lösung: „Prompt-Driven Noise Generation" (PNG)

Die Autoren dieses Papers haben eine clevere neue Methode entwickelt, die wir uns wie einen genialen Kunstschüler vorstellen können.

1. Der alte Weg: Der Buchhalter

Stell dir die alten Methoden wie einen strengen Buchhalter vor. Er braucht immer eine Liste mit genauen Zahlen (Metadaten), um zu wissen, wie das Rauschen aussieht. Keine Liste? Kein Rauschen. Kein Rauschen? Kein Training für den Denoiser (den Bild-Reiniger).

2. Der neue Weg: Der Künstler mit dem „Prompt"

Die neue Methode, PNG, funktioniert anders. Sie braucht keine Liste. Stattdessen schaut sie sich das verrauschte Bild einfach an und lernt daraus, wie das Rauschen „schmeckt".

Hier kommt das Konzept des „Prompts" ins Spiel. In der KI-Welt ist ein „Prompt" normalerweise ein kurzer Textbefehl (wie „malerischer Sonnenuntergang"). Aber hier nutzen die Forscher visuelle Prompts.

Stell dir vor, der Computer hat einen internen Gedächtnis-Schrank voller kleiner, lernbarer „Notizen" (die Prompt Components).

Wenn er ein verrauschtes Bild sieht, sucht er sich aus dem Schrank die passenden Notizen heraus.
Er kombiniert diese Notizen zu einem individuellen Fingerabdruck für genau dieses Rauschen.
Dieser Fingerabdruck sagt dem Computer: „Hey, dieses Rauschen ist körnig wie Sand, hat diese spezielle Farbe und ist hier stärker als dort."

3. Der Prozess: Wie ein Zaubertrick

Der Prozess läuft in zwei Schritten ab, ähnlich wie beim Lernen eines neuen Instruments:

Schritt 1: Der Detektiv (Prompt Autoencoder)
Der Computer analysiert ein paar echte, verrauschte Bilder. Er lernt, die „Signatur" des Rauschens zu erkennen. Er erstellt einen Fingerabdruck (den Prompt), der alles über das Rauschen sagt: Ist es hell? Ist es dunkel? Kommt es von einem alten Handy oder einer teuren Spiegelreflex? Er speichert diese Signaturen in seinem Gedächtnis-Schrank.
Schritt 2: Der Zauberer (Prompt DiT)
Jetzt kommt der eigentliche Trick. Der Computer nimmt ein perfekt sauberes Bild (z. B. ein Foto einer Landschaft) und den Fingerabdruck eines verrauschten Bildes.
Er sagt: „Okay, nimm dieses saubere Bild und verändere es genau so, wie es der Fingerabdruck beschreibt."
Das Ergebnis? Ein neues, künstliches Bild, das perfekt aussieht, als wäre es mit genau diesem speziellen Rauschen fotografiert worden – obwohl es komplett neu generiert wurde.

Warum ist das so genial?

Keine Rezepte nötig: Es ist egal, ob das Bild Metadaten hat oder nicht. Der Computer schaut sich einfach das Rauschen an und lernt daraus.
Universell einsetzbar: Da er nicht auf spezifische Kameramodelle angewiesen ist, kann er Rauschen für jede Kamera simulieren, sogar für solche, die er noch nie gesehen hat.
Bessere Ergebnisse: Weil sie so viele verschiedene künstliche Rausch-Bilder erzeugen können, können sie den „Bild-Reiniger" (Denoiser) viel besser trainieren. Das Ergebnis sind Fotos, die in der echten Welt viel klarer und schärfer sind.

Die Analogie zum Schluss

Stell dir vor, du willst jemanden lehren, wie man Fälschungen von alten Gemälden erkennt.

Die alte Methode: Du gibst dem Schüler eine Liste mit allen bekannten Fälschern und ihren spezifischen Techniken. Wenn ein neuer Fälscher kommt, der nicht auf der Liste steht, ist der Schüler ratlos.
Die neue Methode (PNG): Du zeigst dem Schüler einfach ein paar echte Fälschungen. Er lernt intuitiv, wie sich die Farbe, der Pinselstrich und die Textur anfühlen. Dann kannst du ihm ein echtes Gemälde geben und sagen: „Mach es so kaputt, wie diese Fälschungen es tun." Der Schüler versteht die Essenz des Rauschens, nicht nur die Regeln.

Fazit: Diese Methode macht die KI unabhängiger von technischen Datenblättern und ermöglicht es ihr, sich an die chaotische, unperfekte Realität der echten Welt anzupassen – genau wie ein echter Künstler, der aus der Beobachtung lernt, statt nur aus einem Handbuch.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Aufgabe des realen Bildentferns (Denoising) im sRGB-Raum ist aufgrund der hohen Variabilität und Komplexität von echtem Rauschen äußerst schwierig. Im Gegensatz zu synthetischem, additivem weißem Gaußschen Rauschen (AWGN) entsteht echtes Rauschen aus einer Vielzahl von Quellen: Sensorfehler, Lichtvariationen, In-Kamera-Verarbeitungspipelines (ISP) und einstellbaren Kameraeinstellungen (z. B. ISO). Dies führt zu signalabhängigem und räumlich variierendem Rauschen.

Der Hauptengpass bei der Entwicklung von Entfernungsnetzwerken ist die Knappheit an realen, gepaarten Datensätzen (Rauschbild + sauberes Bild). Die Erstellung solcher Datensätze ist ressourcenintensiv und technisch anspruchsvoll.
Bisherige generative Ansätze versuchen, realistisches Rauschen zu synthetisieren, indem sie Metadaten (EXIF-Daten wie Kamerahersteller, ISO, Verschlusszeit) verwenden, um die Rauschverteilung zu steuern. Dies hat jedoch erhebliche Nachteile:

Metadaten sind oft nicht verfügbar (z. B. durch Nachbearbeitung entfernt).
Metadaten-Formate sind in verschiedenen Domänen (z. B. wissenschaftliche Bildgebung) inkonsistent oder fehlen ganz.
Modelle, die auf spezifischen Metadaten basieren, generalisieren schlecht auf Geräte oder Szenarien, für die sie nicht trainiert wurden.

2. Methodik: Prompt-Driven Noise Generation (PNG)

Die Autoren schlagen ein neues Framework namens Prompt-Driven Noise Generation (PNG) vor, das die Abhängigkeit von expliziten Metadaten sowohl während des Trainings als auch der Inferenz eliminiert. Das System nutzt Diffusionsmodelle und Prompt-Learning-Techniken, um Rauschcharakteristika direkt aus den Eingabebildern zu lernen.

Das Framework besteht aus zwei Hauptkomponenten, die in einem zweistufigen Prozess trainiert werden:

A. Prompt Autoencoder (PAE)

Der PAE dient dazu, eine kompakte latente Repräsentation des Rauschens zu lernen und spezifische „Prompt"-Features zu extrahieren.

Prompt Encoder (E): Dieser Teil nimmt das reale Rauschbild ( $n_{Real} = I_{Noisy} - I_{Clean}$ $n_{R e a l} = I_{N o i sy} - I_{C l e an}$ ) und kodiert es in einen latenten Code $z$ $z$ .
- Global Prompt Block (GPB): Extrahiert globale Statistiken, die mit ISO-Werten (Verstärkung) und der allgemeinen Rauschamplifikation korrelieren. Er nutzt lernbare globale Prompt-Komponenten, die durch Eingabe-spezifische Koeffizienten (berechnet aus Mittelwert und Standardabweichung der Eingabe) moduliert werden.
- Local Prompt Block (LPB): Fängt lokale, gerätespezifische Rauschmuster ein, die durch nicht-lineare ISP-Operationen entstehen (z. B. räumliche Korrelationen). Er berechnet Korrelationskarten von Bildpatches und leitet daraus lokale Prompt-Features ab.
Decoder (D): Rekonstruiert das verrauschte Bild aus dem latenten Code und dem sauberen Bild, wobei er signalabhängige Eigenschaften lernt.

B. Prompt DiT (P-DiT)

Dies ist der eigentliche Generatorenteil, basierend auf einem Consistency Model (CM) und der Diffusion Transformer (DiT) Architektur.

Ziel: Synthese neuer latenter Codes ( $\hat{z}_0$ ), die der Verteilung des Eingaberäuschens entsprechen.
Bedingung: Der Generator wird nicht durch Metadaten, sondern durch die Prompt-Features ( $F_{Global}, F_{Local}$ ) aus dem Encoder sowie das saubere Bild ( $I_{Clean}$ ) und den Zeitschritt ( $t$ ) gesteuert.
Mechanismus: Das Modell lernt eine Abbildungsfunktion, die in einem einzigen Schritt (oder wenigen Schritten) vom verrauschten Zustand zum sauberen latenten Code führt. Die Prompt-Features werden über einen „Prompt Attention"-Mechanismus in die Transformer-Blöcke integriert, um räumliche Korrelationen und gerätespezifische Merkmale zu erfassen.

Inferenz

Während der Inferenz wird das Modell auf ein beliebiges reines Rauschbild angewendet, um die Prompt-Features zu extrahieren. Diese Features steuern dann die Generierung eines neuen, realistischen Rauschbildes für ein beliebiges sauberes Eingabebild, ohne dass EXIF-Daten benötigt werden.

3. Wichtige Beiträge

Metadaten-freie Rauschgenerierung: Das erste Framework, das sowohl im Trainings- als auch im Testmodus vollständig ohne Metadaten auskommt, indem es lernbare Prompt-Komponenten als Ersatz für EXIF-Daten verwendet.
Prompt-basierte Rauschrepräsentation: Einführung von GPB und LPB, um globale (ISO) und lokale (Korrelation) Rauschcharakteristika direkt aus dem Bildinhalt zu extrahieren und als konditionierende Features zu nutzen.
Integration von Consistency Models und Diffusion: Kombination von Prompt-Learning mit einem effizienten Diffusions-basierten Consistency Model (P-DiT), was eine schnelle und hochwertige Synthese ermöglicht.
Generalisierung: Das Modell ist in der Lage, Rauschverteilungen von Geräten zu lernen, für die keine Metadaten vorliegen, und auf neue, unbekannte Geräte zu generalisieren.

4. Ergebnisse

Die Autoren evaluieren ihre Methode auf mehreren Benchmarks (SIDD, PolyU, Nam, SIDD+).

Rauschqualität: Auf dem SIDD-Validierungsset erreicht PNG die besten Ergebnisse in Bezug auf Kullback-Leibler-Divergenz (KLD) und Average KLD (AKLD) im Vergleich zu State-of-the-Art-Methoden wie C2N, Flow-sRGB, NeCA-W und NAFlow. Die synthetischen Bilder ähneln visuell und statistisch am ehesten echtem Rauschen.
Entfernungsleistung (Denoising): Wenn Entfernungsnetzwerke (z. B. DnCNN) auf den von PNG generierten Datensätzen trainiert werden, übertreffen sie Modelle, die auf anderen synthetischen Daten trainiert wurden.
- Auf dem SIDD-Benchmark erreicht PNG eine PSNR von 37,55 dB und ein SSIM von 0,937, was nur minimal schlechter ist als das Training mit echten Daten (Real: 37,63 dB / 0,936).
- Im Vergleich zu NAFlow (dem vorherigen SOTA) wird eine Verbesserung von über 0,33 dB in der PSNR erzielt.
Robustheit auf externen Datensätzen: Das Modell zeigt starke Generalisierungsfähigkeiten auf externen Datensätzen (PolyU, Nam), die während des Trainings nicht verwendet wurden. Auch hier übertrifft PNG die Konkurrenz, insbesondere in gemischten Trainingssettings (50% echt, 50% synthetisch).
Effizienz: PNG ist signifikant schneller als NAFlow (ca. 4,4-fach bei 256x256 Auflösung) und bietet eine praktikable Inferenzgeschwindigkeit für hohe Auflösungen.

5. Bedeutung und Fazit

Die Arbeit adressiert ein fundamentales Problem in der Computer Vision: die Abhängigkeit von oft nicht verfügbaren Metadaten für die Realitätsnähe von synthetischen Trainingsdaten.

Praktische Anwendbarkeit: Da das System keine EXIF-Daten benötigt, kann es in Szenarien eingesetzt werden, in denen Metadaten fehlen, unvollständig oder inkonsistent sind (z. B. Social Media Bilder, wissenschaftliche Daten).
Skalierbarkeit: Durch die Fähigkeit, Rauschverteilungen aus begrenzten Daten zu lernen und auf neue Geräte zu übertragen, ermöglicht PNG die Erstellung großer, diverser Trainingsdatensätze für Entfernungsnetzwerke, was die Überanpassung (Overfitting) reduziert.
Zukunftsperspektive: Die vorgestellte Methode legt den Grundstein für universelle Bildwiederherstellungssysteme, die robust gegenüber den variierenden Bedingungen der realen Welt sind, ohne auf manuelle Metadaten-Erfassung angewiesen zu sein.

Zusammenfassend stellt PNG einen Paradigmenwechsel dar, der von einer metadatenbasierten Steuerung hin zu einer datengetriebenen, prompt-basierten Repräsentation von Rauschcharakteristika führt, was zu überlegener Leistung und breiterer Anwendbarkeit führt.