NAU-QMUL: Utilizing BERT and CLIP for Multi-modal AI-Generated Image Detection

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, wir leben in einer Welt, in der ein Zauberstab existiert, der aus bloßen Worten sofort fotorealistische Bilder erschafft. Das ist die Welt der KI-Bildgeneratoren wie Midjourney oder DALL-E. Das Problem? Wir können kaum noch unterscheiden, ob ein Bild von einem echten Menschen gemalt oder von einem Computer „geträumt" wurde.

Dieser Artikel beschreibt einen Versuch, genau dieses Problem zu lösen. Die Forscher von der Nanjing Audit University und der Queen Mary University of London haben einen digitalen Detektiv entwickelt, der nicht nur schreit: „Das ist gefälscht!", sondern auch sagt: „Und zwar von welchem Zauberstab!"

Hier ist die Geschichte ihres Systems, einfach erklärt:

1. Das Team: Ein Text-Experte und ein Bild-Experte

Stellen Sie sich das System wie ein Ermittlerteam aus zwei Spezialisten vor, die Hand in Hand arbeiten:

Der Text-Experte (BERT): Dieser KI-Teil ist ein Meister im Verstehen von Sprache. Er liest die Bildunterschrift (den Text, der das Bild beschreibt) und versteht den Kontext.
Der Bild-Experte (CLIP): Dieser Teil ist ein visueller Künstler. Er schaut sich das Bild genau an und analysiert jedes Detail, jede Textur und jeden Schatten.

Normalerweise arbeiten diese beiden getrennt. Aber unser Team hat sie zu einem einzigen Gehirn verschmolzen. Sie tauschen Informationen aus: Der Text-Experte sagt dem Bild-Experten: „Achte auf diese Details, weil der Text so etwas verspricht." Der Bild-Experte bestätigt oder widerspricht: „Nein, die Schatten hier sehen künstlich aus."

2. Die zwei Aufgaben des Detektivs

Das System muss zwei Dinge gleichzeitig tun, wie ein Polizist, der erst prüft, ob ein Verdächtiger überhaupt ein Verbrechen begangen hat, und dann herausfindet, welches Werkzeug er benutzt hat.

Aufgabe A (Der erste Check): „Ist dieses Bild echt oder von einer KI?" (Ja/Nein).
Aufgabe B (Die Feinarbeit): „Wenn es von einer KI ist: Welches Modell hat es gemacht?" (War es Stable Diffusion, DALL-E 3 oder Midjourney?).

Das Besondere: Das System ist so gebaut, dass es Aufgabe B nur dann ernst nimmt, wenn es bei Aufgabe A zu „Ja" gekommen ist. Das spart Energie und verwirrt es nicht mit echten Fotos.

3. Der Trick: Lernen durch „Vertrauenswürdiges Raten"

Eines der größten Probleme beim Trainieren solcher Systeme ist, dass nicht genug Daten vorhanden sind. Die Forscher haben einen cleveren Trick angewendet, den man Pseudo-Labeling nennt.

Stellen Sie sich vor, Sie trainieren einen Schüler für eine Prüfung. Sie haben nicht genug Übungsaufgaben. Also geben Sie dem Schüler eine neue, ungelöste Aufgabe. Wenn der Schüler sehr sicher ist (zu 80 % oder mehr), dass er die Antwort kennt, schreiben Sie diese Antwort einfach als „richtig" in das Lehrbuch dazu.

Das System hat also auf unbekannten Bildern „geraten". Wenn es sehr sicher war, hat es diese Bilder und die „vermuteten" Antworten zu seinem Trainingsmaterial hinzugefügt. So wurde der Datensatz riesig und das System wurde viel schlauer.

4. Das Ergebnis: Ein Platz unter den Besten

Das Team hat ihr System in einem großen Wettbewerb („CT2") getestet, bei dem viele andere ebenfalls versuchten, KI-Bilder zu entlarven.

Bei der Aufgabe, echte von falschen Bildern zu unterscheiden, landeten sie auf Platz 5.
Bei der Aufgabe, das spezifische KI-Modell zu identifizieren, landeten sie ebenfalls auf Platz 5.

Das ist eine enorme Leistung, denn die KI-Generatoren werden immer besser, und die Detektiven müssen mithalten.

5. Die Schattenseite: Wo es haken könnte

Die Forscher sind ehrlich und geben zu, dass ihr Trick mit dem „Vertrauensvollen Raten" nicht perfekt ist.

Der Echo-Effekt: Wenn das System einmal einen Fehler macht und ihn als „Wahrheit" in sein Lehrbuch schreibt, wiederholt es diesen Fehler vielleicht immer wieder.
Die Bequemlichkeit: Das System lernt vielleicht nur die „leichten" Fälle, bei denen es sich sicher fühlt, und ignoriert die schwierigen, kniffligen Fälle.
Die Vermischung: Es besteht die Gefahr, dass das System beim Testen Dinge sieht, die es schon beim Lernen „gesehen" hat, was die Ergebnisse künstlich aufblähen könnte.

Fazit

Dieses Papier zeigt, dass die Kombination aus Text- und Bildanalyse ein mächtiges Werkzeug ist, um die Flut an KI-generierten Bildern zu sortieren. Es ist wie ein neuer, sehr scharfsinniger Detektiv, der zwar noch nicht perfekt ist, aber uns einen riesigen Schritt näher an die Wahrheit bringt. Die Zukunft wird zeigen, wie man die „Fehler im Lehrbuch" vermeidet und den Detektiv noch schlauer macht.

NAU-QMUL: Utilizing BERT and CLIP for Multi-modal AI-Generated Image Detection

1. Das Team: Ein Text-Experte und ein Bild-Experte

2. Die zwei Aufgaben des Detektivs

3. Der Trick: Lernen durch „Vertrauenswürdiges Raten"

4. Das Ergebnis: Ein Platz unter den Besten

5. Die Schattenseite: Wo es haken könnte

Fazit

1. Problemstellung

2. Methodik

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Ausblick

NAU-QMUL: Utilizing BERT and CLIP for Multi-modal AI-Generated Image Detection

1. Das Team: Ein Text-Experte und ein Bild-Experte

2. Die zwei Aufgaben des Detektivs

3. Der Trick: Lernen durch „Vertrauenswürdiges Raten"

4. Das Ergebnis: Ein Platz unter den Besten

5. Die Schattenseite: Wo es haken könnte

Fazit

1. Problemstellung

2. Methodik

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

Disentangling Prompt Element Level Risk Factors for Hallucinations and Omissions in Mental Health LLM Responses

ASCAT: An Arabic Scientific Corpus and Benchmark for Advanced Translation Evaluation

Semantic Shifts of Psychological Concepts in Scientific and Popular Media Discourse: A Distributional Semantics Analysis of Russian-Language Corpora

Detecting Abnormal User Feedback Patterns through Temporal Sentiment Aggregation

Phonological Fossils: Machine Learning Detection of Non-Mainstream Vocabulary in Sulawesi Basic Lexicon