NAU-QMUL: Utilizing BERT and CLIP for Multi-modal AI-Generated Image Detection

Each language version is independently generated for its own context, not a direct translation.

De Digitale Detectives: Hoe een AI-geleerd team nepbeelden opspoort

Stel je voor dat je in een enorme, drukke markt loopt waar duizenden kunstenaars werken. Sommige mensen schilderen met echte verf en kwasten (de echte mensen), maar er is ook een groep robotkunstenaars die met magische, onzichtbare penselen werken (de AI's zoals DALL-E of Midjourney). Deze robots zijn zo goed geworden dat hun schilderijen er haast niet meer van te onderscheiden zijn.

De vraag is: Wie heeft dit schilderij gemaakt? Een mens of een robot? En zo ja, welke robot?

Xiaoyu Guo en Arkaitz Zubiaga, twee digitale detectives van de universiteiten in China en Londen, hebben een slim nieuw gereedschap ontwikkeld om dit probleem op te lossen. Ze noemen hun systeem NAU-QMUL. Hier is hoe het werkt, vertaald naar begrijpelijke taal:

1. Het Team: De Taalkundige en de Kunstkenner

In plaats van één grote, zware robot te bouwen, hebben ze een team van twee gespecialisten samengesteld die samenwerken:

De Taalkundige (BERT): Stel je voor dat dit een zeer geleerde professor is die alleen naar de tekst kijkt die bij het plaatje hoort. Hij leest de beschrijving (bijvoorbeeld: "Twee giraffen die naast elkaar staan") en denkt: "Hmm, deze zin klinkt heel menselijk, of juist heel robotachtig?" Hij haalt zijn kennis uit een enorme bibliotheek van alle teksten die hij ooit heeft gelezen.
De Kunstkenner (CLIP): Dit is een expert die alleen naar het plaatje zelf kijkt. Hij heeft miljoenen plaatjes gezien en weet precies hoe een menselijk schilderij eruitziet versus hoe een AI-gegenereerd plaatje eruitziet (bijvoorbeeld: zijn de vingers van de giraffen net iets te lang? Is de lucht te perfect?).

2. De Samenwerking: Het Grote Overleg

Normaal gesproken praten deze twee experts niet met elkaar. Maar in dit systeem houden ze een gezamenlijke vergadering.

De Taalkundige fluistert: "De tekst zegt dat het een droom is."
De Kunstkenner fluistert terug: "Het plaatje ziet eruit alsof het uit een droom komt, maar de details zijn net iets te 'glad' voor een mens."
Samen beslissen ze: "Dit is waarschijnlijk gemaakt door een AI."

Dit noemen ze multi-modale fusie: het samenvoegen van tekst en beeld tot één sterk oordeel.

3. Twee Opdrachten tegelijk

Het team moet twee dingen doen, net als een detective die twee vragen moet beantwoorden:

Vraag A (Ja/Nee): Is dit plaatje gemaakt door een AI? (Net als het vragen: "Is dit een valse munt?")
Vraag B (Wie?): Als het een AI is, welke AI was het dan? Was het SD 3, DALL-E 3 of Midjourney? (Net als het vragen: "Welke valse muntmaker heeft dit gemaakt?")

Ze gebruiken een slimme truc om dit te doen: ze straffen het team alleen als ze op het verkeerde antwoord komen. Als het plaatje echt is, hoeven ze niet te raden welke AI het deed (want dat zou zonde van de tijd zijn). Dit maakt het proces heel efficiënt.

4. De Leermeester: Het Leren van Gokjes

Een ander slimme truc die ze gebruikten, noemen ze pseudo-labeling.
Stel je voor dat je een student hebt die al best goed is, maar nog niet perfect. Je geeft hem een stapel nieuwe plaatjes die hij nog nooit heeft gezien.

De student kijkt er naar en zegt: "Ik ben 90% zeker dat dit plaatje van AI is."
Omdat hij zo zeker is, nemen de detectives zijn gok aan als een feit en voegen ze die plaatjes toe aan zijn oefenmateriaal.
Zo leert de student van zijn eigen sterke gokjes en wordt hij nog slimmer.

Let op: De auteurs erkennen dat dit gevaarlijk kan zijn. Als de student een fout maakt en die fout wordt als 'waarheid' opgeslagen, kan hij in de toekomst nog meer fouten maken. Maar in dit geval werkte het goed.

5. Het Resultaat: Een Top 5 Plek

In een grote wedstrijd (de CT2-wedstrijd) waar honderden teams meededen, werd dit team vijfde in beide categorieën.

Ze konden met een score van 83% heel goed zeggen of iets nep of echt was.
Ze konden met een score van 49% redelijk goed zeggen welke AI het had gemaakt (dit is lastig, omdat de AI's steeds slimmer worden).

Waarom is dit belangrijk?

Vandaag de dag kunnen we niet meer blindelings geloven wat we zien op internet. Deze technologie helpt ons om nepnieuws, valse getuigenissen en misinformatie op te sporen. Het is als een veiligheidscontrole op een vliegveld, maar dan voor onze ogen en oren.

Kortom: De auteurs hebben een slim team gebouwd dat tekst en beeld samen bekijkt, van zijn eigen sterke gokjes leert, en zo helpt om de grens tussen menselijke creativiteit en robotkunst te bewaken.

NAU-QMUL: Utilizing BERT and CLIP for Multi-modal AI-Generated Image Detection

1. Het Team: De Taalkundige en de Kunstkenner

2. De Samenwerking: Het Grote Overleg

3. Twee Opdrachten tegelijk

4. De Leermeester: Het Leren van Gokjes

5. Het Resultaat: Een Top 5 Plek

Waarom is dit belangrijk?

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Toekomstperspectief

NAU-QMUL: Utilizing BERT and CLIP for Multi-modal AI-Generated Image Detection

1. Het Team: De Taalkundige en de Kunstkenner

2. De Samenwerking: Het Grote Overleg

3. Twee Opdrachten tegelijk

4. De Leermeester: Het Leren van Gokjes

5. Het Resultaat: Een Top 5 Plek

Waarom is dit belangrijk?

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Toekomstperspectief

Meer zoals dit

Using LLM-as-a-Judge/Jury to Advance Scalable, Clinically-Validated Safety Evaluations of Model Responses to Users Demonstrating Psychosis

CIPHER: Conformer-based Inference of Phonemes from High-density EEG

SWAY: A Counterfactual Computational Linguistic Approach to Measuring and Mitigating Sycophancy

Skeleton-based Coherence Modeling in Narratives

Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets