NAU-QMUL: Utilizing BERT and CLIP for Multi-modal AI-Generated Image Detection

El artículo presenta un modelo multi-modal multi-tarea que combina BERT y CLIP con una estrategia de aumento de datos basada en pseudo-etiquetado para detectar imágenes generadas por IA y sus modelos creadores, logrando el quinto puesto en las tareas A y B del concurso CT2.

Xiaoyu Guo, Arkaitz Zubiaga

Publicado 2026-03-02
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que vivimos en un mundo donde la magia de la inteligencia artificial (IA) ha aprendido a pintar cuadros tan realistas que es casi imposible distinguirlos de las obras de un artista humano. El problema es que, a veces, estas "pinturas falsas" se usan para engañar o difundir mentiras.

Este paper (documento de investigación) es como la historia de dos detectives, Xiaoyu y Arkaitz, que decidieron crear un "Super-Detective Digital" para resolver este misterio. Aquí te explico cómo funciona su invento, usando analogías sencillas:

1. El Problema: ¿Real o Falso?

Antes, si veías una foto de un "delfín tocando el piano", no sabías si era un fotógrafo genial o una IA. Los modelos de IA (como Midjourney o DALL-E) son tan buenos que la línea entre lo real y lo falso se ha borrado. El objetivo de los autores era crear un sistema que hiciera dos cosas:

  1. Gritar "¡Falso!" si la imagen fue hecha por una IA (Tarea A).
  2. Decir "¡Fue Midjourney!" (o DALL-E, o Stable Diffusion) si la imagen era falsa, para saber quién es el "culpable" (Tarea B).

2. El Equipo de Detectives: BERT y CLIP

Para construir su Super-Detective, no empezaron de cero. Usaron dos "expertos" que ya existían y eran muy inteligentes:

  • BERT (El Experto en Palabras): Imagina a un bibliotecario que ha leído todos los libros del mundo. Este experto mira el texto que acompañaba a la imagen (por ejemplo, "un delfín tocando el piano"). Entiende el contexto y las palabras.
  • CLIP (El Experto en Imágenes): Imagina a un crítico de arte que ha visto millones de cuadros. Este experto mira la imagen en sí misma, analizando los píxeles y los detalles visuales.

3. La Gran Fusión: El "Café de Detectives"

La genialidad de este trabajo es cómo juntan a estos dos expertos.
En lugar de que el bibliotecario y el crítico de arte trabajen por separado, los sentaron en la misma mesa (esto se llama fusión multimodal).

  • El bibliotecario dice: "El texto dice 'delfín', pero la IA a veces pone a los delfines en lugares raros".
  • El crítico de arte dice: "La textura del agua en la foto parece un poco extraña, típico de la IA".
  • Juntos, combinan sus opiniones para tomar una decisión mucho más inteligente que si lo hicieran solos.

4. El Truco del "Entrenamiento Extra" (Etiquetado Pseudo)

El equipo tenía un problema: necesitaban más ejemplos para entrenar a su detective, pero no tenían suficientes fotos etiquetadas.
¿Qué hicieron? Usaron un truco de "aprendizaje por confianza".

  • Le mostraron al detective muchas fotos nuevas sin etiqueta.
  • Si el detective estaba muy seguro (más del 80% de confianza) de que una foto era falsa y sabía quién la hizo, le dijeron: "¡Muy bien! Vamos a guardar esta foto en tu carpeta de entrenamiento como si fuera real".
  • Esto es como si un maestro dejara que un alumno inteligente corrija sus propios ejercicios difíciles y los use para estudiar más. ¡Así el detective se volvió más fuerte!

5. El Resultado: ¡Ganaron el 5º Lugar!

Pusieron a prueba a su Super-Detective en una competencia mundial llamada CT2.

  • En la prueba de "¿Real o Falso?": ¡Lo hizo genial! Fue el 5º mejor del mundo.
  • En la prueba de "¿Quién lo hizo?": También fue el 5º mejor, logrando identificar si la imagen venía de Midjourney, DALL-E u otros.

6. El Lado Oscuro (y el Futuro)

Los autores son muy honestos y admiten que su truco del "entrenamiento extra" tiene un riesgo.

  • El riesgo: Si el detective se equivoca en una foto y la guarda como "entrenamiento", podría aprender el error y repetirlo. Es como si un estudiante copiara un error de su cuaderno y luego lo estudiara como si fuera verdad.
  • El futuro: Quieren mejorar su sistema para que no solo sume las opiniones de los expertos, sino que los haga "conversar" entre sí de forma más profunda (como si usaran un cerebro artificial más avanzado) y para que no se confundan con fotos que parecen reales pero no lo son.

En resumen

Este paper nos cuenta cómo un equipo de investigadores combinó la inteligencia de dos herramientas poderosas (una para leer y otra para ver) y usó un truco de auto-entrenamiento para crear un sistema capaz de desenmascarar imágenes falsas creadas por IA y decirnos exactamente qué máquina las creó. ¡Es un paso gigante para mantener la verdad en internet!