DeiTFake: Deepfake Detection Model using DeiT Multi-Stage Training

Die Studie stellt DeiTFake vor, ein auf DeiT basierendes Deepfake-Erkennungsmodell, das durch eine neuartige zweistufige Trainingsstrategie mit progressiv steigender Augmentationskomplexität auf dem OpenForensics-Datensatz eine Genauigkeit von 99,22 % und eine hohe Robustheit gegenüber Manipulationsartefakten erreicht.

Saksham Kumar, Ashish Singh, Srinivasarao Thota, Sunil Kumar Singh, Chandan Kumar

Veröffentlicht 2026-03-06
📖 3 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Die Jagd nach den perfekten Fälschungen: Wie „DeiTFake" funktioniert

Stell dir vor, wir leben in einer Welt, in der es immer schwieriger wird, ein echtes Foto von einem gefälschten zu unterscheiden. KI-Modelle können heute Gesichter so perfekt nachbauen, dass sie fast wie echte Menschen aussehen. Das ist wie ein digitaler Zaubertrick, der aber gefährlich ist, weil er genutzt wird, um Lügen zu verbreiten.

Die Forscher in diesem Papier haben einen neuen Detektor namens DeiTFake entwickelt, um diese Tricks aufzudecken. Hier ist, wie sie es gemacht haben, ganz ohne komplizierte Fachbegriffe:

1. Der Detektiv mit dem „Super-Gehirn" (DeiT)

Statt eines normalen Detektivs (wie eine herkömmliche Kamera-Software) haben die Forscher einen Vision Transformer (genannt DeiT) benutzt.

  • Die Analogie: Stell dir einen normalen Bild-Scanner vor, der sich nur auf kleine Details konzentriert (wie ein einzelnes Haar oder eine Falte). Das ist wie ein Detektiv, der nur durch ein Mikroskop schaut.
  • Der DeiT hingegen ist wie ein Detektiv, der auf einen großen Leinwandprojektor schaut. Er sieht das ganze Bild auf einmal und versteht, wie alle Teile zusammenhängen. Er merkt sofort, wenn etwas „falsch" aussieht, weil die globale Struktur nicht stimmt (z. B. wenn die Schatten nicht passen oder die Augen seltsam glänzen).

2. Der Trainingsplan: Erst das ABC, dann die Prüfung (Zwei-Stufen-Methode)

Das Besondere an DeiTFake ist nicht nur der Detektiv, sondern wie er trainiert wurde. Die Forscher haben ihn nicht einfach nur mit vielen Bildern gefüttert, sondern ihn in zwei Phasen geschult – wie ein Schüler, der erst die Grundlagen lernt und dann für die schwere Prüfung übt.

  • Phase 1: Das Grundtraining (Der „Lehrbuch"-Modus)
    Der Detektiv lernt zuerst mit normalen, leicht bearbeiteten Bildern. Er lernt die offensichtlichen Muster von Deepfakes.

    • Vergleich: Wie wenn du lernst, wie ein echter 100-Euro-Schein aussieht, indem du ihn einfach ansiehst.
  • Phase 2: Der „Hart-Training"-Modus (Der „Stress-Test")
    Jetzt wird es spannend. Die Forscher nehmen die Bilder, die der Detektiv schon kennt, und werfen sie durch einen „Wäscheschleuder"-Filter. Sie drehen sie, verzerren sie, ändern die Farben und machen sie unscharf.

    • Die Analogie: Stell dir vor, du hast einen echten 100-Euro-Schein. Jetzt nimmst du ihn, knitterst ihn, machst ihn nass, legst ihn in die Sonne und reibst ihn mit Sandpapier ab. Wenn du den Schein danach immer noch als echt erkennst, hast du einen sehr guten Detektiv.
    • In dieser Phase lernt DeiTFake, die echten Fälschungs-Spuren zu finden, selbst wenn das Bild verzerrt oder schlecht ist. Das macht ihn extrem robust.

3. Das Ergebnis: Ein fast unfehlbarer Wächter

Das Ergebnis dieses Trainings ist beeindruckend:

  • Der Detektor erkennt Deepfakes zu 99,22 % korrekt.
  • Das ist so, als würde er aus 10.000 Bildern nur 79 falsch einschätzen.
  • Er ist besser als alle anderen Modelle, die bisher auf den gleichen Daten getestet wurden.

4. Warum ist das wichtig?

Frühere Detektoren waren wie „Spezialisten für eine bestimmte Art von Fälschung". Wenn die Hacker eine neue Technik nutzten, waren die alten Detektoren hilflos.
DeiTFake ist wie ein erfahrener General, der nicht nur eine Art von Fälschung kennt, sondern das Prinzip der Fälschung verstanden hat. Durch das „Verzerren" der Bilder während des Trainings (Phase 2) hat er gelernt, sich nicht von optischen Tricks täuschen zu lassen.

Zusammenfassung in einem Satz

Die Forscher haben einen KI-Detektiv gebaut, der zuerst die Grundlagen lernt und dann durch extremes „Verzerren" und „Verdrehen" von Trainingsbildern so trainiert wurde, dass er selbst die besten und verzerrtesten Deepfakes fast immer entlarvt.

Das Ziel: Damit wir im digitalen Zeitalter wieder sicher sein können, was echt ist und was nur eine KI-Erfindung. 🛡️📸