Leveraging large multimodal models for audio-video deepfake detection: a pilot study

Die Studie stellt AV-LMMDetect vor, einen auf Qwen 2.5 Omni basierenden, feinabgestimmten großen multimodalen Modellansatz für die Audio-Video-Deepfake-Erkennung, der durch eine zweistufige Trainingsstrategie den aktuellen Stand der Technik auf dem Mavos-DD-Datensatz erreicht und die Generalisierungsfähigkeit bestehender, kleinerer Modelle verbessert.

Songjun Cao, Yuqi Li, Yunpeng Luo, Jianjun Yin, Long Ma

Veröffentlicht 2026-03-02
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie sitzen in einem Café und sehen einem Freund zu, wie er eine Geschichte erzählt. Plötzlich merken Sie: „Moment mal, seine Lippenbewegungen passen nicht ganz zu dem, was er sagt, und seine Stimme klingt ein bisschen zu glatt." Das ist das Problem, das wir heute haben: Deepfakes.

Heutzutage können Computer so gute Fälschungen von Videos und Stimmen erstellen, dass sie fast echt aussehen. Früher haben Forscher versucht, diese Fälschungen zu entlarven, indem sie nur auf das Bild (die Lippen) oder nur auf den Ton geachtet haben. Das ist aber wie ein Detektiv, der nur die Schuhe des Verdächtigen betrachtet und die Handschuhe ignoriert – er übersieht oft wichtige Hinweise.

Hier kommt die neue Studie von Songjun Cao und seinem Team ins Spiel. Sie haben eine Art „Super-Detektiv" entwickelt, den sie AV-LMMDetect nennen.

Wie funktioniert dieser Super-Detektiv?

Stellen Sie sich einen riesigen, extrem klugen Bibliothekar vor, der alles über die Welt weiß (das ist das große Sprachmodell, auf dem sie basieren). Dieser Bibliothekar ist aber noch nicht speziell für das Aufspüren von Fälschungen trainiert. Er würde vielleicht sagen: „Ich bin mir nicht sicher, das sieht echt aus, aber vielleicht ist es auch Fake."

Die Forscher haben diesem Bibliothekar nun einen zweistufigen Trainingskurs gegeben, damit er zum Experten wird:

  1. Schritt 1: Die leichte Schulung (LoRA Alignment)
    Stellen Sie sich vor, Sie geben dem Bibliothekar eine kurze Anleitung: „Wenn du ein Video siehst, antworte nur mit ‚Wahr' oder ‚Falsch'. Denk nicht zu viel nach, sondern konzentriere dich auf die Aufgabe." In diesem Schritt wird dem Modell beigebracht, wie es die Frage überhaupt beantworten soll, ohne sein gesamtes Wissen zu verändern. Es ist wie das Anlegen einer neuen Brille, um den Fokus zu schärfen.

  2. Schritt 2: Das große Training (Vollständiges Feintuning)
    Jetzt wird es ernst. Der Bibliothekar darf nun nicht nur lesen, sondern muss auch hören und sehen. Er lernt, wie Lippenbewegungen und Sprachmuster zusammen funktionieren. Wenn etwas nicht stimmt (z. B. wenn die Lippenbewegung nur eine Millisekunde zu spät kommt), merkt er es sofort. In diesem Schritt wird das gesamte „Gehirn" des Modells trainiert, um diese winzigen Unstimmigkeiten zwischen Bild und Ton zu erkennen.

Warum ist das so besonders?

Bisherige Methoden waren wie Spezialisten für ein einziges Werkzeug. Ein Detektiv, der nur Fingerabdrücke sucht, ist gut, wenn Fingerabdrücke da sind. Aber wenn der Täter Handschuhe trägt, ist er hilflos.

AV-LMMDetect ist wie ein Allrounder-Detektiv, der alles gleichzeitig betrachtet:

  • Er hört den Ton.
  • Er sieht das Bild.
  • Er vergleicht beides miteinander.

Das Besondere ist, dass sie das Problem nicht als komplizierte mathematische Gleichung lösen, sondern als einfache Ja/Nein-Frage: „Ist dieses Video echt oder gefälscht?" Das Modell antwortet dann direkt.

Die Ergebnisse im Test

Die Forscher haben ihren Detektiv in zwei großen Prüfungen getestet:

  1. FakeAVCeleb: Hier war er fast so gut wie die besten bisherigen Methoden.
  2. MAVOS-DD: Das war die härteste Prüfung. Hier wurden Videos in vielen verschiedenen Sprachen und mit vielen verschiedenen Fälschungstechniken getestet.

Das Ergebnis? AV-LMMDetect war der klare Gewinner.
Während andere Modelle bei den schwierigsten Tests oft raten mussten (wie ein Schüler, der die Antworten nicht gelernt hat), traf unser Super-Detektiv in über 85 % der Fälle die richtige Entscheidung. Er konnte sogar Fälschungen erkennen, die er noch nie zuvor gesehen hatte – wie ein Detektiv, der das Muster des Verbrechens versteht, statt nur die Gesichter der Täter zu kennen.

Fazit

Kurz gesagt: Die Forscher haben einen riesigen, klugen KI-Modell genommen und ihn mit einer cleveren Trainingsmethode (zuerst kurz, dann intensiv) zu einem Meister im Aufspüren von Fake-Videos gemacht. Anstatt nur auf das Bild oder nur auf den Ton zu schauen, nutzt er beide Sinne gleichzeitig. Das ist ein großer Schritt, um im Internet die Wahrheit von der Fälschung zu unterscheiden und unser Vertrauen in Medien zu schützen.

Es ist, als hätten wir einem blinden Detektiv plötzlich die Augen geöffnet und ihm gleichzeitig ein Gehör gegeben – und jetzt sieht er alles, was vorher unsichtbar war.