VidDoS: Universal Denial-of-Service Attack on Video-based Large Language Models

Die Arbeit stellt VidDoS vor, einen universellen Denial-of-Service-Angriff auf Video-basierte Large Language Models, der durch maskiertes Teacher Forcing und die Unterdrückung von Terminierungsmechanismen die Inferenz-Latenz um das 15-fache und die Token-Erweiterung um das 205-fache erhöht und somit kritische Sicherheitsrisiken in Echtzeitanwendungen wie dem autonomen Fahren verursacht.

Duoxun Tang, Dasen Dai, Jiyao Wang, Xiao Yang, Jianyu Wang, Siqi Cai

Veröffentlicht 2026-03-03
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

🎬 VidDoS: Der „Stau-Verursacher" für Video-KI

Stell dir vor, du hast einen superintelligenten KI-Assistenten, der nicht nur Bilder, sondern ganze Videos versteht. Diese KI wird immer wichtiger, besonders in sicherheitskritischen Bereichen wie autonomem Fahren. Wenn das Auto eine Gefahr erkennt, muss die KI blitzschnell entscheiden: „Bremse!" oder „Lenke aus!".

Das Problem: Diese KIs sind wie ein sehr fleißiger, aber leicht verwirrter Schüler. Wenn man ihn richtig „verwirrt", kann er so lange reden, bis er vergisst, was er eigentlich tun sollte. Genau das ist die Idee hinter VidDoS.

1. Das Problem: Warum alte Tricks nicht funktionieren

Früher gab es Angriffe auf KI, die nur Bilder sahen. Man hat ein fast unsichtbares Rauschen auf ein Foto gemalt, und die KI begann, über das Bild zu „geplappern" (z. B. statt „Hund" sagte sie: „Ein kleiner, brauner, flauschiger Hund, der auf einer Wiese steht, die grün ist...").

Aber bei Videos funktioniert das nicht mehr so einfach.

  • Die Analogie: Stell dir vor, du wirfst einen einzelnen Stein in einen reißenden Fluss. Der Fluss (die Video-KI) ist so schnell und stark, dass der einzelne Stein (der Angriff auf ein einzelnes Bild) sofort weggespült wird und keine Wirkung hat. Die KI schaut sich das Video als Ganzes an und filtert kleine Störungen heraus.
  • Das zweite Problem: In der echten Welt (wie beim autonomen Fahren) muss die KI in Millisekunden reagieren. Man kann nicht für jedes einzelne Video neu rechnen, wie man es „verwirrt". Man braucht einen Trick, der sofort funktioniert, egal welches Video kommt.

2. Die Lösung: VidDoS – Der „Universal-Stau"

Die Forscher haben VidDoS entwickelt. Das ist wie ein universeller Schlüssel, der jede Video-KI zum Stillstand bringen kann, ohne dass man die KI vorher kennen muss.

Wie funktioniert der Trick?
Stell dir vor, du klebst ein kleines, auffälliges Aufkleber-Muster (einen „Patch") in die Ecke eines Videos – zum Beispiel in die untere rechte Ecke.

  • Dieses Muster sieht für uns Menschen harmlos aus (vielleicht ein kleines, seltsames Farbfeld).
  • Aber für die KI ist es wie ein rotes Tuch für einen Stier. Es zieht die Aufmerksamkeit der KI magisch auf sich.

Sobald die KI dieses Muster sieht, passiert Folgendes:

  1. Der „Sponge-Effekt" (Schwamm-Effekt): Die KI beginnt, nicht mehr kurz und bündig zu antworten. Sie fängt an, endlos zu reden, als würde sie einen Text abschwemmen. Sie produziert Tausende von Wörtern, wo normalerweise ein Wort reichen würde.
  2. Der „Stopp-Schild"-Hack: Normalerweise sagt eine KI bei einer Ja/Nein-Frage einfach „Ja" oder „Nein" und hört auf. VidDoS zwingt die KI, diesen „Stopp"-Befehl zu ignorieren. Sie denkt: „Ich darf noch nicht aufhören, ich muss weiterreden!"

3. Warum ist das gefährlich? (Die Autowerkstatt-Analogie)

Stell dir ein autonomes Auto vor, das gerade auf der Autobahn fährt.

  • Normalfall: Die KI sieht ein Hindernis, denkt: „Bremse!" (1 Sekunde) und das Auto bremst. Alles sicher.
  • Unter VidDoS-Angriff: Die KI sieht das Video mit dem kleinen Aufkleber. Statt „Bremse!" zu sagen, fängt sie an, eine 10-minütige Geschichte über die Geschichte der Bremsen zu erzählen.
  • Das Ergebnis: Während die KI redet, passiert das Unvermeidbare. Das Auto fährt weiter, weil die KI zu beschäftigt ist, um zu entscheiden. Die Reaktionszeit verzögert sich um das 15-fache. In der Welt des autonomen Fahrens bedeutet das: Unfallgefahr.

4. Was macht VidDoS so besonders?

  • Einmal kleben, überall wirken: Man muss den „Aufkleber" nur einmal für eine KI trainieren. Danach klebt man ihn auf jedes Video, das die KI sieht – egal ob es ein Film ist, ein Sicherheitsvideo oder eine Überwachungskamera. Es funktioniert sofort.
  • Unzerstörbar: Selbst wenn man versucht, das Video zu verwackeln oder das Rauschen zu erhöhen, bleibt der Effekt bestehen. Die KI ist so sehr auf den „Aufkleber" fixiert, dass sie nicht mehr klar denken kann.

Fazit

VidDoS ist wie ein digitaler „Stau-Verursacher". Es nutzt einen kleinen, unsichtbaren Hack, um die Rechenleistung einer KI komplett zu blockieren. Anstatt die KI zu täuschen, überfordert sie sie mit endlosem Geschwätz.

Die Forscher warnen: Wenn wir KI-Systeme in Autos oder Krankenhäusern einsetzen, müssen wir sicherstellen, dass sie nicht so leicht zum „Plappern" gebracht werden können. Denn wenn die KI redet, statt zu handeln, kann das Leben gefährdet sein.