BLM-Guard: Explainable Multimodal Ad Moderation with Chain-of-Thought and Policy-Aligned Rewards

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie sind der Chef eines riesigen, digitalen Marktplatzes, auf dem jede Sekunde tausende neue Werbespots hochgeladen werden. Manche sind harmlos, aber viele versuchen, die Zuschauer zu täuschen: „Dieses Teeblatt heilt alle Krankheiten!", „Klicken Sie hier und gewinnen Sie ein kostenloses iPhone!" oder „Dieses Video zeigt ein harmloses Tier, aber der Text verspricht Geld für illegale Aktivitäten."

Früher haben einfache Filter versucht, diese Werbung zu stoppen. Sie funktionierten wie ein robuster, aber dummer Türsteher: Er schaut nur, ob jemand eine Waffe trägt (Gewalt) oder zu wenig Kleidung trägt (Nacktheit). Aber er versteht nicht, wenn jemand freundlich lügt oder wenn das Bild etwas anderes sagt als der gesprochene Text.

Das ist das Problem, das die Forscher mit BLM-Guard lösen wollen. Hier ist die Erklärung, wie sie es tun, mit ein paar einfachen Vergleichen:

1. Der neue Türsteher: Ein Detektiv mit Gedächtnis

Stellen Sie sich BLM-Guard nicht als einfachen Filter vor, sondern als einen sehr gut ausgebildeten Detektiv, der drei Superkräfte hat:

Er liest die Gedanken (Chain-of-Thought): Früher sagte ein Computer einfach nur „Verboten" oder „Erlaubt". Unser neuer Detektiv denkt laut nach. Er sagt: „Okay, ich sehe ein Bild von einem Handy. Der Sprecher sagt: 'Es ist kostenlos'. Aber ich weiß aus den Regeln, dass nichts wirklich kostenlos ist. Also: Das ist eine Lüge!" Er schreibt diesen Gedankengang auf, damit wir verstehen, warum er gesperrt hat.
Er kennt das Regelbuch auswendig (Policy-Aligned): Er kennt nicht nur Gesetze, sondern auch die spezifischen Hausregeln Ihres Marktplatzes. Er weiß genau, was „übertriebene Versprechungen" oder „schleichende Werbung" sind.
Er merkt Widersprüche (Multimodal): Er achtet darauf, ob Bild und Ton zusammenpassen. Wenn das Bild ein glückliches Baby zeigt, aber der Text von „schrecklichen Schmerzen" spricht, merkt er sofort: „Hier stimmt etwas nicht!"

2. Wie lernt dieser Detektiv? (Die zwei Trainingsphasen)

Der Detektiv wird nicht einfach geboren; er muss trainiert werden. Das Team hat dafür einen cleveren zweistufigen Plan entwickelt:

Phase 1: Der strengen Lehrer (Regel-gestütztes Lernen)

Zuerst wird der Detektiv von einem strengen Lehrer unterrichtet. Dieser Lehrer nutzt ein riesiges Regelbuch.

Der Trick: Statt tausende Videos von Menschen manuell zu prüfen (was teuer und langsam ist), hat das Team einen Roboter-Generator gebaut. Dieser Generator schaut sich Videos an, sucht nach verdächtigen Stellen (wie einem Bild von Geld oder einem Wort wie „gratis") und schreibt automatisch eine Lernkarte mit:
- Was ist zu sehen?
- Was wird gesagt?
- Welche Regel wurde gebrochen?
- Warum ist das falsch?
Der Detektiv lernt aus diesen tausenden automatisch erstellten Karten. Er lernt, Muster zu erkennen und seine Gedanken logisch zu strukturieren.

Phase 2: Der kritische Trainer (Belohnung durch Feedback)

Nachdem der Detektiv die Grundlagen gelernt hat, kommt er in die Praxisphase. Hier gibt es keinen festen Lehrplan mehr, sondern Feedback.

Der Detektiv prüft ein Video und gibt eine Antwort.
Ein künstlicher Trainer (ein zweites KI-Modell) schaut sich die Antwort an. Er fragt: „Warst du ehrlich? War deine Begründung logisch? Hast du die Regeln genau befolgt?"
Die Belohnung: Wenn der Detektiv richtig liegt und gut begründet, bekommt er Punkte. Wenn er lügt oder verwirrt ist, bekommt er keine Punkte.
Besonders clever ist hier die „Selbst-Verständnis-Belohnung": Der Trainer passt sich an. Wenn die Regeln sich ändern (z. B. plötzlich ist eine bestimmte Art von Werbung verboten), lernt der Detektiv schnell, sich darauf einzustellen, ohne dass jemand ihm neue Regeln von Hand eingeben muss.

3. Das Ergebnis: Ein smarter, fairer Wächter

Am Ende haben wir ein System, das:

Genauer ist: Es fängt mehr Betrug auf als alte Systeme.
Erklärbar ist: Es sagt nicht nur „Nein", sondern erklärt: „Nein, weil der Sprecher behauptet, das Produkt sei kostenlos, aber im Kleingedruckten steht, dass man 50€ zahlen muss."
Robust ist: Es funktioniert auch bei neuen, noch nie gesehenen Tricks der Werbetreibenden.

Zusammengefasst:
Stellen Sie sich BLM-Guard wie einen super-intelligenten, geduldigen und regelstrengen Assistenten vor, der nicht nur auf „Verbotene Wörter" schaut, sondern den ganzen Kontext versteht, die Logik hinter der Werbung prüft und uns genau erklärt, warum er eine Werbung ablehnt. Das macht den digitalen Marktplatz sicherer und fairer für alle.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Mit dem Aufstieg generativer KI und der Popularität von Kurzvideo-Plattformen (z. B. TikTok, Instagram Reels) ist die Erstellung multimodaler Werbeinhalte (Kombination aus Video, Sprache und Text) einfacher geworden. Dies stellt jedoch neue Herausforderungen für die Inhaltsmoderation dar.

Unterschied zur allgemeinen Moderation: Während Community-Sicherheitsfilter oft grobe Risiken wie Gewalt oder Nacktheit erkennen, erfordert die Werbemoderation eine feingranulare, regelbasierte Prüfung.
Spezifische Schwierigkeiten: Verstöße sind oft subtil oder getarnt (z. B. übertriebene Versprechen, irreführende Hinweise, Umgehung von Regeln). Häufig treten Fehlausrichtungen zwischen den Modalitäten auf (z. B. ein visuell harmloses Bild mit einem täuschenden Audio-Text oder Untertiteln, die nicht zur gesprochenen Sprache passen).
Limitationen bestehender Ansätze: Herkömmliche regelbasierte Filter oder allgemeine Vision-Language-Modelle (VLMs) scheitern oft an:
1. Begrenztem kausalem Schlussfolgern über Modalitäten hinweg.
2. Geringer Anpassungsfähigkeit an sich ändernde Richtlinien (Policy Drift).
3. Fehlendem spezifischem Reasoning für nuancierte kommerzielle Risiken.

2. Methodik: BLM-Guard Framework

BLM-Guard ist ein Audit-Framework, das Chain-of-Thought (CoT)-Reasoning mit regelbasierten Prinzipien und einem kritiker-gesteuerten Belohnungssystem verbindet. Der Ansatz besteht aus zwei Hauptphasen:

A. Datenkonstruktion und Benchmark

BLM-Guard Benchmark: Ein neuer, realer Datensatz für Kurzwerbevideos, der mit einer dreistufigen Risikotaxonomie annotiert ist:
1. Schweregrad: Hoch, Mittel, Niedrig.
2. Szenario: z. B. illegale Inhalte, falsches Marketing.
3. Verstoßtyp: z. B. Einkommensüberhöhung, Privatsphärenverletzung, Aberglaube.
Datenpipeline: Die Daten umfassen expertengeprüfte Videos, regelgetriggerte Samples und hochfrequente, konforme Videos. Ein Teil enthält strukturierte Reasoning-Traces.

B. Zwei-Stufen-Trainingspipeline

Das Training erfolgt in zwei aufeinanderfolgenden Phasen, um die Kontrolle und Interpretierbarkeit zu gewährleisten:

Phase 1: Regelgeleitete Cold-Start-SFT (Supervised Fine-Tuning)

ICoT (Interleaved-modal Chain-of-Thought): Um die Kosten für Annotationen zu senken, wird eine regelgesteuerte Pipeline verwendet, um strukturierte Daten zu synthetisieren.
Schlüsseltechnologien:
- Schlüsselbild- und Regionenauswahl: Ein CLIP-basierter Ansatz identifiziert risikoreiche Frames und Regionen (Patch-Level) basierend auf Ähnlichkeit zu Risikoprompts.
- Generierung von Reasoning-Traces: Ein gefrorenes VLM (InternVL) generiert strukturierte Ketten: Beobachtung → Risikoprüfung → Kausalanalyse → Endurteil.
Ziel: Das Modell lernt durch SFT, regelbasierte kausale Schlussfolgerungen zu ziehen. Ein zusätzlicher KL-Verlust term aligniert die Reasoning-Verteilung mit einem regelbasierten Prior.

Phase 2: Selbstadaptives GRPO (Reinforcement Learning)

Optimierung: Das Modell wird mittels Group-wise Relative Policy Optimization (GRPO) weiterverfeinert, um sich an sich ändernde Risiken anzupassen.
Hybride Belohnungsfunktion (Reward Design): Die Belohnung setzt sich aus drei Komponenten zusammen:
1. Regelbasierte Belohnung ( $r_{rule}$ ): Diskrete Belohnung für korrekte Zuordnung von Szenario und Verstoßtyp.
2. Format-Bewusstsein ( $r_{format}$ ): Sicherstellung der korrekten Ausgabestruktur (Tags wie <answer>).
3. SCA-R (Self-Consistency and Adaptive Reward): Ein „Guide-Model" bewertet die Reasoning-Traces dynamisch basierend auf Prinzipien wie kausaler Klarheit und Risikozuordnung. Dies löst das Problem von Reward-Misalignment bei sich ändernden Richtlinien.
Stabilitätsmaßnahmen: Token-Level-Normalisierung und dynamisches Sampling (Überspringen von Batches mit null Varianz) verhindern Gradienten-Kollaps.

3. Wichtige Beiträge

BLM-Guard Benchmark: Ein neuer, realer Datensatz für Werbemoderation mit einer feingranularen, hierarchischen Taxonomie (7 Risikoszenarien, subtile Verstoßtypen), der eine politikbasierte Evaluation ermöglicht.
BLM-Guard Framework: Ein multimodales Moderationssystem, das regelgetriebenes ICoT-Reasoning, konsistenzbewusstes Reinforcement Learning und Multi-Task-Modellierung kombiniert.
Neue Techniken:
- Einführung von ICoT für strukturierte multimodale Reasoning-Daten.
- Entwicklung von SCA-R, einem adaptiven Belohnungsmechanismus, der Policy-Drifts handhabt.
- Ein Multi-Task-Ansatz, der sowohl intra-modale Manipulationen (z. B. übertriebene Bilder) als auch cross-modale Mismatches (z. B. Audio-Text-Drift) modelliert.

4. Ergebnisse

Die Experimente wurden auf dem BLM-Guard-Benchmark sowie fünf öffentlichen Datensätzen (z. B. LSPD, XD-Violence, FakeSV) durchgeführt.

Überlegenheit gegenüber SOTA: BLM-Guard (basierend auf Qwen2.5-VL-7B) übertrifft starke Baselines wie LLaVA-Next-Video, InternVL3 und spezialisierte Guard-Modelle (LlavaGuard, QwenGuard) in allen Metriken.
Genauigkeit: Auf dem Benchmark erreicht BLM-Guard eine Strict Accuracy von 91,4 % (im Vergleich zu ~70 % bei den besten Baselines) und eine Wide Accuracy von 96,2 %.
Konsistenz: Der Score für die Konsistenz zwischen Reasoning und Antwort (bewertet durch GPT-4o) liegt bei 0,845, deutlich höher als bei anderen Modellen.
Generalisierung: Das Modell zeigt starke Fähigkeiten bei der Erkennung von irreführenden Inhalten und cross-modalen Inkonsistenzen in externen Datensätzen, wo andere Modelle oft versagen.
Ablationsstudie: Die Studie bestätigt, dass die Kombination aus regelbasiertem SFT und SCA-R-gesteuertem RL die beste Leistung erzielt. Reines SFT oder nur RL ohne adaptive Belohnung reichen nicht aus.

5. Bedeutung und Fazit

BLM-Guard adressiert eine kritische Lücke in der KI-Sicherheit: Die Notwendigkeit von erklärbaren, regelkonformen und feingranularen Moderationssystemen für kommerzielle Kurzvideos.

Praktischer Nutzen: Das Framework reduziert manuelle Annotationskosten durch synthetisierte Reasoning-Daten und bietet Plattformen ein Werkzeug, das nicht nur „Ja/Nein" entscheidet, sondern nachvollziehbare Begründungen liefert.
Robustheit: Durch die Integration von adaptiven Belohnungen (SCA-R) ist das System widerstandsfähig gegen sich ändernde regulatorische Anforderungen.
Zukunft: Die Arbeit legt einen neuen Standard für die Bewertung und Entwicklung von VLMs im Bereich der kommerziellen Inhaltsmoderation, indem sie zeigt, dass strukturiertes Reasoning und RL-Synthese entscheidend für die Handhabung komplexer, nuancierter Verstöße sind.

BLM-Guard: Explainable Multimodal Ad Moderation with Chain-of-Thought and Policy-Aligned Rewards

1. Der neue Türsteher: Ein Detektiv mit Gedächtnis

2. Wie lernt dieser Detektiv? (Die zwei Trainingsphasen)

Phase 1: Der strengen Lehrer (Regel-gestütztes Lernen)

Phase 2: Der kritische Trainer (Belohnung durch Feedback)

3. Das Ergebnis: Ein smarter, fairer Wächter

1. Problemstellung

2. Methodik: BLM-Guard Framework

A. Datenkonstruktion und Benchmark

B. Zwei-Stufen-Trainingspipeline

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation