BLM-Guard: Explainable Multimodal Ad Moderation with Chain-of-Thought and Policy-Aligned Rewards

Each language version is independently generated for its own context, not a direct translation.

Imagina que las redes sociales de videos cortos (como TikTok o Instagram Reels) son como un gigantesco mercado al aire libre. En este mercado, hay miles de puestos vendiendo productos. La mayoría son honestos, pero algunos vendedores son tramposos: gritan "¡Es gratis!" cuando no lo es, muestran fotos de teléfonos de lujo que en realidad son de plástico, o usan palabras engañosas para que compres algo que no necesitas.

Antes, los guardias de seguridad (los sistemas de moderación) eran un poco torpes. Solo miraban si alguien llevaba un arma o si estaba desnudo (riesgos obvios). Pero en el mercado de anuncios, el peligro es más sutil: es el vendedor que sonríe mientras miente.

Aquí es donde entra BLM-Guard, el nuevo "super-guardia" que presenta este paper. Vamos a explicarlo con una analogía sencilla:

1. El Problema: El Vendedor Tramposo

Los anuncios modernos son una mezcla de video, voz y texto. Un vendedor puede mostrar una foto de un producto increíble (visual), decir "¡Es gratis!" (audio), pero poner un texto pequeño que dice "solo para clientes VIP" (subtítulos).

El reto: Un sistema antiguo no ve la trampa porque el video es bonito. Un sistema de texto no ve la mentira porque el audio suena amigable. Necesitan entender cómo todo encaja (o no encaja).

2. La Solución: BLM-Guard (El Detective con Lupa)

BLM-Guard no es solo un guardia; es un detective entrenado que tiene tres superpoderes:

A. El Cuaderno de Notas Mágico (Cadena de Pensamiento)

Imagina que antes, el guardia decidía "¡Detener!" o "¡Pasar!" en una fracción de segundo. Ahora, BLM-Guard tiene un cuaderno de notas.

Cómo funciona: Antes de juzgar, el sistema escribe sus pensamientos: "Veo un teléfono en la pantalla (paso 1). Escucho que dicen 'gratis' (paso 2). Pero el texto dice 'precio de 500 dólares' (paso 3). ¡Espera! La voz y el texto no coinciden. Esto es una trampa".
La analogía: Es como enseñar a un niño a resolver un problema de matemáticas paso a paso en lugar de adivinar la respuesta. Al escribir el razonamiento, el sistema es más preciso y puede explicarte por qué detuvo el anuncio.

B. El Manual de Reglas y el Entrenador (Aprendizaje por Refuerzo)

El sistema no solo lee el manual de reglas de la empresa; aprende a leerlo como un experto.

La analogía: Imagina que tienes un entrenador personal (la IA). Al principio, el entrenador te da un manual de reglas muy estricto y te hace practicar con ejemplos falsos creados por computadora (para que no tengas que contratar a miles de humanos para etiquetar todo).
Luego, el entrenador te hace un examen. Si fallas, te da una "recompensa" o un "castigo" basado no solo en si acertaste, sino en si tu razonamiento fue lógico. Si dijiste "es malo" pero tu explicación fue confusa, el entrenador te corrige. Esto se llama Refuerzo de la Coherencia.

C. El Ojo Clínico (Multimodal)

BLM-Guard tiene "ojos" para ver el video, "oídos" para escuchar el audio y "lectura" para los subtítulos.

La analogía: Es como un juez que no solo escucha al abogado, sino que también revisa las pruebas físicas y los documentos. Si el abogado dice "es inocente" pero las pruebas muestran lo contrario, el juez (BLM-Guard) detecta la contradicción. Esto es crucial para anuncios donde la imagen es bonita pero el audio miente.

3. El Resultado: Un Mercado Más Seguro

Los autores crearon un gran banco de pruebas (llamado BLM-Guard Benchmark) con miles de anuncios reales, desde estafas de "dinero fácil" hasta supersticiones engañosas.

Lo que lograron: BLM-Guard es mucho mejor que los sistemas anteriores. No solo detecta el anuncio malo, sino que te dice exactamente qué regla rompió (ej. "exageración de ingresos" o "superstición feudal") y por qué.
La ventaja: Es como pasar de tener un detector de metales que suena por todo a tener un detective que puede decirte: "Este anuncio es peligroso porque el vendedor promete curas milagrosas que la ciencia no respalda".

En Resumen

BLM-Guard es como entrenar a un guardia de seguridad muy inteligente que:

Piensa antes de actuar (escribe sus razones).
Aprende de sus errores con un entrenador virtual.
Vea todas las pistas (video, voz y texto) al mismo tiempo para no dejarse engañar por trucos visuales.

Gracias a esto, los anuncios que ves en tu teléfono serán más honestos, y si algo es falso, el sistema lo atrapará antes de que puedas hacer clic en "Comprar".

Each language version is independently generated for its own context, not a direct translation.

`).
* $r_{scaR}$ : Recompensa de Auto-consistencia y Adaptativa (SCA-R). Un modelo guía evalúa la coherencia causal y la alineación con los principios de moderación, ajustando dinámicamente los criterios de puntuación para manejar la deriva de las políticas.
* Normalización a nivel de token: Se aplica para mitigar sesgos debidos a longitudes de salida variables.

B. Arquitectura Multitarea

El modelo está diseñado para detectar simultáneamente:

Manipulaciones intra-modales: Ej. imágenes exageradas dentro del video.
Desajustes inter-modales: Ej. discrepancias entre el audio y los subtítulos, o imágenes benignas con texto provocativo.

3. Contribuciones Clave

BLM-Guard Benchmark: Se introduce un nuevo conjunto de datos real de anuncios de videos cortos, anotado con una taxonomía de riesgo de tres niveles:
- Nivel 1: Severidad (Alta, Media, Baja).
- Nivel 2: Escenario (ej. contenido ilegal, marketing falso).
- Nivel 3: Tipo de violación (ej. exageración de ingresos, superstición feudal).
  Este benchmark incluye trazas de razonamiento estructuradas para facilitar el aprendizaje supervisado y por refuerzo.
Marco BLM-Guard: Un sistema unificado que integra razonamiento ICoT, aprendizaje por refuerzo con recompensas híbridas y modelado multitarea, logrando decisiones explicables y alineadas con políticas.
Mecanismo SCA-R: Una innovación en la recompensa de RL que utiliza un crítico adaptativo para mantener la alineación del modelo ante políticas de moderación cambiantes, mejorando la consistencia y la interpretabilidad.

4. Resultados Experimentales

Los experimentos se realizaron en el BLM-Guard Benchmark y cinco conjuntos de datos públicos (LSPD, XD-Violence, etc.).

Rendimiento Superior: BLM-Guard supera significativamente a los modelos state-of-the-art (como Qwen2.5-VL, InternVL3, LLaVA-Guard) en todas las métricas.
- Precisión Estricta: Logra un 91.4% (vs. ~70% en los mejores baselines).
- Consistencia de Razonamiento: Obtiene una puntuación de 0.845 (vs. ~0.64 en baselines), indicando que sus explicaciones son mucho más coherentes con los principios de moderación.
- Detección Binaria: Alta precisión (0.976) y recall (0.962) en la clasificación de riesgo.
Generalización: El modelo demuestra una fuerte capacidad de generalización en conjuntos de datos públicos no vistos, especialmente en escenarios de desinformación y falsedades, donde otros modelos fallan.
Estudio de Ablación: Confirma que la combinación de SFT guiado por reglas y RL con recompensa SCA-R es crucial; el uso de solo SFT o solo RL no alcanza el mismo nivel de rendimiento.

5. Significado e Impacto

BLM-Guard representa un avance significativo en la moderación de contenido comercial al abordar la brecha entre la detección de riesgos generales y la necesidad de cumplimiento normativo específico y detallado.

Explicabilidad: Al obligar al modelo a generar cadenas de pensamiento estructuradas, las decisiones de moderación se vuelven auditables y transparentes, algo crítico para plataformas y reguladores.
Adaptabilidad: El enfoque de recompensa adaptativa (SCA-R) permite que el sistema evolucione junto con las políticas de la plataforma sin necesidad de reentrenamiento masivo constante.
Eficiencia: La síntesis de datos basada en reglas reduce drásticamente los costos de anotación manual, haciendo viable la creación de grandes conjuntos de datos de alta calidad para tareas de moderación complejas.

En resumen, BLM-Guard establece un nuevo estándar para la moderación multimodal en entornos comerciales de alto riesgo, priorizando la precisión, la consistencia lógica y la alineación estricta con las políticas de la plataforma.

BLM-Guard: Explainable Multimodal Ad Moderation with Chain-of-Thought and Policy-Aligned Rewards

1. El Problema: El Vendedor Tramposo

2. La Solución: BLM-Guard (El Detective con Lupa)

A. El Cuaderno de Notas Mágico (Cadena de Pensamiento)

B. El Manual de Reglas y el Entrenador (Aprendizaje por Refuerzo)

C. El Ojo Clínico (Multimodal)

3. El Resultado: Un Mercado Más Seguro

En Resumen

B. Arquitectura Multitarea

3. Contribuciones Clave

4. Resultados Experimentales

5. Significado e Impacto

Más como este

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation