Solution to the 10th ABAW Expression Recognition Challenge: A Robust Multimodal Framework with Safe Cross-Attention and Modality Dropout

Este trabajo presenta un marco multimodal robusto basado en Transformers con atención cruzada segura y dropout de modalidades, que combina pérdidas focales y votación suave por ventanas deslizantes para superar los desafíos de oclusiones, datos faltantes y desequilibrio de clases en el reconocimiento de emociones del desafío ABAW, logrando un 60,79 % de precisión en el conjunto de validación Aff-Wild2.

Jun Yu, Naixiang Zheng, Guoyuan Wang, Yunxiang Zhang, Lingsi Zhu, Jiaen Liang, Wei Huang, Shengping Liu

Publicado 2026-03-10
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que estás intentando adivinar cómo se siente una persona en una fiesta muy ruidosa y caótica. A veces la música es tan fuerte que no puedes oír su voz, y otras veces se tapa la cara con las manos o se aleja de la cámara. Es difícil saber si está feliz, triste o enojado.

Este paper es como el manual de instrucciones de un "detective emocional" superinteligente que ganó el 10º concurso mundial de reconocimiento de emociones (llamado ABAW). Su misión era entender las emociones humanas en situaciones reales y desordenadas, no en un laboratorio perfecto.

Aquí te explico cómo funciona su "cerebro" usando analogías sencillas:

1. El Equipo de Detectives (Visión y Oído)

En lugar de confiar en un solo detective, el sistema tiene dos expertos trabajando juntos:

  • El Detective Visual: Mira la cara de la persona (usando una tecnología muy avanzada llamada BEiT).
  • El Detective Auditivo: Escucha la voz y el tono de la persona (usando una tecnología llamada WavLM).

El problema: En la vida real, a veces el Detective Visual se queda ciego (por una sombra, un objeto que tapa la cara o porque la persona se va de la pantalla). Si el sistema solo confiara en la vista, se quedaría confundido.

2. El Truco del "Seguro de Vida" (Atención Cruzada Segura)

Aquí es donde entra la magia de su invento. Imagina que los dos detectives están en una sala de control. Normalmente, se pasan notas entre ellos para decidir qué está pasando.

Pero, ¿qué pasa si el Detective Visual se desmaya?

  • Sistemas antiguos: Se ponían nerviosos, gritaban "¡ERROR!" y dejaban de funcionar.
  • Este sistema: Tiene un mecanismo de seguridad. Si detecta que no hay imagen, el Detective Auditivo toma el control total automáticamente. El sistema está diseñado para decir: "Bueno, no veo la cara, pero escucho que la voz está temblando y gritando, así que probablemente esté enojado".

Lo lograron usando una técnica llamada "Modality Dropout" (Entrenamiento con "ceguera" temporal). Durante el entrenamiento, el sistema se obligó a practicar adivinando emociones sin ver nada a veces. Así, cuando llega el momento real y la cámara falla, el sistema ya sabe cómo actuar sin entrar en pánico.

3. El Problema de la "Lista de la Compra" Desbalanceada

El sistema aprendió de un libro de texto gigante (un conjunto de datos) que tenía un problema: había miles de ejemplos de gente "feliz" o "enojada", pero muy pocos de "asustada" o "despreciativa".

  • La analogía: Imagina que estudias para un examen donde el 90% de las preguntas son sobre "perros" y solo el 1% sobre "dinosaurios". Si estudias igual para todos, serás un experto en perros pero un fracaso total con los dinosaurios.

La solución: Usaron una técnica llamada "Focal Loss". Es como ponerle un megáfono a las preguntas difíciles (los dinosaurios) y un silenciador a las fáciles (los perros). Esto obliga al sistema a prestar mucha más atención a las emociones raras y difíciles de detectar, mejorando su precisión general.

4. El Editor de Video Suave (Votación Suave)

Las emociones humanas no cambian de golpe de "feliz" a "triste" en una milésima de segundo; son como una ola que sube y baja.

  • El problema: Si el sistema mira cada fotograma por separado, puede empezar a saltar locamente: "¡Está feliz! ¡No, triste! ¡Ahora feliz!". Eso se ve como un video con mucho "ruido" o temblor.
  • La solución: Usaron una ventana deslizante. Imagina que en lugar de juzgar un solo fotograma, el sistema mira un pequeño clip de video de unos segundos, toma la "opinión promedio" de todos esos fotogramas y luego suaviza el resultado. Es como si un editor de video suavizara las transiciones para que el cambio de emoción se vea natural y fluido, sin saltos bruscos.

¿Qué lograron?

Gracias a combinar a estos dos detectives, entrenarlos para que no entren en pánico si uno falla, y enseñarles a prestar atención a las emociones raras, lograron:

  • 60.79% de precisión (muy alto para un entorno tan caótico).
  • Un sistema que es robusto: si te tapas la cara o la luz falla, sigue funcionando gracias al audio.

En resumen: Crearon un sistema que no es un robot rígido, sino un observador flexible que sabe cuándo mirar, cuándo escuchar y cómo ignorar el ruido para entender realmente cómo se sienten las personas, incluso en las peores condiciones.