HSEmotion Team at ABAW-10 Competition: Facial Expression Recognition, Valence-Arousal Estimation, Action Unit Detection and Fine-Grained Violence Classification

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que el equipo HSEmotion es como un grupo de detectives muy inteligentes que participaron en una competencia mundial llamada ABAW-10. El objetivo de esta competencia era enseñar a las computadoras a "leer" las emociones humanas, detectar la violencia y entender el lenguaje corporal, todo esto viendo videos grabados en la vida real (no en un estudio de cine perfecto).

Aquí te explico cómo lo hicieron, usando analogías sencillas:

1. El Problema: Leer caras en una tormenta

Imagina que estás en una fiesta muy ruidosa, con gente moviéndose rápido, luces parpadeando y gente tapándose la cara. Intentar adivinar si alguien está feliz, enojado o triste es muy difícil. Además, las computadoras suelen confundirse porque hay muchas más caras "tristes" o "neutras" en los videos que caras "sorprendidas" (es como si en el diccionario hubiera 1000 palabras para "triste" y solo una para "sorprendido").

2. La Solución: El "Detective con Gafas Mágicas"

Para los problemas de expresiones faciales, emociones (alegría/tristeza) y unidades de acción (como levantar una ceja), el equipo usó una estrategia de dos pasos, como un detective que primero usa sus instintos y luego consulta un manual.

Paso 1: El Instinto Rápido (El Modelo Pre-entrenado):
Primero, usan unas "gafas mágicas" (llamadas modelos EfficientNet) que ya han visto millones de fotos en internet. Estas gafas son muy rápidas. Si la computadora está muy segura (digamos, un 90% de certeza) de que la persona está sonriendo, ¡listo! Anotan "Feliz" y siguen. Es como cuando reconoces a un amigo en la calle de un vistazo rápido.
Paso 2: El Manual de Referencia (El MLP):
Si las gafas mágicas dicen "no estoy seguro" (porque la luz es mala o la cara está medio tapada), entonces toman una "foto mental" (un embedding) de esa cara y se la dan a un asistente muy estudioso (un Perceptrón Multicapa o MLP) que ha estudiado específicamente los videos de esta competencia. Este asistente es experto en las reglas de este juego y corrige los errores.
El Truco Final: El Suavizado (La Medida Promedio):
A veces, una computadora puede decir "¡Está triste!" en un segundo y "¡Está feliz!" en el siguiente, aunque la persona no cambie de expresión. Para evitar estos saltos locos, el equipo usa una ventana deslizante. Imagina que en lugar de tomar una foto cada segundo, toman una foto de los últimos 5 segundos y sacan un promedio. Así, la emoción se ve fluida y natural, como un video suave en lugar de una película de stop-motion.
El Oído:
También escucharon el audio. Si la cara es ambigua, pero la voz suena muy triste, combinan ambas pistas para tomar una decisión más inteligente.

3. El Caso Especial: Detectar Violencia

Para la tarea de detectar violencia, el enfoque fue diferente. Aquí no basta con mirar una cara; hay que ver todo el cuerpo y lo que está pasando en la escena (como una pelea en la calle).

La Analogía del Observador:
Imagina un guardia de seguridad que no solo mira la cara de la gente, sino que observa cómo caminan, cómo se mueven sus brazos y si hay objetos peligrosos.
La Herramienta:
Usaron un modelo llamado ConvNeXt-T. Piensa en esto como un super-escáner que toma una foto de cada cuadro del video y extrae detalles muy finos. Luego, usan un "cerebro temporal" (TCN o BiLSTM) que conecta esas fotos en secuencia para entender la historia: "Primero levantó la mano, luego corrió, luego golpeó".
El Resultado:
Descubrieron que no necesitaban cámaras de video complejas que graban en 3D (que son pesadas y lentas). Con un buen escáner de fotos 2D combinado con un cerebro que entiende el tiempo, lograron detectar la violencia mucho mejor que los métodos anteriores.

4. ¿Por qué es importante esto?

El equipo logró algo genial: hacerlo simple pero muy preciso.
Muchos otros equipos usaron máquinas gigantescas y complejas (como transformadores masivos) que consumen mucha energía. El equipo HSEmotion demostró que con un enfoque inteligente, "ligero" y bien calibrado (ajustando los sesgos para que no favorezcan a las emociones comunes), se puede obtener un resultado excelente.

En resumen:
Crearon un sistema que es como un detective experto y rápido:

Usa su instinto rápido si está seguro.
Consulta sus notas si tiene dudas.
Promedia sus conclusiones para no cometer errores por nerviosismo.
Escucha el contexto (audio y movimiento) para entender la historia completa.

Esto es vital para aplicaciones reales, como ayudar a conductores a no distraerse, moderar contenido violento en internet o ayudar a terapeutas a entender mejor a sus pacientes, todo sin necesitar superordenadores que consuman toda la energía de una ciudad.

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo en español, estructurado según los puntos solicitados:

Resumen Técnico: Equipo HSEmotion en la Competición ABAW-10

1. Problema Abordado

El artículo presenta los resultados del equipo HSEmotion en la 10ª edición de la competencia ABAW (Affective Behavior Analysis in-the-Wild). El objetivo es el análisis de comportamiento afectivo en entornos no controlados ("in-the-wild"), lo cual plantea desafíos significativos debido a la variabilidad en la iluminación, oclusiones, cambios de pose, desequilibrio de clases y anotaciones ruidosas.

El trabajo se centra en cuatro tareas específicas:

Reconocimiento de Expresiones Faciales (FER): Clasificación de 8 emociones básicas por cuadro.
Estimación de Valencia-Arousal (VA): Predicción de valores continuos de valencia y activación.
Detección de Unidades de Acción (AU): Identificación de 12 micro-expresiones faciales (clasificación multietiqueta).
Detección de Violencia de Alta Granularidad (VD): Clasificación de cuadros de video como violentos o no violentos, requiriendo el análisis del contexto completo de la escena y no solo del rostro.

2. Metodología Propuesta

El equipo propone un enfoque modular, eficiente y ligero, diseñado para equilibrar precisión y costo computacional.

A. Tareas de Análisis Facial (FER, VA, AU):

Extracción de Características: Se utilizan arquitecturas ligeras preentrenadas (como EfficientNet, DDAMFN, MobileViT) de la librería EmotiEffLib. Estos modelos, entrenados inicialmente en el conjunto de datos AffectNet, extraen embeddings faciales de alta resolución (224x224).
Pipeline de Clasificación Híbrido:
- Filtro de Confianza: Si el modelo preentrenado muestra una confianza muy alta (superior a un umbral $p_0$ , típicamente 0.8-0.9) en su predicción, se utiliza directamente esa etiqueta.
- Clasificador MLP: Si la confianza es baja, los embeddings se alimentan a un Perceptrón Multicapa (MLP) simple entrenado específicamente en el conjunto de datos AffWild2.
Ajuste de Sesgo (GLA): Para mitigar el severo desequilibrio de clases en las emociones, se aplica Ajuste de Logit Generalizado (GLA). Esto implica calibrar los sesgos de la última capa del MLP utilizando probabilidades a priori de las clases para maximizar la puntuación F1.
Suavizado Temporal: Las predicciones a nivel de cuadro se suavizan mediante una ventana deslizante de tamaño fijo para reducir el ruido y asegurar consistencia temporal en el video.
Fusión Multimodal: Se exploró la fusión tardía (late-fusion) de características acústicas (extraídas con wav2vec 2.0) con las características visuales, ponderando la contribución de cada modalidad.

B. Detección de Violencia (VD):

Arquitectura: A diferencia de las tareas faciales, esta tarea requiere analizar el cuadro completo (movimiento corporal, interacciones).
Backbone: Se utiliza ConvNeXt-T (preentrenado en ImageNet-1K) para extraer características espaciales de 768 dimensiones por cuadro.
Modelado Temporal: Las características espaciales se procesan mediante una Red Neuronal Temporal Convolucional (TCN) de 5 capas con dilatación o un BiLSTM.
Variantes Multimodales: Se probó la fusión de características RGB con datos de esqueleto (extraídos con MediaPipe Pose) utilizando mecanismos de atención cruzada, aunque la configuración de un solo flujo (RGB) con ConvNeXt-T resultó ser la más robusta.

3. Contribuciones Clave

Pipeline Eficiente y Calibrado: Demostración de que un pipeline simple, que combina extractores de características preentrenados con un clasificador ligero (MLP) y técnicas de calibración (GLA), supera a arquitecturas temporales mucho más complejas.
Estrategia de Filtro de Confianza: La introducción de un mecanismo que prioriza las predicciones de alta confianza del modelo preentrenado sobre el clasificador entrenado localmente, mejorando la robustez.
Adaptación de Framework: Cambio de TensorFlow 2.x a PyTorch para la implementación, facilitando la reproducibilidad y la adopción por parte de la comunidad de investigación actual.
Resultados en Tareas Diversas: Logro de métricas competitivas en cuatro tareas distintas utilizando una metodología unificada para el análisis facial y especializada para la detección de violencia.

4. Resultados Experimentales

Los resultados se evaluaron en los conjuntos de validación oficiales de ABAW-10:

Reconocimiento de Expresiones (FER): El enfoque propuesto logró un F1 Macro de 47.40 y una precisión de 57.98, superando significativamente a la línea base (VGGFACE: 25.0% F1) y a otros métodos complejos que utilizan fusión multimodal pesada.
Estimación Valencia-Arousal (VA): Se alcanzó un CCC (Coeficiente de Correlación Concordante) promedio de 0.562 (Valencia: 0.510, Arousal: 0.615), superando a la línea base ResNet-50 y a modelos basados en CLIP o MAE.
Detección de Unidades de Acción (AU): Se obtuvo un F1 Macro de 54.7, cerrando la brecha con las mejores soluciones multimodales del estado del arte, pero con una arquitectura mucho más ligera.
Detección de Violencia (VD): El modelo ConvNeXt-T + TCN logró un F1 Macro de 0.783, una mejora superior a 0.14 puntos respecto a la línea base de la competencia anterior (ABAW-9). Esto demostró que los codificadores 2D preentrenados en ImageNet, combinados con cabezales temporales ligeros, son superiores a las arquitecturas 3D (como VideoMAE o SlowFast) para esta tarea específica.

5. Significado e Impacto

El trabajo de HSEmotion es significativo porque desafía la noción de que el rendimiento superior en análisis afectivo requiere exclusivamente modelos masivos y complejos.

Eficiencia vs. Precisión: Demuestra que la calibración adecuada de modelos ligeros y el uso inteligente de la confianza del modelo preentrenado pueden igualar o superar a sistemas de fusión multimodal pesados.
Aplicabilidad en el Mundo Real: La metodología es computacionalmente eficiente, robusta ante el ruido y las oclusiones, y adecuada para despliegue en sistemas de tiempo real (interacción humano-computadora, seguridad, monitoreo de salud).
Reproducibilidad: Al publicar el código en PyTorch y utilizar arquitecturas estándar, el equipo facilita que otros investigadores repliquen y mejoren sus resultados, promoviendo el avance práctico en el campo del análisis afectivo.

HSEmotion Team at ABAW-10 Competition: Facial Expression Recognition, Valence-Arousal Estimation, Action Unit Detection and Fine-Grained Violence Classification

1. El Problema: Leer caras en una tormenta

2. La Solución: El "Detective con Gafas Mágicas"

3. El Caso Especial: Detectar Violencia

4. ¿Por qué es importante esto?

Resumen Técnico: Equipo HSEmotion en la Competición ABAW-10

1. Problema Abordado

2. Metodología Propuesta

3. Contribuciones Clave

4. Resultados Experimentales

5. Significado e Impacto

Más como este

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks