Team RAS in 10th ABAW Competition: Multimodal Valence and Arousal Estimation Approach

El equipo RAS presenta en la 10.ª edición del desafío ABAW un enfoque multimodal que combina datos faciales, de comportamiento y de audio mediante arquitecturas avanzadas como Qwen3-VL y Mamba, logrando un coeficiente de correlación concordante (CCC) de 0.658 en la estimación continua de valencia y arousal en condiciones naturales.

Elena Ryumina, Maxim Markitantov, Alexandr Axyonov, Dmitry Ryumin, Mikhail Dolgushin, Denis Dresvyanskiy, Alexey Karpov

Publicado 2026-03-16
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que tienes un equipo de detectives muy especiales llamado Equipo RAS. Su misión es adivinar cómo se siente una persona en un video, incluso si la grabación es caótica, la luz es mala o la persona se mueve mucho. A esto lo llaman "reconocimiento de emociones en la vida real".

Para lograrlo, no usan una sola pista, sino que combinan tres sentidos diferentes, como si fueran tres detectives trabajando juntos en un mismo caso. Aquí te explico cómo funciona su método, usando analogías sencillas:

1. Los Tres Detectives (Las Modalidades)

El equipo no se fía de una sola fuente de información. Tienen a tres expertos:

  • El Detective de la Cara (Visual):
    Este detective solo mira la cara de la persona. Usa una cámara súper rápida que analiza cada fotograma (cada imagen del video) para ver si la persona sonríe, frunce el ceño o se ve triste.

    • La analogía: Es como un fotógrafo que toma miles de fotos por segundo y las analiza una por una para ver los cambios más pequeños en la expresión facial.
  • El Detective del Comportamiento (La Inteligencia Artificial que "ve" y "lee"):
    Este es el detective más moderno. No solo mira la cara, sino que entiende el contexto completo: los gestos de las manos, cómo se mueve la cabeza, la postura del cuerpo y hasta qué hay en el fondo de la escena.

    • La analogía: Imagina que le pides a un actor experto que vea el video y te escriba un pequeño resumen de lo que siente la persona. Este detective usa una inteligencia artificial muy avanzada (llamada Qwen3) que actúa como ese actor experto, describiendo la emoción basándose en todo lo que ve, no solo en la cara.
  • El Detective de la Voz (Audio):
    Este detective escucha lo que se dice (o si la persona está hablando). Pero tiene un truco: a veces el video tiene mucho ruido o la persona no habla, así que este detective es muy estricto. Solo presta atención cuando sabe que la persona está realmente hablando, ignorando los silencios o el ruido de fondo.

    • La analogía: Es como un guardia de seguridad que solo escucha si detecta que alguien está hablando de verdad, filtrando el ruido de la calle para no confundirse.

2. La Sala de Juntas (Fusión de Modalidades)

Ahora, estos tres detectives tienen que ponerse de acuerdo. A veces uno ve algo que el otro no, o uno tiene más información que el otro. El equipo RAS probó dos formas de hacer que trabajen juntos:

  • Estrategia A: El "Juez Flexible" (Mixture-of-Experts)
    Imagina una reunión donde los detectives discuten. Hay un "juez" que escucha a cada uno y decide, en cada momento, a quién creer más. Si la cara está tapada, el juez le da más peso al detective de la voz. Si la voz es un ruido, el juez se fía más del detective de la cara.

    • Cómo funciona: La inteligencia artificial aprende a dar "votos" a cada detective según la situación.
  • Estrategia B: El "Equipo de Campo" (Fusión Consciente de la Fiabilidad)
    En esta estrategia, el detective de la cara y el del comportamiento trabajan codo a codo, fotograma a fotograma, porque la cara cambia muy rápido. El detective de la voz actúa como un "asesor" que da contexto general, pero no interfiere en cada segundo.

    • Cómo funciona: Es como si los dos detectives visuales tomaran la decisión final, pero siempre consultando al detective de la voz para tener una visión más amplia.

3. El Resultado

El equipo probó todo esto en una competencia mundial llamada ABAW, usando videos reales de gente en situaciones caóticas (como en una calle concurrida o en un parque).

  • El éxito: Al combinar a los tres detectives con sus estrategias de trabajo en equipo, lograron predecir las emociones con mucha más precisión que si hubieran usado a uno solo.
  • La lección: Descubrieron que el "Detective del Comportamiento" (el que usa la IA para describir todo el video) es muy poderoso y aporta información que la simple cara no puede dar por sí sola.

En resumen:
El Equipo RAS creó un sistema que no solo "mira" la cara, sino que "observa" el cuerpo y "escucha" la voz, usando una inteligencia artificial muy lista para decidir en cada segundo quién tiene la razón. Es como tener un equipo de expertos que se complementan para entender el corazón humano, incluso cuando el entorno es difícil. ¡Y lo hicieron muy bien!

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →