Team LEYA in 10th ABAW Competition: Multimodal Ambivalence/Hesitancy Recognition Approach

El equipo LEYA presenta un enfoque multimodal para el reconocimiento de ambivalencia y vacilación en el décimo concurso ABAW que integra dinámicas de escena, expresiones faciales, audio y texto mediante modelos avanzados, logrando un rendimiento superior al fusionar estas señales con un 71,43% de precisión en pruebas finales.

Elena Ryumina, Alexandr Axyonov, Dmitry Sysoev, Timur Abdulkadirov, Kirill Almetov, Yulia Morozova, Dmitry Ryumin

Publicado 2026-03-16
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que estás en una fiesta y ves a un amigo que parece estar dudando sobre si aceptar una invitación para bailar. No es que esté feliz (sonriendo) ni triste (llorando); es algo más complicado. Su cara dice "quizás", su voz suena vacilante y lo que dice ("no sé, tal vez...") no coincide del todo con su lenguaje corporal.

Ese estado de ambivalencia o vacilación es muy difícil de detectar para una computadora. El artículo que me has compartido explica cómo un equipo de investigadores rusos (el "Equipo LEYA") creó un "detective digital" para resolver este acertijo en el 10º concurso mundial de análisis de emociones (ABAW).

Aquí te explico cómo lo hicieron, usando analogías sencillas:

1. El Problema: Detectar la "Zona Gris"

La mayoría de las computadoras son buenas detectando emociones claras: "¡Está feliz!" o "¡Está enojado!". Pero la ambivalencia es como una niebla mental. Es cuando alguien está dividido entre dos opciones. A veces, lo que dicen no coincide con cómo lo dicen o cómo se ven.

  • El reto: Crear un sistema que pueda ver esa "niebla" en videos reales, donde la gente no actúa para una cámara, sino que vive su vida.

2. La Solución: El Equipo de Cuatro Detectives

En lugar de tener un solo detective, el equipo LEYA creó un cuartel general con cuatro especialistas, cada uno mirando el video desde una perspectiva diferente. Imagina que son cuatro amigos analizando una situación juntos:

  • 🎥 El Detective del Escenario (Visión de la Escena):
    Este no mira solo la cara de la persona, sino todo el entorno. ¿Se mueve la cámara de forma nerviosa? ¿El fondo cambia? Usa una tecnología llamada VideoMAE (como un ojo entrenado en miles de películas) para entender la dinámica general del video.

    • Analogía: Es como el amigo que dice: "Oye, el ambiente se siente tenso, aunque no veamos bien la cara".
  • 👤 El Detective de la Cara (Expresiones Faciales):
    Este se enfoca exclusivamente en los micro-movimientos de la cara. Usa un sistema que detecta rostros y analiza si la persona está sonriendo, frunciendo el ceño o si sus expresiones son inconsistentes.

    • Analogía: Es el amigo que observa: "Mira, sus cejas se movieron de una forma rara, como si estuviera pensando dos veces".
  • 🎤 El Detective de la Voz (Audio):
    Este escucha cómo se dicen las cosas, no solo qué se dicen. Analiza el tono, la velocidad y las pausas. Usa un modelo de IA llamado Mamba (que es muy bueno recordando secuencias, como una memoria musical) para entender la emoción en la voz.

    • Analogía: Es el amigo que nota: "Dijo 'sí', pero su voz tembló y hizo una pausa larga. ¡Está dudando!".
  • 📝 El Detective de las Palabras (Texto):
    Este lee el guion de lo que se dice. Analiza las palabras exactas para ver si hay contradicciones o indecisión en el lenguaje.

    • Analogía: Es el amigo que lee el mensaje y dice: "Escribió 'tal vez', lo cual es una señal clara de que no está seguro".

3. La Magia: La "Sala de Juntas" (Fusión Multimodal)

Aquí está la parte más interesante. Cada detective trabaja por su cuenta y luego envía su informe a una Sala de Juntas (el modelo de fusión).

  • El problema de la sala de juntas: A veces, un detective dice "¡Está feliz!" y otro dice "¡Está triste!". ¿Quién tiene razón?
  • La solución del equipo: Usaron una técnica especial llamada "Prototipos". Imagina que en la sala de juntas hay dos estatuas: una que representa "Seguro" y otra que representa "Vacilante". El sistema compara el informe combinado de los cuatro detectives con estas estatuas. Si el informe se parece más a la estatua de "Vacilante", entonces el sistema decide que la persona está dudando.

Además, para estar seguros, no confiaron en un solo sistema. Crearon 5 versiones de este equipo de detectives y, al final, promediaron sus opiniones. Es como tener 5 jueces en un tribunal; si 4 dicen "culpable" y 1 dice "inocente", la decisión final es más robusta y menos propensa a errores.

4. Los Resultados: ¿Funcionó?

¡Sí, y muy bien!

  • Si solo hubieran usado un detective (por ejemplo, solo la voz), acertaron alrededor del 69% de las veces.
  • Cuando los cuatro detectives trabajaron juntos en la sala de juntas, acertaron el 83% de las veces en las pruebas de entrenamiento.
  • En la prueba final real (donde el sistema no había visto los videos antes), lograron un 71.4%, que fue el mejor resultado del concurso.

Conclusión: ¿Qué aprendemos de esto?

La lección principal es que la verdad está en la combinación.
Para entender si alguien está dudando, no basta con escucharlo o verlo; necesitas escucharlo, verlo, leer lo que dice y observar el contexto. Al igual que en la vida real, donde entendemos mejor a una persona cuando escuchamos todas las señales a la vez, la inteligencia artificial necesita multimodalidad (varios sentidos) para ser realmente buena entendiendo la complejidad humana.

El equipo LEYA demostró que, cuando unimos la vista, el oído, la lectura y el contexto, podemos detectar esas sutiles "nieblas" de indecisión que antes eran invisibles para las máquinas.

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →