SocialOmni: Benchmarking Audio-Visual Social Interactivity in Omni Models

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un amigo robot muy inteligente que puede ver, escuchar y hablar. Hasta ahora, los científicos han estado probando si este robot es "listo" haciéndole preguntas de examen: "¿De qué color es el coche?", "¿Quién ganó el partido?". Si el robot responde bien, le damos una medalla de oro.

Pero, ¿qué pasa si ese robot es tan listo que sabe la respuesta, pero la dice en el momento incorrecto? O peor aún, ¿qué pasa si interrumpe tu historia justo cuando estabas a punto de contar la parte más emocionante? O si habla con la persona equivocada en una reunión llena de gente?

Aquí es donde entra SocialOmni, el nuevo "examen de etiqueta" para estos robots.

El Problema: El Robot "Genio pero Torpe"

Los autores del artículo dicen que los robots actuales (llamados modelos "Omni") son como estudiantes que sacan un 10 en matemáticas pero un 0 en educación social. Pueden entender perfectamente lo que ves y oyes, pero fallan estrepitosamente en la interacción social.

En una conversación real, no basta con saber qué decir. Tienes que saber:

Quién está hablando (¿Es el de la izquierda o el de la derecha?).
Cuándo hablar (¿Es mi turno o debo esperar?).
Cómo decirlo (¿Debo ser amable, sarcástico o serio?).

La Solución: SocialOmni (El Simulador de Vida Real)

Los investigadores crearon SocialOmni, que es como un "simulador de vuelo" pero para conversaciones sociales. En lugar de preguntas de examen, les ponen al robot videos reales de personas hablando, riendo y discutiendo.

El examen tiene tres partes, que ellos llaman Quién, Cuándo y Cómo:

1. ¿Quién? (El Detective de Voces)

Imagina una fiesta ruidosa. Hay dos personas hablando al mismo tiempo. El robot debe mirar la pantalla y escuchar el audio para decirte: "¡Esa voz que dice 'Hola' pertenece a la chica de pelo rojo, no al hombre de la camisa azul!".

El truco: A veces, el video muestra a alguien sonriendo, pero la voz viene de otra persona (como en una película). Los robots actuales suelen confundirse y pensar que el que se ve es el que habla. SocialOmni les pone trampas para ver si realmente escuchan y ven al mismo tiempo.

2. ¿Cuándo? (El Maestro del Timing)

Imagina que estás contando un chiste. Justo cuando haces la pausa antes del remate, el robot te interrumpe: "¡Ya sé la respuesta!". ¡Qué vergüenza!

La prueba: SocialOmni mide si el robot sabe esperar el momento exacto para entrar en la conversación. ¿Interrumpe demasiado pronto (como un niño impaciente)? ¿O espera demasiado y la conversación muere (como un abuelo distraído)? Los mejores robots deben tener el "oído" perfecto para saber cuándo es su turno.

3. ¿Cómo? (El Actor Social)

Supongamos que el robot sabe que es su turno. Ahora, ¿qué dice?

Si alguien está triste, el robot no debería decir: "Aquí tienes un dato estadístico sobre la tristeza". Debería decir: "Lo siento mucho, eso suena difícil".
SocialOmni evalúa si la respuesta del robot suena natural, empática y encaja con lo que se estaba hablando.

¿Qué descubrieron? (Las Sorpresas)

Cuando pusieron a 12 de los robots más famosos del mundo (como GPT-4o, Gemini, Qwen) a pasar este examen, pasaron cosas curiosas:

No son todos iguales: Un robot podía ser un genio para identificar quién habla, pero un desastre para saber cuándo interrumpir. Es como tener a un futbolista que patea muy bien pero no sabe pasar el balón.
Ver no es creer: Muchos robots fallaron cuando el video y el audio no coincidían (por ejemplo, ver a una persona sonreír pero escuchar a otra hablar). Se confunden con la "imagen" y olvidan escuchar.
La desconexión: El mayor hallazgo fue que saber la respuesta correcta no significa saber cómo interactuar. Un robot puede tener un 90% de aciertos en preguntas de "quién habla", pero un 0% en saber cómo responder de forma natural.

En Resumen

SocialOmni nos dice que para que los robots sean verdaderos compañeros de conversación, no basta con que sean inteligentes. Tienen que aprender a escuchar, esperar su turno y ser empáticos.

Es como pasar de enseñarle a un robot a leer un diccionario, a enseñarle a ir a una fiesta y no hacer el ridículo. Y hasta ahora, ¡a la mayoría de los robots les falta mucho para ser los anfitriones perfectos!

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo "SocialOmni: Benchmarking Audio-Visual Social Interactivity in Omni Models", estructurado según los puntos solicitados:

1. El Problema

Los Modelos de Lenguaje Omni-modales (OLMs) integran nativamente audio, visión y texto para permitir conversaciones en tiempo real. Sin embargo, los benchmarks existentes se centran casi exclusivamente en tareas estáticas de comprensión y precisión de respuestas (ej. preguntas y respuestas sobre clips pre-segmentados).

Existe una brecha crítica: la falta de evaluación de la "interactividad social". En una conversación real, el éxito no depende solo de la corrección semántica, sino de la capacidad de navegar dinámicas sociales complejas:

Identificar quién está hablando en un entorno multi-locutor.
Decidir el momento exacto para intervenir (turn-taking).
Generar interrupciones o continuaciones que sean socialmente coherentes y apropiadas.

Los benchmarks actuales no evalúan estas capacidades de manera integrada, ignorando que un modelo puede tener alta precisión perceptiva pero fallar estrepitosamente en la interacción social (ej. interrumpir en el momento equivocado o no reconocer al hablante correcto cuando la imagen y el audio no coinciden).

2. Metodología: SocialOmni

Los autores proponen SocialOmni, un benchmark integral diseñado para operacionalizar la evaluación de la interactividad social a través de tres dimensiones fundamentales: Quién (Who), Cuándo (When) y Cómo (How).

A. Construcción del Dataset

Escala: 2,209 muestras de video-audio extraídas de 15 subcategorías (deportes, educación, entretenimiento, etc.).
División:
- Percepción (Task I - Who): 2,000 preguntas de opción múltiple para identificar al hablante activo en un timestamp específico. Incluye escenarios consistentes (la cara visible coincide con la voz) e inconsistentes (la cámara muestra a una persona diferente a la que habla) para probar la robustez.
- Generación (Task II - When & How): 209 instancias de generación abierta donde el modelo debe decidir si hablar y generar una respuesta contextual.
Control de Calidad: Anotación humana rigurosa con alta concordancia inter-anotador (>91%) y uso de múltiples referencias para la evaluación de generación.

B. Diseño de Tareas

Quién (Percepción): Clasificación de 4 vías (identidad correcta/incorrecta + contenido correcto/incorrecto) para desacoplar errores de reconocimiento de voz de errores de alineación visual.
Cuándo (Decisión de Turno): El modelo recibe el video incrementalmente y debe responder "Sí/No" a si debe hablar en el tiempo $t$ . Se mide el offset de respuesta (tiempo de entrada) comparado con el momento óptimo de entrada (ground truth).
Cómo (Generación): Si el modelo decide hablar, genera una respuesta que es evaluada por un protocolo "LLM-as-a-judge" (usando GPT-4o, Gemini y Qwen) para medir coherencia, tono y adecuación pragmática.

C. Métricas de Evaluación

Quién: Precisión Top-1, Macro-F1 y la brecha de consistencia ( $\Delta_{cons}$ ) entre escenarios consistentes e inconsistentes.
Cuándo: Tasa de "A tiempo" (On-time), distribución de interrupciones prematuras (Early) vs. respuestas tardías (Late), y métricas de Precisión/Recall.
Cómo: Puntuación promedio de los jueces (0-100), cobertura de respuesta y tasa de desacuerdo entre jueces.

3. Contribuciones Clave

Nuevo Benchmark Omni-Modelo (SocialOmni): El primer benchmark que evalúa simultáneamente la atribución de hablantes, la decisión de turno y la generación de interrupciones en un marco unificado de interacción multi-locutor.
Protocolo de Evaluación de Doble Eje: Un método que desacopla la percepción de la generación, permitiendo analizar si un modelo falla por no entender quién habla o por no saber cómo responder.
Pruebas de Robustez Controladas: Introducción de escenarios de inconsistencia audio-visual (donde la imagen y el audio no coinciden) para medir la resistencia del modelo a conflictos de modalidad, algo que los benchmarks anteriores ignoran.

4. Resultados Principales

Se evaluaron 12 modelos OLM líderes (incluyendo GPT-4o, Gemini 2.5/3, Qwen3-Omni, etc.). Los hallazgos revelan:

Desacoplamiento entre Percepción y Generación: Existe una correlación nula o negativa entre la precisión perceptiva y la calidad de la generación social. Por ejemplo, Qwen3-Omni lidera en identificación de hablantes (69.25%) pero tiene un rendimiento muy pobre en generación de interrupciones naturales (18.06 en la tarea "How"). Por el contrario, Gemini 2.5 Flash tiene una puntuación de generación excelente (85.08) pero una identificación de hablantes moderada.
Falta de un Modelo Dominante: Ningún modelo domina en las tres dimensiones simultáneamente. Los modelos comerciales tienden a superar a los de código abierto, especialmente en la calidad de la generación.
Patrones de Error Específicos:
- Percepción: Los modelos tienden a confiar en la cara más saliente visualmente en lugar de integrar la voz, fallando estrepitosamente en escenarios inconsistentes.
- Timing: Los modelos muestran una dicotomía: algunos son "agresivos" (interrumpen prematuramente basándose en pausas breves) y otros "conservadores" (pierden la ventana de conversación).
- Generación: Incluso cuando el timing es correcto, el contenido generado a menudo es genérico, carece de empatía o ignora el contexto emocional, demostrando una desconexión entre entender el tema y responder socialmente.
Robustez: La mayoría de los modelos sufren una caída significativa en precisión cuando se les presenta inconsistencia audio-visual, indicando una dependencia excesiva de la alineación perfecta entre modalidades.

5. Significado e Impacto

El trabajo de SocialOmni es fundamental porque:

Cuestiona las métricas actuales: Demuestra que la precisión en tareas de comprensión estáticas es un indicador insuficiente para la competencia conversacional real. Un modelo puede ser "inteligente" en respuestas pero socialmente torpe.
Define nuevos desafíos arquitectónicos: Señala que los OLMs futuros necesitan mejorar la alineación audio-visual a nivel de fotograma, la fusión de señales prosódicas y visuales para la toma de decisiones de turno, y la generación de respuestas condicionadas al contexto social dinámico.
Guía el desarrollo futuro: Proporciona señales accionables para cerrar la brecha entre la percepción y la interacción, sugiriendo que la próxima generación de modelos debe entrenarse no solo para "saber" cosas, sino para "interactuar" socialmente en tiempo real.

En resumen, SocialOmni establece un nuevo estándar para evaluar la verdadera inteligencia social de los modelos multimodales, revelando que la capacidad de conversar naturalmente es una habilidad compleja y multidimensional que los modelos actuales aún no dominan de manera integral.