SocialOmni: Benchmarking Audio-Visual Social Interactivity in Omni Models

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous êtes à une soirée animée avec des amis. Pour être un bon convive, il ne suffit pas de connaître la réponse à une question (l'intelligence). Il faut aussi savoir qui parle, quand intervenir pour ne pas couper la parole, et comment dire les choses de manière naturelle et sympathique.

C'est exactement ce que les chercheurs ont voulu tester avec leur nouveau projet, SocialOmni. Voici une explication simple de leur travail, sans jargon technique.

🎭 Le Problème : Les Robots "Timides" ou "Maladroits"

Aujourd'hui, les intelligences artificielles (IA) qui voient et entendent (comme les modèles "Omni") sont très fortes pour répondre à des questions sur une vidéo. On leur montre un clip et on leur demande : "Qui est-ce ?" ou "Que se passe-t-il ?". Elles sont excellentes pour ça.

Mais la vraie vie, c'est une conversation en temps réel.

Si l'IA répond trop tard, la conversation est morte.
Si elle coupe la parole au mauvais moment, c'est très gênant.
Si elle dit quelque chose de logique mais qui ne correspond pas à l'ambiance (par exemple, faire une blague quand quelqu'un est triste), c'est un échec social.

Les chercheurs disent : "On a trop testé la mémoire des robots, mais pas leur savoir-vivre."

🛠️ La Solution : Le "SocialOmni" (Le Test de Savoir-Vivre)

Pour corriger cela, ils ont créé SocialOmni, un nouveau test spécial qui évalue les robots sur trois piliers essentiels, comme les trois pieds d'un tabouret :

QUI parle ? (Who)
- L'analogie : Imaginez un orchestre où plusieurs musiciens jouent en même temps. Le robot doit savoir qui tient l'instrument principal à un instant précis, même si la caméra montre quelqu'un d'autre qui écoute.
- Le test : Le robot doit identifier la bonne personne parmi plusieurs choix, même si l'image et le son sont parfois décalés (par exemple, on voit le visage de Paul, mais c'est la voix de Marie qui parle).
QUAND parler ? (When)
- L'analogie : C'est comme jouer à "Jacques a dit" ou à un jeu de passe-passe. Il faut attendre le bon moment pour attraper la balle. Si on la prend trop tôt, on la rate (on coupe la parole). Si on attend trop, elle tombe par terre (on rate le tour).
- Le test : Le robot doit décider exactement à quelle seconde il doit intervenir pour continuer la conversation naturellement, sans être agressif ni trop timide.
COMMENT parler ? (How)
- L'analogie : C'est l'art de la conversation. Si quelqu'un vous dit "Je suis perdu", vous ne répondez pas "C'est mathématiquement probable". Vous dites "Je peux vous aider ?". Il faut adapter son ton et ses mots à la situation.
- Le test : Une fois que le robot a décidé de parler, il doit inventer une phrase qui a du sens, qui est polie et qui colle au contexte émotionnel.

🧪 Les Résultats : Une Révélation Surprenante

Les chercheurs ont mis 12 des meilleurs robots du monde à l'épreuve. Voici ce qu'ils ont découvert, et c'est assez drôle :

Le paradoxe du "Sachant" : Certains robots sont des génies pour identifier qui parle (ils ont une excellente mémoire visuelle et auditive), mais ce sont des catastrophes pour savoir quand intervenir. C'est comme avoir un ami qui connaît toutes les réponses du monde, mais qui vous coupe la parole à chaque phrase.
Le décalage : Avoir de bonnes oreilles (perception) ne garantit pas d'avoir de bonnes manières (interaction). Un robot peut parfaitement comprendre ce qui se passe, mais réagir de manière totalement inadaptée socialement.
La faiblesse des robots "Open Source" : Pour l'instant, les robots gratuits ou ouverts sont encore loin derrière les géants commerciaux (comme ceux de Google ou OpenAI) pour savoir "jouer le jeu" de la conversation.

💡 Pourquoi c'est important ?

Aujourd'hui, on choisit les robots en fonction de leur capacité à répondre correctement à des questions. SocialOmni nous dit qu'à l'avenir, il faudra aussi les choisir en fonction de leur capacité à être agréables et naturels.

Si vous voulez un assistant personnel qui ressemble à un humain, il ne doit pas seulement être intelligent. Il doit savoir écouter, attendre son tour et parler avec le cœur. C'est tout l'enjeu de ce nouveau test : transformer les robots en vrais convives de la conversation.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les modèles de langage omni-modaux (OLM) intègrent nativement l'audio, la vision et le texte pour permettre des interactions homme-machine en temps réel. Cependant, les benchmarks existants se concentrent principalement sur des tâches statiques axées sur la précision de la compréhension (réponses à des questions, reconnaissance d'objets). Ils négligent une capacité fondamentale pour les dialogues naturels : l'interactivité sociale.

Dans une conversation réelle, le succès ne dépend pas seulement de la justesse sémantique, mais aussi de la compétence à :

Identifier qui parle (Qui).
Déterminer le moment optimal pour intervenir (Quand).
Formuler une réponse socialement cohérente et contextuelle (Comment).

L'absence d'évaluation de ces dimensions dynamiques crée un vide critique : un modèle peut être excellent pour comprendre le contenu d'une vidéo mais échouer lamentablement à interagir naturellement, en interrompant trop tôt, trop tard, ou en parlant à la mauvaise personne.

2. Méthodologie : SocialOmni

Les auteurs proposent SocialOmni, un benchmark complet conçu pour opérationnaliser l'évaluation de l'interactivité sociale à travers trois dimensions clés.

A. Construction du Dataset

Échelle : Le benchmark comprend 2 209 instances issues de 15 sous-catégories de dialogues (divertissement, sport, éducation, vie quotidienne, etc.) réparties en 4 domaines.
Deux tâches complémentaires :
1. Tâche de Perception (Task I - "Who") : 2 000 échantillons de questions à choix multiples (QCM) pour identifier l'orateur actif à un instant $t$ $t$ .
  - Innovation : Le dataset inclut des scénarios incohérents (Audio-Vision Inconsistent) où la personne visible à l'écran ne correspond pas à la voix entendue, testant ainsi la robustesse du modèle face aux conflits inter-modaux.
2. Tâche de Génération (Task II - "When & How") : 209 instances de génération ouverte. Le modèle doit décider s'il doit parler (détection de tour de parole) et, le cas échéant, générer une réponse appropriée.
Contrôles de qualité : Les données sont annotées par des humains avec un accord inter-annotateur élevé (>91%). Les scénarios de génération incluent des références multiples pour évaluer la qualité de la réponse.

B. Protocole d'Évaluation

L'évaluation est décomposée selon les trois axes :

Qui (Perception) : Précision top-1 et F1 macro pour l'identification de l'orateur. Une métrique de « gap de cohérence » ( $\Delta_{cons}$ ) mesure la chute de performance entre les scénarios cohérents et incohérents.
Quand (Timing) : Analyse du décalage temporel ( $\Delta\tau$ ) entre le moment où le modèle décide de parler et le moment idéal (ground truth). Les réponses sont classées en : Interrompu (trop tôt), Parfait (fenêtre idéale), Retardé, ou Trop tard.
Comment (Qualité) : Utilisation d'un protocole « LLM-as-a-judge » (avec GPT-4o, Gemini 2.5 Pro, Qwen3-Omni) pour noter la pertinence contextuelle, la cohérence et l'adéquation sociale de la réponse générée.

3. Contributions Clés

Nouveau Benchmark Omni-Modaux : SocialOmni est le premier benchmark à évaluer simultanément l'attribution de l'orateur, la décision de tour de parole et la génération de réponse dans un cadre multi-interlocuteurs.
Protocole d'Évaluation Dual-Axe : Une méthodologie qui découple la perception de la génération, permettant d'analyser si les erreurs de génération proviennent d'une mauvaise perception ou d'une incapacité à formuler une réponse sociale.
Sondages de Robustesse : Introduction de scénarios contrôlés de conflit audio-visuel pour quantifier la résilience des modèles face à des incohérences réalistes.

4. Résultats Expérimentaux

Les auteurs ont évalué 12 modèles OLM de pointe (incluant GPT-4o, Gemini 2.5/3, Qwen3-Omni, etc.). Les résultats révèlent plusieurs constats majeurs :

Découplage Perception-Génération : Il existe une corrélation faible, voire inexistante, entre la précision de perception (Qui) et la qualité de génération (Comment). Par exemple, Qwen3-Omni-Thinking excelle dans l'identification des orateurs (69,25 %) mais obtient l'un des scores les plus bas pour la génération de réponses naturelles (18,06/100). À l'inverse, GPT-4o a une précision de perception modeste (36,75 %) mais une excellente qualité de réponse (69,64/100).
Hétérogénéité des Performances : Aucun modèle ne domine sur les trois axes simultanément.
- Meilleur en Qui : Qwen3-Omni (69,25 %).
- Meilleur en Quand : Gemini 3 Pro Preview (67,31 % de précision temporelle).
- Meilleur en Comment : Gemini 2.5 Flash (85,08/100).
Écart Commercial vs Open-Source : Les modèles commerciaux (Gemini, GPT) surpassent généralement les modèles open-source, particulièrement sur la qualité de génération (écart de près de 19 points pour le meilleur modèle open-source).
Modes d'Échec Systématiques :
- Perception : Les modèles tendent à attribuer la parole à la personne la plus visible (biais de saillance visuelle) plutôt qu'à celle qui parle réellement, surtout dans les scénarios incohérents.
- Timing : Deux modes d'échec opposés émergent : l'interruption prématurée (détection de pauses acoustiques comme des fins de tour) et le retard excessif (manque de réactivité).
- Génération : Même avec un timing correct, les réponses sont souvent génériques, manquant d'empathie ou de cohérence avec le ton émotionnel du dialogue.

5. Signification et Impact

Ce travail démontre que la précision de compréhension (accuracy) est une métrique insuffisante pour caractériser la compétence sociale conversationnelle des OLM. Un modèle peut être « intelligent » sur le plan sémantique mais socialement incompétent.

Implication pour la recherche : Les futures architectures d'OLM doivent intégrer des mécanismes de fusion fine-granulaire (audio-visuel-textuel) pour gérer la dynamique temporelle et les conflits inter-modaux, au-delà de la simple reconnaissance de contenu.
Orientation future : L'évaluation des modèles doit évoluer vers des protocoles axés sur l'interaction (qui, quand, comment) plutôt que sur de simples paires question-réponse statiques. SocialOmni fournit les outils nécessaires pour guider ce développement vers des assistants IA véritablement naturels et sociaux.

SocialOmni: Benchmarking Audio-Visual Social Interactivity in Omni Models

🎭 Le Problème : Les Robots "Timides" ou "Maladroits"

🛠️ La Solution : Le "SocialOmni" (Le Test de Savoir-Vivre)

🧪 Les Résultats : Une Révélation Surprenante

💡 Pourquoi c'est important ?

1. Problématique

2. Méthodologie : SocialOmni

A. Construction du Dataset

B. Protocole d'Évaluation

3. Contributions Clés

4. Résultats Expérimentaux

5. Signification et Impact

Articles similaires

Exploration and Exploitation Errors Are Measurable for Language Model Agents

SciFi: A Safe, Lightweight, User-Friendly, and Fully Autonomous Agentic AI Workflow for Scientific Applications

Numerical Instability and Chaos: Quantifying the Unpredictability of Large Language Models

Optimizing Earth Observation Satellite Schedules under Unknown Operational Constraints: An Active Constraint Acquisition Approach

WebXSkill: Skill Learning for Autonomous Web Agents