SocialOmni: Benchmarking Audio-Visual Social Interactivity in Omni Models

Le papier présente SocialOmni, un benchmark complet évaluant l'interactivité sociale des modèles omni-modaux à travers trois dimensions clés (identification des locuteurs, contrôle du timing et génération d'interruptions naturelles), révélant ainsi un décalage significatif entre la précision perceptuelle et la compétence conversationnelle des modèles actuels.

Tianyu Xie, Jinfa Huang, Yuexiao Ma, Rongfang Luo, Yan Yang, Wang Chen, Yuhui Zeng, Ruize Fang, Yixuan Zou, Xiawu Zheng, Jiebo Luo, Rongrong Ji

Publié 2026-03-18
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous êtes à une soirée animée avec des amis. Pour être un bon convive, il ne suffit pas de connaître la réponse à une question (l'intelligence). Il faut aussi savoir qui parle, quand intervenir pour ne pas couper la parole, et comment dire les choses de manière naturelle et sympathique.

C'est exactement ce que les chercheurs ont voulu tester avec leur nouveau projet, SocialOmni. Voici une explication simple de leur travail, sans jargon technique.

🎭 Le Problème : Les Robots "Timides" ou "Maladroits"

Aujourd'hui, les intelligences artificielles (IA) qui voient et entendent (comme les modèles "Omni") sont très fortes pour répondre à des questions sur une vidéo. On leur montre un clip et on leur demande : "Qui est-ce ?" ou "Que se passe-t-il ?". Elles sont excellentes pour ça.

Mais la vraie vie, c'est une conversation en temps réel.

  • Si l'IA répond trop tard, la conversation est morte.
  • Si elle coupe la parole au mauvais moment, c'est très gênant.
  • Si elle dit quelque chose de logique mais qui ne correspond pas à l'ambiance (par exemple, faire une blague quand quelqu'un est triste), c'est un échec social.

Les chercheurs disent : "On a trop testé la mémoire des robots, mais pas leur savoir-vivre."

🛠️ La Solution : Le "SocialOmni" (Le Test de Savoir-Vivre)

Pour corriger cela, ils ont créé SocialOmni, un nouveau test spécial qui évalue les robots sur trois piliers essentiels, comme les trois pieds d'un tabouret :

  1. QUI parle ? (Who)

    • L'analogie : Imaginez un orchestre où plusieurs musiciens jouent en même temps. Le robot doit savoir qui tient l'instrument principal à un instant précis, même si la caméra montre quelqu'un d'autre qui écoute.
    • Le test : Le robot doit identifier la bonne personne parmi plusieurs choix, même si l'image et le son sont parfois décalés (par exemple, on voit le visage de Paul, mais c'est la voix de Marie qui parle).
  2. QUAND parler ? (When)

    • L'analogie : C'est comme jouer à "Jacques a dit" ou à un jeu de passe-passe. Il faut attendre le bon moment pour attraper la balle. Si on la prend trop tôt, on la rate (on coupe la parole). Si on attend trop, elle tombe par terre (on rate le tour).
    • Le test : Le robot doit décider exactement à quelle seconde il doit intervenir pour continuer la conversation naturellement, sans être agressif ni trop timide.
  3. COMMENT parler ? (How)

    • L'analogie : C'est l'art de la conversation. Si quelqu'un vous dit "Je suis perdu", vous ne répondez pas "C'est mathématiquement probable". Vous dites "Je peux vous aider ?". Il faut adapter son ton et ses mots à la situation.
    • Le test : Une fois que le robot a décidé de parler, il doit inventer une phrase qui a du sens, qui est polie et qui colle au contexte émotionnel.

🧪 Les Résultats : Une Révélation Surprenante

Les chercheurs ont mis 12 des meilleurs robots du monde à l'épreuve. Voici ce qu'ils ont découvert, et c'est assez drôle :

  • Le paradoxe du "Sachant" : Certains robots sont des génies pour identifier qui parle (ils ont une excellente mémoire visuelle et auditive), mais ce sont des catastrophes pour savoir quand intervenir. C'est comme avoir un ami qui connaît toutes les réponses du monde, mais qui vous coupe la parole à chaque phrase.
  • Le décalage : Avoir de bonnes oreilles (perception) ne garantit pas d'avoir de bonnes manières (interaction). Un robot peut parfaitement comprendre ce qui se passe, mais réagir de manière totalement inadaptée socialement.
  • La faiblesse des robots "Open Source" : Pour l'instant, les robots gratuits ou ouverts sont encore loin derrière les géants commerciaux (comme ceux de Google ou OpenAI) pour savoir "jouer le jeu" de la conversation.

💡 Pourquoi c'est important ?

Aujourd'hui, on choisit les robots en fonction de leur capacité à répondre correctement à des questions. SocialOmni nous dit qu'à l'avenir, il faudra aussi les choisir en fonction de leur capacité à être agréables et naturels.

Si vous voulez un assistant personnel qui ressemble à un humain, il ne doit pas seulement être intelligent. Il doit savoir écouter, attendre son tour et parler avec le cœur. C'est tout l'enjeu de ce nouveau test : transformer les robots en vrais convives de la conversation.

Noyé(e) sous les articles dans votre domaine ?

Recevez des digests quotidiens des articles les plus récents correspondant à vos mots-clés de recherche — avec des résumés techniques, dans votre langue.

Essayer Digest →