Daily-Omni: Towards Audio-Visual Reasoning with Temporal Alignment across Modalities

Each language version is independently generated for its own context, not a direct translation.

🎬 Le Grand Défi de la "Double Oreille et Double Œil"

Imaginez que vous regardez un film muet. Vous voyez un homme courir, mais vous ne savez pas s'il court parce qu'il est en retard, parce qu'il a peur, ou parce qu'il joue au football. Maintenant, imaginez que vous entendez seulement des bruits de pas rapides et des cris, sans voir l'image. Vous ne savez pas non plus ce qui se passe.

Le vrai défi, c'est de voir et d'entendre en même temps, et surtout de comprendre quand les deux se produisent ensemble. C'est exactement ce que les chercheurs de l'Université Fudan ont voulu tester avec leur nouveau projet : Daily-Omni.

1. Le Problème : Les Super-Héros qui ont un "Trou de Mémoire"

Aujourd'hui, les intelligences artificielles (les "grands modèles") sont très fortes.

Certaines sont des champions de la vision : elles peuvent décrire une photo parfaitement.
D'autres sont des champions de l'ouïe : elles reconnaissent une chanson ou un cri.

Mais quand on les met devant une vidéo où le son et l'image doivent travailler ensemble (comme un chien qui aboie exactement au moment où il mord un ballon), elles ont souvent du mal. C'est comme si elles avaient une mémoire à court terme très courte : elles voient l'image, puis elles entendent le son, mais elles oublient de les relier dans le temps. Elles ne savent pas dire : "L'explosion a eu lieu 2 secondes après que le personnage ait appuyé sur le bouton."

2. La Solution : Daily-Omni, le "Terrain de Jeu" Ultime

Pour résoudre ce problème, les chercheurs ont créé Daily-Omni. C'est un immense jeu de questions-réponses basé sur de vraies vidéos de la vie quotidienne (684 vidéos, 1 197 questions).

L'analogie du Détective :
Imaginez que vous êtes un détective privé. On vous donne une vidéo d'une scène de crime.

La question : "Qui a cassé le vase ?"
Le piège : Le vase casse au moment où un homme entre dans la pièce, mais le bruit de la porte qui claque arrive 1 seconde plus tard.
Le test : Un bon détective (ou une bonne IA) doit synchroniser le bruit de la porte avec le mouvement de la main de l'homme. Si l'IA se trompe de timing, elle accuse la mauvaise personne.

Daily-Omni est rempli de ces pièges temporels. Il force l'IA à être un vrai détective qui écoute et regarde en même temps.

3. Comment ont-ils construit ce jeu ? (La Cuisine du Détective)

Créer ce jeu n'était pas facile. Les chercheurs ont dû inventer une "recette" spéciale pour ne pas se tromper eux-mêmes :

La Coupe : Ils ont découpé les vidéos en petits morceaux (comme des tranches de pain) pour que l'IA ne se perde pas.
La Révision : Ils ont utilisé plusieurs IA pour décrire ce qu'elles voyaient et entendaient, puis les ont fait se corriger entre elles (comme un chef qui fait goûter son plat à ses commis).
Le Filtre : Ils ont éliminé les questions trop faciles. Si une IA pouvait deviner la réponse juste en lisant le texte de la question sans regarder la vidéo, la question était jetée à la poubelle.
Le Contrôle Qualité : Des humains ont vérifié le tout pour s'assurer que tout était logique.

4. Les Résultats : La Déception et l'Espoir

Ils ont fait passer le test à 24 modèles d'intelligence artificielle différents (les plus célèbres du moment).

Le verdict est sans appel :

Même les IA les plus avancées ont du mal. Beaucoup se comportent comme si elles regardaient un film avec les yeux bandés ou les oreilles bouchées.
La surprise : Une IA "bête" et simple, construite comme un assemblage de pièces détachées (un peu comme un robot fait de Lego), a parfois mieux réussi que des IA géantes et complexes. Pourquoi ? Parce que cette IA "Lego" prenait le temps de relier explicitement le son à l'image, étape par étape, au lieu de deviner instinctivement.

C'est comme si un élève très intelligent (l'IA complexe) échouait à un examen de musique parce qu'il n'arrivait pas à suivre le rythme, tandis qu'un élève méthodique (l'IA Lego) réussissait en comptant les temps à voix haute.

5. La Conclusion : Il reste du travail à faire

Ce papier nous dit une chose importante : Nous ne sommes pas encore arrivés.

Les IA sont devenues de très bons lecteurs et de très bons observateurs, mais elles ne sont pas encore de bons orchestres. Elles ne savent pas encore parfaitement faire jouer les instruments (l'œil et l'oreille) ensemble au bon moment.

Daily-Omni est donc une boussole. Il montre aux chercheurs : "Hé, regardez, c'est ici que ça coince ! Il faut apprendre à nos IA à mieux synchroniser ce qu'elles voient et ce qu'elles entendent."

C'est un pas de géant vers des robots qui pourront vraiment comprendre notre monde, comme nous le faisons nous-mêmes : en voyant, en écoutant, et en comprenant le moment précis où tout se passe.

Daily-Omni: Towards Audio-Visual Reasoning with Temporal Alignment across Modalities

🎬 Le Grand Défi de la "Double Oreille et Double Œil"

1. Le Problème : Les Super-Héros qui ont un "Trou de Mémoire"

2. La Solution : Daily-Omni, le "Terrain de Jeu" Ultime

3. Comment ont-ils construit ce jeu ? (La Cuisine du Détective)

4. Les Résultats : La Déception et l'Espoir

5. La Conclusion : Il reste du travail à faire

1. Problématique et Contexte

2. Méthodologie : Le Benchmark Daily-Omni

A. Construction du Dataset

B. Baseline Diagnostique : Daily-Omni Agent

3. Contributions Clés

4. Résultats Principaux

5. Signification et Conclusion

Daily-Omni: Towards Audio-Visual Reasoning with Temporal Alignment across Modalities

🎬 Le Grand Défi de la "Double Oreille et Double Œil"

1. Le Problème : Les Super-Héros qui ont un "Trou de Mémoire"

2. La Solution : Daily-Omni, le "Terrain de Jeu" Ultime

3. Comment ont-ils construit ce jeu ? (La Cuisine du Détective)

4. Les Résultats : La Déception et l'Espoir

5. La Conclusion : Il reste du travail à faire

1. Problématique et Contexte

2. Méthodologie : Le Benchmark Daily-Omni

A. Construction du Dataset

B. Baseline Diagnostique : Daily-Omni Agent

3. Contributions Clés

4. Résultats Principaux

5. Signification et Conclusion

Articles similaires

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem