Daily-Omni: Towards Audio-Visual Reasoning with Temporal Alignment across Modalities

Die Arbeit stellt Daily-Omni vor, ein neues Audio-Visuelles-QA-Benchmark mit 684 Videos und 1.197 Fragen, das die Fähigkeit von Multimodalen Large Language Models zur synchronen Verarbeitung und temporalen Ausrichtung über Modalitäten hinweg evaluiert und dabei zeigt, dass viele aktuelle Modelle bei solchen Aufgaben noch erhebliche Schwierigkeiten haben.

Ziwei Zhou, Rui Wang, Zuxuan Wu, Yu-Gang Jiang

Veröffentlicht Wed, 11 Ma
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Daily-Omni: Der große Test für das „Zuhören und Sehen" von Künstlicher Intelligenz

Stell dir vor, du bist in einem lauten Café. Du siehst, wie jemand die Tür aufstößt, und hörst gleichzeitig das laute Klack-Klack des Schlosses. Ein menschliches Gehirn verbindet diese beiden Dinge sofort: „Die Tür wurde aufgestoßen, und das Geräusch kommt von dort."

Künstliche Intelligenz (KI), genauer gesagt die neuen „Multimodalen Sprachmodelle" (MLLMs), kann Bilder sehen und Töne hören. Aber sie haben ein großes Problem: Sie sind oft wie zwei getrennte Personen, die nebeneinander sitzen, aber nicht miteinander reden. Eine Person schaut auf das Bild, die andere lauscht dem Ton, aber sie koordinieren sich nicht. Wenn die KI gefragt wird, wann genau das Geräusch mit dem Bild passiert ist, stolpern sie oft.

Das ist genau das Problem, das das Team der Fudan-Universität mit ihrem neuen Projekt Daily-Omni angeht.

Hier ist eine einfache Erklärung, wie sie das gemacht haben:

1. Der neue Prüfstand: Daily-Omni

Stell dir Daily-Omni wie einen riesigen, realistischen Schnupperkurs für KI vor.

  • Das Material: Sie haben 684 echte Videos aus dem Alltag gesammelt (nicht nur Musikvideos oder statische Bilder).
  • Die Fragen: Dazu gibt es fast 1.200 Multiple-Choice-Fragen.
  • Die Herausforderung: Die Fragen zwingen die KI, genau hinzuhören und genau hinzusehen.
    • Beispiel: „Wer hat gerade gesagt 'Hallo', während er winkte?" (Hier muss die KI die Stimme mit der Person im Bild synchronisieren).
    • Beispiel: „Was ist zuerst passiert: Das Glas fiel oder der Hund bellte?" (Hier muss die KI die zeitliche Reihenfolge verstehen).

2. Wie haben sie die Fragen erstellt? (Der halb-automatische Bauplan)

Früher mussten Menschen stundenlang Videos ansehen und Fragen dazu schreiben. Das ist teuer und langsam. Daily-Omni nutzt einen cleveren Fertigungsprozess:

  1. Die Roboter-Helfer: Starke KI-Modelle (wie Gemini und DeepSeek) schauen sich die Videos an und beschreiben, was sie sehen und hören.
  2. Der Korrektur-Check: Ein anderer KI-Modell prüft: „Hört sich das Geräusch eines schlagenden Tores wirklich so an, wie es aussieht?" Wenn die KI sagt „Ich höre ein Klatschen", aber im Bild sieht man eine Tür, korrigiert sie das.
  3. Die Zeit-Synchronisation: Das ist der wichtigste Schritt. Die KI wird angewiesen, genau zu markieren: „Dieses Geräusch passierte genau in diesem Sekundenbruchteil mit diesem Bild."
  4. Der menschliche Filter: Am Ende schaut ein echter Mensch nur noch kurz vorbei, um sicherzustellen, dass die Fragen nicht zu einfach sind (z. B. dass man die Antwort nicht nur aus dem Text erraten kann).

3. Der Test: Wer besteht die Prüfung?

Die Forscher haben 24 verschiedene KI-Modelle getestet. Sie haben sie auf verschiedene Arten geprüft:

  • Mit Bild und Ton (das Ideal).
  • Nur mit Bild (wie ein Tauber).
  • Nur mit Ton (wie ein Blinder).
  • Nur mit Text (wie ein Buch).

Das überraschende Ergebnis:
Viele der neuesten, super-smarten KI-Modelle haben bei diesem Test schlecht abgeschnitten.

  • Das Problem: Selbst wenn sie Bild und Ton haben, können sie die beiden nicht richtig „zusammenfügen". Sie wissen oft nicht, was gleichzeitig passiert.
  • Der Gewinner (überraschend!): Ein einfacher, trainingsfreier „Bot" (der Daily-Omni Agent), der verschiedene kleine KI-Tools einfach nur hintereinander schaltet, hat oft besser abgeschnitten als die riesigen, komplexen Modelle.
    • Warum? Weil dieser einfache Bot explizit angewiesen wurde: „Schau erst das Bild, höre dann den Ton, und verbinde sie an dieser Stelle." Die großen Modelle versuchen, alles auf einmal zu verstehen, und verlieren dabei den zeitlichen Faden.

4. Was lernen wir daraus?

Die Botschaft von Daily-Omni ist wie eine Warnung an die KI-Entwickler:

„Es reicht nicht mehr, nur Bilder zu sehen und Töne zu hören. Die KI muss lernen, synchron zu denken."

Stell dir vor, du versuchst, einen Tanz zu lernen. Du kannst die Schritte sehen (Video) und die Musik hören (Audio). Aber wenn du nicht genau weißt, wann du den Fuß heben musst, um auf den Takt zu kommen, stolperst du. Genau das passiert vielen aktuellen KI-Modellen.

Fazit:
Daily-Omni ist wie ein Spiegel, der zeigt, dass unsere KI noch nicht wirklich „allumfassend" (Omni) ist. Sie braucht dringend bessere Werkzeuge, um Zeit, Ton und Bild perfekt aufeinander abzustimmen, bevor sie wirklich intelligente Assistenten im echten Leben sein können.