WAVE: Learning Unified & Versatile Audio-Visual Embeddings with Multimodal LLM

Deze paper introduceert WAVE, het eerste op multimodale LLM's gebaseerde embeddingmodel dat een verenigde representatieruimte voor tekst, audio en video creëert via een hiërarchische fusiestrategie en gezamenlijke training, waardoor het state-of-the-art presteert in cross-modale zoekopdrachten en prompt-gevoelige multimodale vraagbeantwoording.

Changli Tang, Qinfan Xiao, Ke Mei, Tianyi Wang, Fengyun Rao, Chao Zhang

Gepubliceerd 2026-02-24
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

WAVE: De "Alles-in-Één" Vertaler voor Geluid en Beeld

Stel je voor dat je een enorme bibliotheek hebt, maar de boeken zitten in verschillende talen en vormen: sommige zijn geschreven tekst, andere zijn films, en weer andere zijn alleen maar geluidsopnames. Tot nu toe hadden we voor elke taal een aparte vertaler nodig. Een vertaler voor tekst, een voor video, en een voor audio. Ze konden niet goed met elkaar praten, waardoor het zoeken naar informatie (bijvoorbeeld "vind een video die klinkt als een regenbui") erg lastig was.

De onderzoekers van dit paper hebben WAVE bedacht. WAVE is geen gewone vertaler; het is een super-vertaler die alles in één taal kan begrijpen.

Hier is hoe het werkt, in simpele taal:

1. De Grote Vertaalzaal (Het Model)

Stel je WAVE voor als een slimme bibliothecaris die in één kamer zit.

  • De Invoer: Je kunt haar een boek geven (tekst), een film tonen (video), of een opname afspelen (geluid). Ze kan zelfs een film met geluid aan haar geven.
  • De Vertaling: In plaats van het boek of de film op te slaan zoals hij is, maakt WAVE voor elk item een uniek "geestelijk vingerafdruk" (een embedding).
  • Het Magische: Het mooie is dat de vingerafdruk van een tekst over "een hond die blaft" en de vingerafdruk van een video van een hond die blaft, exact op dezelfde plek in de ruimte van de bibliothecaris landen. Ze zien er voor de computer uit als vrienden die elkaar direct herkennen, zelfs als ze er totaal anders uitzien.

2. Twee Slimme Oren (De Audio-Encoder)

Geluid is lastig. Soms is het een menselijke stem (spraak), en soms is het het geluid van een auto die voorbijrijdt of regen (omgevingsgeluid).

  • De meeste oude systemen hadden één oor dat probeerde alles te horen.
  • WAVE heeft twee gespecialiseerde oren: één dat luistert naar wat mensen zeggen, en één dat luistert naar de achtergrondgeluiden. Ze werken samen om een completer plaatje te maken. Dit zorgt ervoor dat WAVE niet alleen begrijpt wat er gezegd wordt, maar ook hoe de wereld eromheen klinkt.

3. De "Vraag-Gevoelige" Geest (Prompt-Aware)

Dit is misschien wel het coolste deel.

  • Oude systemen: Als je vroeg: "Wat zie je?", gaf het systeem een antwoord. Als je vroeg: "Wat hoor je?", gaf het een ander antwoord. Maar als je een ingewikkelde vraag stelde, zoals "Welk object in de video heeft niets te maken met een begrafenis?", raakten ze in de war. Ze gaven een algemeen antwoord, alsof ze de vraag niet hadden gelezen.
  • WAVE: WAVE luistert echt naar je vraag. Het is als een slimme assistent die zegt: "Ah, je vraagt specifiek naar de niet-gerelateerde objecten? Oké, dan focus ik mijn aandacht daarop en maak ik een vingerafdruk die specifiek die vraag beantwoordt." Hierdoor is WAVE veel beter in het beantwoorden van moeilijke vragen over video's en geluid.

4. De Grote Mix (Training)

Hoe leer je zo'n slimme bibliothecaris?

  • De onderzoekers hebben WAVE niet apart getraind op alleen video's of alleen geluid. Ze hebben hem alles tegelijk laten zien: video's, geluiden, tekst en vragen.
  • De Analogie: Stel je voor dat je een kok traint. In plaats van hem alleen te laten koken met vis, of alleen met vlees, geef je hem een receptenboek met alles door elkaar. Hij leert dan dat "smaak" (de betekenis) hetzelfde kan zijn, of je nu vis of vlees gebruikt. Hierdoor wordt hij een veel betere kok die sneller nieuwe gerechten kan bedenken.
  • Door alles samen te trainen, leert WAVE dat een geluid van een lach en een video van een lachende persoon "hetzelfde gevoel" hebben. Dit maakt hem sterker dan systemen die maar één ding kunnen.

Waarom is dit belangrijk?

Vroeger moest je voor elke zoekopdracht een ander systeem gebruiken. Met WAVE kun je:

  • Een tekst invoeren en een video vinden die bij die tekst past.
  • Een video invoeren en een geluidsfragment vinden dat erbij hoort.
  • Een complexe vraag stellen over een video en het juiste antwoord krijgen, zelfs als het antwoord niet direct in de video staat, maar eruit afgeleid moet worden.

Kortom: WAVE is de eerste echte "alles-in-één" vertaler voor onze digitale wereld. Het brengt tekst, geluid en beeld samen in één harmonieus gezelschap, zodat computers eindelijk kunnen begrijpen wat we bedoelen, ongeacht of we praten, schrijven of filmen.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →