Dr. SHAP-AV: Decoding Relative Modality Contributions via Shapley Attribution in Audio-Visual Speech Recognition

Dit paper introduceert Dr. SHAP-AV, een framework dat Shapley-waarden gebruikt om de bijdragen van audio- en visuele modaliteiten in AVSR-modellen te ontcijferen, waarbij wordt vastgesteld dat hoewel modellen bij ruis verschuiven naar visuele afhankelijkheid, er een aanhoudende audio-bias blijft bestaan die wordt gedreven door het signaal-ruisverhouding (SNR).

Umberto Cappellazzo, Stavros Petridis, Maja Pantic

Gepubliceerd Fri, 13 Ma
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Dr. SHAP-AV: De Geheimen van de Tweesprong tussen Oor en Oog

Stel je voor dat je in een drukke café zit. Je probeert een gesprek te volgen, maar de muziek is hard en er wordt overal tegelijkertijd gepraat. Wat doe je? Je leunt naar voren, kijkt de spreker recht in de ogen en probeert zijn lippen te lezen. Je hersenen gebruiken dan niet alleen je oren (geluid), maar ook je ogen (beeld) om te begrijpen wat er gezegd wordt.

Dit is precies wat Audio-Visual Speech Recognition (AVSR) doet: computersystemen die spreken proberen te verstaan door zowel naar geluid als naar lipbewegingen te kijken.

Maar hier zit de twist: hoe weten deze computers eigenlijk hoeveel ze op hun oren moeten vertrouwen en hoeveel op hun ogen? En wat gebeurt er als het geluid heel erg ruisig wordt?

De onderzoekers van deze paper (Dr. SHAP-AV) hebben een nieuwe manier bedacht om dit te achterhalen. Ze noemen hun methode Dr. SHAP-AV. Laten we het uitleggen met een paar simpele metaforen.

1. De "Rekenmeester" (Shapley Waarden)

Stel je voor dat een team van twee personen (een oren-expert en een ogen-expert) samen een raadsel oplost. Ze krijgen een prijs als ze het goed doen. De vraag is: wie heeft er meer bijgedragen aan het succes?

Soms denken we: "Oh, het was duidelijk de ogen-expert, want het was zo donker dat je niets kon horen." Maar misschien was de oren-expert toch heel hard aan het werk om de rest te compenseren.

In de wereld van AI is het lastig om dit te meten. De onderzoekers gebruiken een wiskundig gereedschap uit de speltheorie, genaamd Shapley-waarden. Denk hierbij aan een eerlijke "rekenmeester" die voor elk woord dat de computer produceert, precies uitrekent:

  • Hoeveel heeft het geluid bijgedragen?
  • Hoeveel heeft het beeld bijgedragen?
  • Zelfs als het antwoord fout is, meet deze rekenmeester hoe hard de computer probeerde te luisteren of te kijken.

2. De Grote Ontdekkingen

De onderzoekers hebben zes verschillende moderne AI-modellen getest in verschillende situaties (van stilte tot heel luidruchtig). Hier zijn de belangrijkste bevindingen, vertaald naar alledaags taal:

A. De "Oor-voorkeur" is hardnekkig (Zelfs als het luidruchtig is)
Je zou denken: als het geluid volledig ruisig is (zoals in een storm), dan moet de computer zich 100% op de lippen richten.

  • De realiteit: Zelfs als het geluid verschrikkelijk slecht is, blijft de computer nog steeds voor ongeveer 40% tot 50% op het geluid vertrouwen!
  • De metafoor: Het is alsof je in een storm zit, maar je blijft toch naar de stem van je vriend luisteren, zelfs als je bijna niets hoort. De computer is zo gewend aan geluid dat hij het niet makkelijk loslaat. Hij zou eigenlijk veel meer op de lippen moeten vertrouwen, maar dat doet hij niet automatisch.

B. De balans verandert tijdens het praten
Hoe denkt de computer na terwijl hij een zin uitspreekt?

  • Sommige modellen (zoals Whisper-Flamingo) beginnen met veel kijken, maar naarmate ze meer woorden hebben gezegd, gaan ze weer meer naar het geluid luisteren. Het is alsof ze eerst de lippen checken, maar zodra ze een beetje context hebben, zeggen ze: "Ah, ik weet wat er komt, ik luister maar weer."
  • Andere modellen (zoals AV-HuBERT) houden de balans de hele tijd stabiel. Ze kijken en luisteren evenveel, van begin tot eind.

C. Tijd is tijd (Tijdsynchronisatie)
Een van de vragen was: "Kijkt de computer naar de lippen op het juiste moment?"

  • Het antwoord: Ja! Als de computer een woord uitspreekt, kijkt hij naar de lippen die op dat moment bewegen. Zelfs als het geluid slecht is, blijft deze tijdsynchronisatie perfect. De computer weet precies welk beeld bij welk geluid hoort. Het is alsof een danser die, zelfs als de muziek stopt, nog steeds in de juiste ritme beweegt.

D. Het type lawaai maakt uit
Niet alle lawaai is hetzelfde.

  • Als er veel mensen tegelijk praten (babbelgeluid), kijken de modellen meer naar de lippen.
  • Als er muziek of andere geluiden zijn, vertrouwen ze nog steeds meer op het geluid.
  • Conclusie: Hoe moeilijker het geluid is, hoe meer de computer naar de lippen kijkt, maar het type lawaai bepaalt hoeveel hij dat doet.

E. De lengte van de zin maakt het verschil
Bij sommige modellen maakt het uit of de zin kort of lang is.

  • Bij Whisper-Flamingo wordt de computer bij langere zinnen en veel lawaai steeds meer afhankelijk van de lippen.
  • Bij andere modellen blijft het gedrag juist andersom of verandert het nauwelijks. Elke AI heeft zijn eigen "persoonlijkheid".

Waarom is dit belangrijk?

Vroeger dachten onderzoekers vooral: "Hoe kunnen we de fouten (WER) zo klein mogelijk maken?" Ze keken niet echt naar hoe de computer dat deed.

Met Dr. SHAP-AV zien we nu dat de computers een beetje "vooroordeels" zijn. Ze houden te veel van geluid, zelfs als het geluid slecht is. Dit is een probleem, want in een heel luidruchtige wereld zouden we willen dat ze veel meer op de lippen vertrouwen.

De boodschap voor de toekomst:
Ontwikkelaars moeten AI-modellen leren om hun "oren en ogen" dynamisch te schakelen. Als het geluid slecht is, moet de computer de "oog-knop" harder indrukken. En Dr. SHAP-AV is het gereedschap om te controleren of ze dit goed doen.

Kort samengevat:
Deze paper is als een diagnose bij een arts. De arts (Dr. SHAP-AV) kijkt niet alleen of de patiënt (de AI) gezond is, maar onderzoekt ook hoe hij werkt. De diagnose luidt: "De patiënt is slim en houdt zijn ritme, maar hij vertrouwt te veel op zijn oren, zelfs als die doof zijn. We moeten hem leren om vaker naar zijn ogen te kijken."