Towards Multimodal Domain Generalization with Few Labels

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een multimodale AI hebt. Dit is een slimme computer die niet alleen naar beelden kijkt (video), maar ook luistert (audio), net zoals wij mensen dat doen. Het probleem is dat deze AI vaak "verkeerd" doet als hij in een nieuwe omgeving terechtkomt.

Stel je voor dat je een AI hebt getraind in een studio met perfect licht en geluid. Als je diezelfde AI nu in een buitensituatie zet, met veel ruis en slecht licht, faalt hij. Hij herkent de acties niet meer. Dit noemen we een "domeinverschuiving".

Daarnaast is het extreem duur en tijdrovend om deze AI te trainen. Mensen moeten duizenden video's en geluidsbestanden handmatig labelen (zeggen: "dit is een hond die blaft"). Dat willen we vermijden. We willen een AI die kan leren van weinig gelabelde voorbeelden en veel ongelabelde rommel.

De auteurs van dit paper hebben een nieuw probleem bedacht en opgelost: SSMDG. Laten we dit uitleggen met een leuk verhaal.

Het Probleem: De Verwarde Chef-kok

Stel je voor dat je een Chef-kok (de AI) wilt trainen om gerechten te herkennen.

De uitdaging: Je wilt dat hij gerechten herkent in elke keuken ter wereld (van een luxe restaurant tot een camping), maar je hebt maar 5 receptkaarten (gelabelde data) en een berg aan ongeschreven kratten (ongelabelde data).
De oude methoden faalden:
- Sommige chefs keken alleen naar de foto's, maar negeerden dat de keuken anders was (Domain Generalization).
- Andere chefs keken wel naar de ongeschreven kratten, maar dachten dat alle keukens hetzelfde waren (Semi-Supervised Learning).
- Weer anderen waren goed in nieuwe keukens, maar konden alleen met één zintuig werken (bijv. alleen zien, niet horen).

Niemand kon alle drie tegelijk: goed zijn in nieuwe omgevingen, leren van weinig labels, én zowel zien als horen.

De Oplossing: De "Super-Keuken" (Het SSMDG Framework)

De auteurs hebben een nieuwe, slimme keuken bedacht met drie speciale regels (componenten) om de Chef-kok slim te maken:

1. De "Eendracht Maakt Macht"-Regel (Consensus-Driven Consistency)

Stel je voor dat de Chef-kok een gerecht moet raden. Hij vraagt het aan zijn twee helpers: Oog (Video) en Oor (Audio).

Als Oog zegt: "Het is een pizza!" en Oor zegt: "Het is een pizza!" en ze zijn beiden heel zeker, dan is het waarschijnlijk een pizza.
De AI gebruikt alleen deze zekere overeenkomsten om te leren. Hij zegt: "Oké, als we het samen eens zijn, dan is dit het juiste antwoord." Dit zorgt voor betrouwbare lessen, zelfs zonder dat iemand het antwoord heeft opgeschreven.

2. De "Twijfel is Leerzaam"-Regel (Disagreement-Aware Regularization)

Wat als Oog zegt: "Pizza!" en Oor zegt: "Taco!"? Ze zijn het niet eens.

Oude methoden gooiden dit soort data weg.
Deze nieuwe AI zegt: "Wacht, hier zit iets interessants!" Hij gebruikt een speciale slimme techniek (een zacht straffend systeem) om toch iets te leren van deze twijfel. Hij zegt: "Oké, we zijn het niet eens, maar laten we niet panikeren. Laten we proberen om toch een logisch patroon te vinden zonder dat we de hele les vergeten door de ruis." Dit zorgt ervoor dat hij ook van de "moeilijke" gevallen leert.

3. De "Vertaler en Spiegel"-Regel (Cross-Modal Prototype Alignment)

Dit is de meest creatieve regel. Stel je voor dat de Chef-kok in een nieuwe keuken komt waar geen geluid is (misschien is de microfoon kapot).

Normaal zou hij dan falen.
Maar deze AI heeft een vertaler in zijn hoofd. Als hij de video ziet, kan hij in zijn hoofd de geluidsfrequentie "nabootsen" die bij dat beeld hoort.
Hij zorgt er ook voor dat de "essentie" van een pizza (de vorm, het geluid) altijd hetzelfde blijft, of hij nu in een studio of op een camping zit. Hij bouwt een intern kompas (prototypes) dat hem altijd naar het juiste antwoord leidt, ongeacht de omgeving of welke zintuigen hij heeft.

Waarom is dit belangrijk?

De auteurs hebben niet alleen een slimme methode bedacht, maar ze hebben ook de eerste officiële test (benchmark) gemaakt om dit te bewijzen. Ze hebben getoond dat hun methode veel beter werkt dan alle oude methoden, zelfs als:

Er maar heel weinig labels zijn (bijv. 5 per categorie).
De AI moet werken in een compleet nieuwe omgeving.
Een van de zintuigen (bijv. audio) tijdens het testen ontbreekt.

Samenvatting in één zin

Dit paper introduceert een slimme manier om AI's te trainen die met weinig hulp van mensen kunnen leren van veel verschillende omgevingen, en die zelfs doorgaan als één van hun zintuigen uitvalt, door te vertrouwen op overeenstemming tussen hun zintuigen en slimme vertalingen.

Het is alsof je een AI traint die niet alleen een recept kent, maar ook weet hoe hij moet koken in een storm, met een kapot fornuis, en zonder dat iemand hem de hele tijd vertelt wat hij moet doen.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling: Semi-Supervised Multimodal Domain Generalization (SSMDG)

Het paper introduceert een nieuw onderzoeksgebied genaamd Semi-Supervised Multimodal Domain Generalization (SSMDG). Dit probleem unificeert drie kritieke uitdagingen uit het echte wereldtoepassingsdomein:

Domain Generalization (DG): Het vermogen van modellen om te generaliseren naar ongezette doel-domeinen waar de data-distributie verschilt van de trainingsdata (bijv. verschillende lichtomstandigheden of achtergronden).
Data-efficiëntie: Het vermogen om te leren met slechts een beperkt aantal gelabelde voorbeelden om de hoge kosten van annotatie te verlagen.
Multimodaal leren: Het benutten van data uit meerdere modaliteiten (bijv. video en audio) om complementaire informatie te gebruiken.

De huidige beperkingen: Bestaande methoden falen in dit specifieke scenario omdat ze slechts één aspect adresseren:

Multimodal Domain Generalization (MMDG) methoden gebruiken alleen gelabelde data en kunnen geen gebruik maken van de overvloed aan ongelabelde data.
Semi-Supervised Multimodal Learning (SSML) methoden gebruiken ongelabelde data, maar negeren domeinverschuivingen (domain shifts).
Semi-Supervised Domain Generalization (SSDG) methoden hanteren ongelabelde data en domeinverschuivingen, maar zijn beperkt tot single-modality input en missen cross-modale interacties.

Het doel van SSMDG is het trainen van een robuust model dat leert van meerdere bron-domeinen met slechts een paar gelabelde voorbeelden per klasse, terwijl het tegelijkertijd ongelabelde data uit al deze domeinen benut om naar een onbekend doel-domein te generaliseren.

Methodologie: Een Unificerend Kader

De auteurs stellen een unificerend kader voor dat bestaat uit drie kerncomponenten, ontworpen om de uitdagingen van lage vertrouwen (low confidence) en meningsverschillen tussen modaliteiten aan te pakken. Het model gebruikt modality-specifieke encoders, unimodale classifiers en een fusion classifier.

1. Consensus-Driven Consistency Regularization (CDCR)

Dit onderdeel richt zich op het genereren van betrouwbare pseudo-labels voor ongelabelde data.

Mechanisme: Het selecteert alleen ongelabelde voorbeelden waarbij de voorspelling van de gefuseerde multimodale data én minstens één unimodale voorspelling (bijv. alleen video of alleen audio) zowel hoog vertrouwen hebben (boven een drempelwaarde $\tau$ ) als in overeenstemming zijn (dezelfde klasse voorspellen).
Doel: Dit garandeert dat alleen zeer betrouwbare pseudo-labels worden gebruikt voor consistentie-regularisatie (vergelijkbaar met FixMatch), waarbij de modelvoorspellingen op sterk versterkte views consistent moeten zijn met het pseudo-label.

2. Disagreement-Aware Regularization (DAR)

CDCR gooit veel potentiële informatie weg omdat het strikte consensus vereist. DAR lost dit op door de "niet-consensus" steekproeven te benutten.

Mechanisme: Voor steekproeven die niet voldoen aan de CDCR-criteria (bijv. meningsverschil tussen modaliteiten), maar wel een hoge vertrouwen in de gefuseerde voorspelling hebben, wordt een alternatieve regularisatiestrategie toegepast.
Techniek: In plaats van standaard Cross-Entropy, wordt Generalized Cross-Entropy (GCE) verlies gebruikt. GCE is bekend om zijn robuustheid tegen ruis en onnauwkeurige labels.
Doel: Dit stelt het model in staat om te leren van ambiguere steekproeven zonder dat het trainingsproces instabiel wordt door foutieve pseudo-labels.

3. Cross-Modal Prototype Alignment (CMPA)

Dit onderdeel zorgt voor domein- en modality-invariante representaties in de feature-ruimte.

Prototypes: Het onderhoudt lopende gemiddelde klassen-prototypes voor elke modality, klasse en domein.
Alignment: Het forceert dat features (zowel origineel als vertaald) aligneren met intra-domein prototypes en cross-domein gemiddelden.
Cross-Modal Translation: Het introduceert vertalers ( $t_{v \to a}$ $t_{v \to a}$ en $t_{a \to v}$ $t_{a \to v}$ ) die features van de ene modality naar de andere vertalen. Dit dient twee doelen:
1. Het versterkt de semantische consistentie tussen modaliteiten.
2. Het biedt robustheid bij ontbrekende modaliteiten tijdens inferentie (bijv. als audio ontbreekt, wordt deze gegenereerd uit video).

Totale Doelfunctie:
Het totale verlies is een som van het supervisie-verlies op gelabelde data, CDCR, DAR en CMPA, gewogen door hyperparameters.

Belangrijkste Bijdragen

Nieuw Probleemformulering: De introductie van SSMDG, die de gaten opvult tussen bestaande paradigmen (SSML, MMDG, SSDG) en een realistischere setting voor multimodaal leren creëert.
Uitgebreide Benchmark: De auteurs hebben de eerste SSMDG-benchmarks opgezet op twee veelgebruikte datasets: EPIC-Kitchens (kookacties) en HAC (acties van mensen, dieren en cartoons). Deze benchmarks omvatten scenario's met verschillende percentages gelabelde data en scenario's met ontbrekende modaliteiten.
Effectief Kader: Een unificerend framework dat succesvol omgaat met de unieke uitdagingen van SSMDG door consensus en meningsverschillen slim te combineren.
Analyse en Inzichten: Een grondige analyse van waarom bestaande methoden falen in deze setting en hoe de voorgestelde componenten specifiek deze problemen oplossen.

Resultaten

De methode is uitgebreid getest en presteert consequent beter dan sterke baselines in zowel standaard als ontbrekende-modaliteit scenario's.

Prestaties op Benchmarks:
- Op de HAC-dataset (5 labels per klasse) bereikte de methode een gemiddelde nauwkeurigheid van 60.77%, wat aanzienlijk hoger is dan de beste concurrenten (bijv. STiL met 58.34% en NIED-LRM met 57.64%).
- Op de EPIC-Kitchens-dataset (5 labels per klasse) werd een gemiddelde nauwkeurigheid van 39.94% behaald, opnieuw een nieuwe state-of-the-art.
Robuustheid: De methode presteert goed over verschillende label-regimes (5, 10 labels, 5%, 10% gelabelde data) en werkt zelfs effectief met drie modaliteiten (Video, Audio, Flow).
Ontbrekende Modaliteiten: Bij het simuleren van ontbrekende data (bijv. geen video tijdens testen) overtrof de "Translation"-strategie van het paper de "Zero-filling" methode met een marge van 7.59% op de HAC-dataset. Dit bewijst de effectiviteit van de cross-modale vertaling.
Pseudo-label Kwaliteit: De analyse toont aan dat het framework niet alleen een hogere nauwkeurigheid van pseudo-labels bereikt, maar ook een hoger percentage ongelabelde data effectief benut dan concurrenten.

Significantie

Dit werk is significant omdat het een praktische oplossing biedt voor een veelvoorkomend probleem in de AI: het trainen van geavanceerde multimodale modellen in omgevingen waar gelabelde data schaars is en de data-distributie varieert.

Kostenefficiëntie: Door te leren met weinig labels, verlaagt het de barrière voor het toepassen van multimodale AI in domeinen waar annotatie duur of moeilijk is.
Robuustheid: De capaciteit om te generaliseren naar nieuwe domeinen en om te gaan met ontbrekende sensoren (modaliteiten) maakt het model zeer geschikt voor real-world deployments (bijv. robots, autonome systemen, medische diagnose).
Richtinggevend: Het paper legt de basis voor toekomstig onderzoek door een gestandaardiseerde benchmark en een bewezen architectuur te bieden die de complexiteit van semi-supervisie, domeinverschuiving en multimodaliteit tegelijkertijd adresseert.

Samenvattend biedt dit paper een cruciale stap voorwaarts in het maken van multimodale AI-systemen die niet alleen nauwkeurig zijn, maar ook adaptief, data-efficiënt en robuust in onvoorspelbare omgevingen.