Bridging Modalities via Progressive Re-alignment for Multimodal Test-Time Adaptation

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, getrainde robot hebt die goed kan herkennen wat er op video's te zien is (bijvoorbeeld: "een hond rent") en wat er te horen is (bijvoorbeeld: "een blaf"). Deze robot is getraind in een perfecte, gecontroleerde studio.

Nu moet deze robot echter de echte wereld in. Daar is het echter anders: de camera is wazig, het geluid is verstoord door wind, of de belichting is slecht. Dit noemen we een verschuiving in de data. De robot raakt in de war en maakt fouten.

Meer nog: in de echte wereld hebben we vaak meerdere zintuigen tegelijk (beeld én geluid). Soms is het beeld wazig, maar het geluid helder. Soms is het geluid verstoord, maar het beeld scherp. Soms is alles tegelijk rot. Dit maakt het voor de robot heel lastig om te weten welke informatie hij moet vertrouwen.

Deze paper introduceert een nieuwe methode, genaamd BriMPR, om deze robot tijdens zijn werk (zonder dat iemand hem opnieuw moet trainen) slim te houden. Hier is hoe het werkt, vertaald in alledaagse taal:

Het Probleem: De "Taalbarrière" en de "Wazige Brillen"

Stel je voor dat de robot twee medewerkers heeft:

De Beeld-Expert (kijkt naar video).
De Geluid-Expert (luistert naar audio).

In de trainingsschool (de bron) praten ze perfect met elkaar. Maar in de echte wereld (het doel) krijgen ze allebei een andere "bril" op:

De Beeld-Expert krijgt een bril die alles wazig maakt.
De Geluid-Expert krijgt een bril die alles verdraait.

Als ze nu proberen samen te werken, praten ze tegen elkaar alsof ze in verschillende talen spreken. De Beeld-Expert zegt: "Ik zie een hond!" (maar het is eigenlijk een kat, door de wazigheid). De Geluid-Expert zegt: "Ik hoor een kat!" (maar het is een hond, door de verdraaiing). Ze raken in de war en de robot faalt.

De Oplossing: BriMPR (De Slimme Coördinator)

BriMPR is een slimme coach die de robot helpt om zich terwijl hij werkt aan te passen. Hij doet dit in twee stappen, met een strategie die we "Deel en Heers" noemen.

Stap 1: De Eigen Brillen Opkuisen (Prompt Tuning)

Eerst kijkt de coach naar elke expert apart. Hij zegt:
"Beeld-Expert, jouw bril is wazig. Ik ga een klein, aanpasbaar filtertje (een 'prompt') op je bril plakken. Dit filtertje helpt je om de beelden weer scherp te krijgen, alsof je terug bent in de perfecte studio."

Hij doet hetzelfde voor de Geluid-Expert.

De analogie: In plaats van de hele robot te herbouwen (wat te veel tijd en energie kost), plakt de coach alleen een paar kleine, slimme stickers op de brillen van de experts. Hierdoor zien ze de wereld weer zoals ze gewend waren, zelfs als de input rot is.
Het resultaat: Nu praten de experts weer in dezelfde taal. Ze zijn weer "in sync".

Stap 2: Samenwerken met een "Gokje" (Cross-Modal Masking)

Nu de experts weer scherp zien, moeten ze nog beter samenwerken. Soms is één expert nog steeds een beetje onzeker.
De coach gebruikt een slim trucje: Maskeren.

Hij zegt tegen de Beeld-Expert: "Sluit je ogen even (verberg het beeld). Luister alleen naar de Geluid-Expert en probeer te raden wat er gebeurt."
Vervolgens zegt hij tegen de Geluid-Expert: "Sluit je oren. Kijk alleen naar het beeld en raad het."

Als de Geluid-Expert (die zijn ogen dicht heeft) toch een goed antwoord geeft op basis van het beeld, dan weet de coach: "Ah, het beeld was goed genoeg om het antwoord te geven!"
Dit dwingt de experts om elkaars informatie te vertrouwen en te gebruiken, zelfs als één van hen een beetje verstoord is. Ze leren elkaar te vullen.

Waarom is dit zo goed?

Het werkt in de echte wereld: De robot hoeft niet te wachten tot iemand hem opnieuw traint. Hij past zich direct aan terwijl hij werkt.
Het is slim en zuinig: In plaats van de hele robot te herschrijven (duur en traag), past BriMPR alleen de kleine "stickers" (prompts) aan. Dit is snel en kost weinig rekenkracht.
Het overleeft chaos: Zelfs als alles tegelijk verstoord is (beeld én geluid), weet BriMPR door deze samenwerking en aanpassing toch de juiste conclusie te trekken.

Samenvattend

Stel je voor dat je een team hebt dat een raadsel moet oplossen. Plotseling krijgen ze allemaal een andere bril op. De meeste teams vallen in paniek.
BriMPR is de teamleider die snel kleine correcties aanbrengt op hun brillen (zodat ze weer scherp zien) en ze dwingt om elkaars antwoorden te checken, zelfs als ze een deel van hun zintuigen moeten afsluiten. Zo blijft het team succesvol, zelfs in de meest chaotische omstandigheden.

Deze methode is een grote stap voorwaarts voor slimme systemen (zoals zelfrijdende auto's of medische apparatuur) die betrouwbaar moeten blijven, ook als de wereld om hen heen verandert of "ruis" bevat.

Each language version is independently generated for its own context, not a direct translation.

Titel: Bridging Modalities via Progressive Re-alignment (BriMPR) voor Multimodale Test-Tijd Adaptatie

Auteurs: Jiacheng Li en Songhe Feng (Beijing Jiaotong University)

1. Het Probleem

Test-tijd adaptatie (TTA) stelt modellen in staat om zich online aan te passen aan ongelabelde testdata om de kloof tussen de bron- en doeldistributie te overbruggen. Hoewel TTA succesvol is voor unimodale taken, vormt het uitbreiden naar multimodale scenario's (bijv. audio en video samen) een grote uitdaging.

De kernproblemen zijn:

Variërende Distributieshift: Verschillende modaliteiten ondergaan vaak verschillende mate van distributieshift ten opzichte van de bron.
Complex Koppelings-effect: Er ontstaat een gecombineerd effect van:
1. Unimodale vlakke feature-shift: De lage-niveau kenmerken van een enkele modality veranderen.
2. Cross-modale semantische misalignement: De hoge-niveau semantische relaties tussen de modaliteiten raken uit balans.
Mislukking van Bestaande Methoden: Bestaande TTA-methoden (ontworpen voor unimodale data) of multimodale methoden die alleen de fusie-laag aanpassen (zoals READ), slagen er niet in om zowel de vlakke features te corrigeren als de semantische uitlijning tussen modaliteiten te herstellen. Dit leidt tot verstrengelde en minder discriminerende multimodale representaties.

2. Methodologie: BriMPR

De auteurs stellen BriMPR (Bridging Modalities via Progressive Re-alignment) voor. Dit is een raamwerk dat het probleem aanpakt met een "divide-and-conquer" strategie, bestaande uit twee progressief verbeterende modules. Het model update alleen prompts (leerbare tokens) in de modality-specifieke encoders, terwijl de rest van het model bevroren blijft.

Module A: Prompt-driven Modality-specific Global Feature Alignment (PMGFA)

Doel: Initieel uitlijnen van de globale feature-distributies van elke modality met hun respectieve bron-distributies.
Methode:
- Het probleem wordt opgesplitst in meerdere unimodale sub-problemen.
- Er wordt gebruikgemaakt van Prompt Tuning om een impliciete mapping te creëren van de target-feature-ruimte naar de source-feature-ruimte.
- In plaats van de volledige covariantiematrix te schatten (wat foutgevoelig is in hoge dimensies), wordt er alleen gekeken naar de diagonale elementen (mean en variantie) van de verdeling.
- De auteurs bewijzen theoretisch dat het schatten van alleen de diagonale elementen de fout met een factor $d$ (dimensie) verlaagt ten opzichte van het schatten van de volledige covariantiematrix.
- Een verliesfunctie ( $\mathcal{L}_{PMGFA}$ ) minimaliseert de discrepantie tussen de geschatte mean en standaarddeviatie van de target en de vooraf berekende source-statistieken.

Module B: Inter-modal Interaction Enhancement for Alignment Refinement

Doel: Verfijnen van de uitlijning door interactie tussen modaliteiten te versterken.
Methode:
1. Cross-modal Masked Embedding Recombination (CMER):
  - Er wordt een deel van de patches van een modality gemaskeerd (bijv. 50% van het audio-signaal).
  - Het model moet de gemaskeerde modality voorspellen door gebruik te maken van de volledige andere modality en de reeds uitgelijnde bron-features.
  - Er worden pseudo-labels gegenereerd voor de volledige multimodale data (die betrouwbaarder zijn na initieel uitlijnen) en gebruikt om de gemaskeerde augmentaties te trainen.
  - Een adaptieve temperatuur ( $AdaT_p$ ) wordt gebruikt om te voorkomen dat het model te zeker is van zijn voorspellingen als de distributieshift groot is.
2. Inter-modal Instance-wise Contrastive Learning (IICL):
  - Verschillende unimodale representaties van hetzelfde voorbeeld (instance) worden behandeld als positieve paren.
  - Een contrastief verlies ( $\mathcal{L}_{IICL}$ ) zorgt ervoor dat de features van dezelfde instance over verschillende modaliteiten heen dicht bij elkaar liggen in de feature-ruimte.

Totale Verliesfunctie:
$\mathcal{L}_{BriMPR} = \mathcal{L}_{PMGFA} + \mathcal{L}_{CMER} + \mathcal{L}_{IICL}$

3. Belangrijkste Bijdragen

Nieuw Framework: BriMPR is het eerste framework dat multimodale TTA aanpakt door het koppelings-effect van vlakke shift en semantische misalignement op te lossen via een divide-and-conquer aanpak.
Efficiënte Calibratie: Het benut de sterke functie-approximatie-eigenschappen van prompt tuning om de globale distributie van unimodale features efficiënt te kalibreren zonder de volledige modelparameters te updaten.
Nieuwe Strategieën:
- Een nieuwe Cross-modal Masked Embedding Recombination strategie die multimodale informatie forceert naar kwalitatief minder goede modaliteiten via betrouwbare pseudo-labels.
- Inter-modal instance-wise contrastive learning om de uitlijning op instance-niveau te behouden.
Uitgebreide Validatie: Extensieve experimenten op zowel corruptie-gebaseerde benchmarks (Kinetics50-C, VGGSound-C) als real-world domain shift datasets (CMU-MOSI, CH-SIMS).

4. Resultaten

BriMPR presteert overtuigend beter dan state-of-the-art (SOTA) methoden zoals Tent, EATA, READ en SuMi.

Unimodale Shift: Bij corruptie van slechts één modality (bijv. audio ruis in Kinetics50-C), verbetert BriMPR de prestaties aanzienlijk (bijv. van 60.5% naar 65.9% op Kinetics50-C).
Multimodale Shift: Zelfs wanneer beide modaliteiten gecorrumpeerd zijn, behoudt BriMPR de beste prestaties door de afhankelijkheid van hoogwaardige modaliteiten te verminderen.
Real-world Shift: Op sentimentanalyse-datasets (MOSI/SIMS) is BriMPR de enige methode die beter presteert dan een willekeurige gok (>50%) op de moeilijke MOSI $\to$ SIMS taak.
Data-efficiëntie: De methode presteert goed zelfs met beperkte testdata voor adaptatie.
Efficiëntie: Door alleen prompts te updaten, heeft BriMPR minder trainbare parameters dan veel concurrenten en is het sneller dan methoden die zware augmentaties vereisen.

5. Betekenis en Impact

Deze paper biedt een fundamentele oplossing voor een kritiek probleem in de multimodale AI: hoe om te gaan met ongelijke degradatie van verschillende sensormodaliteiten tijdens de testfase.

Praktische Toepassing: Het maakt intelligente systemen robuuster in onvoorspelbare omgevingen (bijv. zelfrijdende auto's met beschadigde camera's of microfoons) zonder dat er nieuwe gelabelde data nodig is.
Theoretische Vooruitgang: Het demonstreert dat het oplossen van unimodale distributieproblemen via prompts een effectieve manier is om complexe cross-modale semantische problemen op te lossen, wat een nieuwe richting aangeeft voor toekomstig TTA-onderzoek.
Open Source: De code is beschikbaar gesteld, wat de reproduceerbaarheid en verdere ontwikkeling in de gemeenschap bevordert.

Kortom, BriMPR lost het "koppelingsprobleem" in multimodale TTA op door eerst elke modality individueel te kalibreren en vervolgens de interactie tussen modaliteiten te versterken, wat leidt tot superieure generalisatie in dynamische omgevingen.