Dual-Teacher Distillation with Subnetwork Rectification for Black-Box Domain Adaptation

Each language version is independently generated for its own context, not a direct translation.

Titel: Hoe een "Zwarte Doos" en een "Alwetende Leraar" samenwerken om een nieuwe taal te leren

Stel je voor dat je een zeer slimme, maar mysterieuze leraar hebt. Laten we hem de Zwarte Doos noemen. Deze leraar is een expert in het herkennen van dingen (bijvoorbeeld: "Is dit een auto of een fiets?"), maar je mag zijn boek niet zien, je mag niet naar zijn notities kijken, en je mag zelfs niet weten hoe zijn brein werkt. Je mag alleen vragen stellen en hij geeft je een antwoord.

Nu wil je een nieuwe student (de Doelgroep) leren om ook deze dingen te herkennen, maar dan in een heel andere omgeving. Bijvoorbeeld: de Zwarte Doos is getraind op foto's van auto's in de stad, maar je student moet auto's herkennen op het platteland, waar de wegen anders zijn en het licht anders valt.

Het probleem? Omdat je de Zwarte Doos niet volledig begrijpt, zijn zijn antwoorden op de platteland-foto's vaak onzeker of foutief. Als je je student alleen op die foutieve antwoorden laat leren, leert hij de verkeerde dingen.

Hier komt het idee van dit onderzoek (DDSR) om de hoek kijken. Het is als een slimme trainingsmethode met twee hoofdstukken:

Hoofdstuk 1: Twee Leraren en een "Tweeling"

In plaats van alleen te vertrouwen op de mysterieuze Zwarte Doos, halen we een tweede leraar bij: CLIP.

De Zwarte Doos: Kennis over de specifieke taak (auto's), maar soms verward door de nieuwe omgeving.
CLIP: Een supersterke, alwetende leraar die miljoenen foto's en teksten heeft gezien. Hij weet heel goed wat een "auto" conceptueel is, maar is misschien niet zo specifiek getraind op jouw exacte situatie.

De Slimme Mix (Adaptieve Fusie):
De methode kijkt naar hoe zeker elke leraar is.

Als je student maar een paar foto's heeft om te leren, luistert hij meer naar de Zwarte Doos (die de specifieke taak kent).
Als je student duizenden foto's heeft, luistert hij meer naar CLIP (die de algemene logica kent).
Ze maken samen een "gemiddeld antwoord" dat veel betrouwbaarder is dan alleen de Zwarte Doos.

De "Tweeling" (Subnetwerk Rectificatie):
Om te voorkomen dat je student blindelings gelooft in foutieve antwoorden (overfitting), geven we hem een tweelingbroer.

De echte student leert van de leraren.
De tweeling is een iets simpeler versie van de student.
Ze worden getraind om verschillend te denken, maar toch hetzelfde antwoord te geven. Als ze te veel op elkaar lijken, betekent dat dat ze misschien allemaal dezelfde fout maken. Door ze te dwingen om hun "brein" op verschillende manieren te gebruiken, worden ze robuuster en maken ze minder fouten.

Hoofdstuk 2: Zelfcorrectie en de "Stempel"

Na het eerste hoofdstuk is je student al veel beter, maar nog niet perfect. Nu gaan we de tweede fase in: Zelftraining.

Stel je voor dat je student nu zelf een lijstje maakt van alle auto's die hij heeft gezien, en hij groepeert ze in stapels (prototypes).

"Alle rode auto's horen bij stapel A."
"Alle blauwe auto's horen bij stapel B."

Als de student een nieuwe foto ziet, kijkt hij niet meer naar de leraars, maar zegt hij: "Deze foto lijkt het meest op stapel A, dus dit is een rode auto." Hij corrigeert zijn eigen oude fouten door te kijken naar wat de meeste andere auto's doen. Dit maakt zijn kennis nog scherper en consistenter.

Waarom is dit zo cool?

Privacy: Je hoeft de originele leraar (de Zwarte Doos) niet te kopiëren of zijn geheime recepten te zien. Je kunt gewoon vragen stellen via een API (zoals een chatbot).
Veiligheid: Omdat je de originele data niet deelt, kunnen mensen geen privéfoto's reconstrueren.
Resultaat: De methode werkt zo goed dat de nieuwe student vaak beter presteert dan methoden waarbij je wél de originele leraar en zijn geheime notities mocht gebruiken!

Kort samengevat:
De auteurs hebben een manier bedacht om een nieuwe AI te trainen door slim te mixen tussen een mysterieuze expert en een alwetende algemene leraar, terwijl ze een "tweeling" gebruiken om fouten te voorkomen en uiteindelijk de AI laten zelf-corrigeren. Het is alsof je een student leert een nieuwe taal te spreken door hem te laten luisteren naar zowel een lokale inwoner als een wereldreiziger, en hem daarna te laten oefenen met zijn eigen woordenboek.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling: Black-Box Domain Adaptation (BBDA)

Het artikel adresseert de uitdaging van Black-Box Domain Adaptation (BBDA). In tegenstelling tot traditionele Unsupervised Domain Adaptation (UDA) of Source-Free Domain Adaptation (SFDA), zijn bij BBDA zowel de gelabelde brondata als de interne parameters/architectuur van het bronmodel ontoegankelijk.

Beperkingen: De enige informatie die beschikbaar is, zijn de voorspellingen (output) van het zwarte-doos-bronmodel op de doel-domein (target) samples.
Uitdagingen: Door domeinverschillen (distribution shifts) zijn de voorspellingen van het bronmodel vaak onnauwkeurig en ruisig. Bestaande methoden die puur vertrouwen op deze voorspellingen of op externe Vision-Language (ViL) modellen (zoals CLIP) sufferen vaak van ruisige supervisie of onvoldoende benutting van semantische priors, wat leidt tot suboptimale aanpassingsprestaties.

Methodologie: DDSR Framework

De auteurs stellen DDSR (Dual-Teacher Distillation with Subnetwork Rectification) voor, een tweefasig framework dat specifieke kennis van het bronmodel combineert met algemene semantische kennis van een ViL-model (CLIP).

Fase 1: Dual-Teacher Distillatie en Subnetwerk-Rectificatie

In deze fase wordt een student-model (doelmodel) getraind onder supervisie van twee leraren:

Dual-Teacher Predictie Fusie:
- Leraren: Het zwarte-doos-bronmodel en het CLIP-model.
- Adaptieve Fusie: Een module combineert de voorspellingen van beide leraren tot een pseudolabel. De weging is adaptief en afhankelijk van de entropie (onzekerheid) van de voorspellingen en de grootte van het doel-domein ( $n_t$ $n_{t}$ ).
  - Bij kleine doel-domeinen wordt meer gewicht gegeven aan het bronmodel (aangenomen dat specifieke kennis cruciaal is).
  - Bij grote doel-domeinen wordt meer gewicht gegeven aan CLIP (aangenomen dat de semantische generalisatie sterker is).
- Verliesfuncties:
  - Knowledge Distillation (KL-divergentie): Leidt het student-model naar de gefuseerde pseudolabels.
  - Mixup Consistency: Verhoogt robuustheid door lineaire interpolatie van samples.
  - Information Maximization: Bevordert diversiteit en zekerheid in de voorspellingen.
Subnetwerk-Rectificatie (Overfitting Mitigatie):
- Om overfitting op ruisige pseudolabels te voorkomen, wordt een lichtgewicht subnetwerk geïntroduceerd dat een deel van de parameters van het hoofdnetwerk deelt.
- Output Alignement: De output van het subnetwerk en het hoofdnetwerk worden dicht bij elkaar gehouden (via Jensen-Shannon divergentie).
- Gradient Discrepancy: Er wordt een gecontroleerde perturbatie toegepast om de gradiënten van het subnetwerk en het hoofdnetwerk te divergeren. Dit dwingt het model om complementaire kennis te leren en voorkomt dat het model te snel vastloopt in ruis.
Iteratieve Verfijning:
- De voorspellingen van het doelmodel worden gebruikt om de pseudolabels te verfijnen via Exponential Moving Average (EMA).
- De prompts van het CLIP-model worden online aangepast (fine-tuned) om beter te passen bij het doel-domein.

Fase 2: Zelf-training met Class-wise Prototypes

In deze tweede fase wordt het model verder geoptimaliseerd:

Prototypes: Er worden per klasse prototypes berekend op basis van de features van het doelmodel.
Correctie: De labels van de doel-samples worden gecorrigeerd door ze toe te wijzen aan het dichtstbijzijnde prototype (op basis van cosinus-afstand).
Finetuning: Het doelmodel wordt opnieuw getraind met deze gecorrigeerde, scherpere pseudolabels via cross-entropy loss.

Belangrijkste Bijdragen

Adaptieve Predictie Fusie: Een mechanisme dat dynamisch de kennis van het bronmodel en CLIP combineert, waarbij de weging gebaseerd is op de onzekerheid van de modellen en de omvang van het doel-domein.
Subnetwerk-gebaseerde Regularisatie: Een innovatieve strategie om overfitting op ruisige supervisie te verminderen door gebruik te maken van een subnetwerk dat zorgt voor output-consistentie en gradiënt-divergentie.
Iteratieve Verbetering: Een cyclus waarbij het doelmodel zijn eigen voorspellingen gebruikt om zowel de pseudolabels als de ViL-prompts te verbeteren, gevolgd door een tweede fase van zelf-training met prototypes voor semantische consistentie.
State-of-the-Art Prestaties: Het framework presteert consequent beter dan bestaande methoden, inclusief die welke toegang hebben tot brondata of bronmodellen.

Experimentele Resultaten

De methode is geëvalueerd op drie standaard benchmarks: Office-31, Office-Home en VisDA-17.

Prestaties: DDSR behaalde de hoogste gemiddelde nauwkeurigheid op alle drie de datasets.
- Op Office-31 behaalde het 93,1% (vs. 91,9% voor de tweede beste BBDA-methode AEM).
- Op Office-Home behaalde het 83,2% (vs. 80,6% voor AEM).
- Op VisDA-17 behaalde het 90,6%, wat vergelijkbaar is met of beter is dan de beste concurrenten.
Vergelijking: Het model overtrof niet alleen andere BBDA-methoden, maar presteerde ook vaak beter dan SFDA- en UDA-methoden die toegang hebben tot brondata, wat de kracht van de ViL-integratie en de rectificatiestrategie onderstreept.
Visualisatie: t-SNE visualisaties tonen aan dat DDSR veel beter gescheiden clusters vormt in de feature space vergeleken met het ruwe bronmodel, wat aantoont dat domeinverschuiving effectief wordt gemitigeerd.

Betekenis en Impact

Dit werk is significant omdat het een praktische oplossing biedt voor een realistisch maar moeilijk scenario: het aanpassen van AI-modellen wanneer data-privacy of intellectueel eigendom de toegang tot brondata en modelarchitectuur blokkeert (bijv. via API's).

Door CLIP te integreren, overwint de methode de beperkingen van puur datagedreven benaderingen die worstelen met ruis.
De subnetwork rectificatie biedt een nieuwe manier om stabiliteit te garanderen in het trainen met onbetrouwbare labels.
De resultaten tonen aan dat het combineren van specifieke domeinkennis (bronmodel) met algemene semantische kennis (ViL) via een adaptief mechanisme de huidige grenzen van Black-Box Domain Adaptation verlegt.