Who Guards the Guardians? The Challenges of Evaluating Identifiability of Learned Representations

Each language version is independently generated for its own context, not a direct translation.

Wie bewaakt de bewakers?
Een uitleg van het onderzoek over het meten van "slimme" AI-features in simpel Nederlands.

Stel je voor dat je een supergeavanceerde AI hebt gebouwd die foto's van dieren kan herkennen. Je wilt weten of deze AI de wereld echt begrijpt: herkent hij losse concepten zoals "vacht", "staart" en "oog"? Of heeft hij alles door elkaar gehaald in een grote, ondoorzichtige soep?

In de wereld van AI noemen we het losgekoppeld begrijpen van deze concepten identificeerbaarheid. Om te testen of een AI dit goed doet, gebruiken wetenschappers meetinstrumenten (metingen) die een cijfer geven: hoe "schoon" en "losgekoppeld" is het denken van de AI?

Dit nieuwe onderzoek stelt een zeer belangrijke vraag: Wie bewaakt de bewakers? Oftewel: zijn die meetinstrumenten zelf wel betrouwbaar?

Het antwoord van de auteurs is verrassend en een beetje zorgwekkend: Nee, niet altijd.

Hier is de uitleg, vertaald naar alledaagse analogieën:

1. De Meetlat is niet altijd recht

Stel je voor dat je wilt meten hoe recht een boom groeit. Je gebruikt een liniaal. Maar wat als die liniaal zelf krom is, of wat als je hem op een helling houdt? Dan geeft hij een verkeerd resultaat, zelfs als de boom perfect recht staat.

In dit onderzoek laten de auteurs zien dat de populaire meetinstrumenten (zoals MCC, $R^2$ en DCI) vaak "krom" zijn. Ze geven een hoge score (een "10") aan een AI die eigenlijk nog steeds in de war is, of een lage score aan een slimme AI, afhankelijk van de omstandigheden.

2. De vier valkuilen (De "Vijandige" Omstandigheden)

De onderzoekers hebben vier situaties geïdentificeerd waarin deze meetinstrumenten falen. Laten we ze vergelijken met een orkest:

Valkuil 1: De "Klonterige" Vrienden (Correlatie)

Het probleem: Soms spelen de muzikanten (de data) niet onafhankelijk van elkaar. Als de fluitist en de klarinetist altijd precies hetzelfde spelen (ze zijn "gecorreleerd"), denken sommige meetinstrumenten dat het orkest perfect gescheiden is.
De analogie: Een meetinstrument kijkt naar de fluit en zegt: "Hij speelt alleen fluitmuziek!" Maar in werkelijkheid speelt hij precies hetzelfde als de klarinet. De meetinstrumenten verwarren gelijkenis met onafhankelijkheid. Ze geven een hoge score, terwijl de AI eigenlijk alles door elkaar heeft gehaald.

Valkuil 2: Het Verborgen Geheim (Meerdere Factoren)

Het probleem: Soms is één ding het gevolg van twee andere dingen samen. Denk aan een recept: je hebt bloem én eieren nodig om een cake te maken. Als je AI alleen "cake" ziet, maar niet weet dat dit uit twee losse ingrediënten bestaat, kan hij de ingrediënten niet los van elkaar meten.
De analogie: Stel je voor dat je een meetinstrument gebruikt om te zien of iemand alleen "suiker" of alleen "meel" heeft. Maar de persoon heeft een cake gemaakt. De meetinstrumenten zien de cake en denken: "Ah, dit is geen suiker, dus de score is laag!" Ze kunnen niet zien dat de cake een perfecte combinatie is van twee losse dingen. Ze kunnen redundantie niet herkennen.

Valkuil 3: De Overvolle Koffer (Te veel dimensies)

Het probleem: Soms probeert de AI meer informatie op te slaan dan er eigenlijk nodig is (bijvoorbeeld 100 vakjes voor 5 dingen).
De analogie: Stel je hebt 5 sleutels, maar je gebruikt een koffer met 100 vakjes. Sommige meetinstrumenten denken dan: "Wow, er zijn zoveel vakjes bezet, dat moet wel heel goed zijn!" Terwijl het gewoon een rommelige koffer is. Andere instrumenten denken juist: "Er zijn te veel vakjes, dit is een ramp!" Ze zijn gevoelig voor de grootte van de koffer, niet voor de kwaliteit van de sleutels.

Valkuil 4: De Geluksvogel (Te weinig data)

Het probleem: Als je te weinig voorbeelden hebt om te testen (bijvoorbeeld 10 foto's voor een AI met 1000 vakjes), kan een willekeurige AI soms toevallig een hoge score halen.
De analogie: Het is alsof je een gokker vraagt of hij een eerlijke dobbelsteen heeft. Hij gooit 5 keer en krijgt 5x een 6. "Hij is een goeroe!" roepen we. Maar het was gewoon geluk. De meetinstrumenten verwarren geluk met kunde als je te weinig data hebt.

3. Wat betekent dit voor de praktijk?

De auteurs zeggen niet dat we AI moeten stoppen, maar dat we voorzichtig moeten zijn met de cijfers.

Geen enkel meetinstrument is perfect: Net zoals er geen enkele thermometer is die in elke situatie (ijs, vuur, water) perfect werkt, werkt geen enkel AI-meetinstrument in elke situatie.
Kijk naar de context: Voordat je een AI beoordeelt, moet je weten: "Zijn de data-correlaties sterk?", "Hebben we genoeg voorbeelden?", "Is de AI te groot voor de data?".
Gebruik meerdere metingen: Vertrouw nooit op één cijfer. Gebruik een combinatie van meetinstrumenten, net zoals je een auto niet alleen op basis van de snelheidsmeter beoordeelt, maar ook op remmen, sturen en brandstofverbruik.

Conclusie

De titel "Wie bewaakt de bewakers?" is een klassieke vraag. Dit onderzoek zegt: De bewakers (de meetinstrumenten) hebben zelf ook bewaking nodig.

Als we blindelings vertrouwen op de huidige cijfers die AI-onderzoekers publiceren, kunnen we denken dat we een briljante, begrijpelijke AI hebben, terwijl we eigenlijk alleen maar een slimme, maar ondoorzichtige "soep" hebben. De oplossing? Weet wat je meetinstrumenten kunnen, ken hun zwakke plekken, en gebruik ze met een korreltje zout.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

In het veld van representatieleren (representation learning) en causale representatieleren (Causal Representation Learning - CRL) is het een langjarig doel om representaties te leren die interpreteerbaar, modulair en controleerbaar zijn. Dit wordt vaak geformaliseerd via identificeerbaarheid: de eigenschap dat een model de onderliggende "ground-truth" generatieve factoren uniek kan herstellen, tot op een bepaalde equivalentieklasse (bijv. permutatie en schaling).

Hoewel er theoretische garanties bestaan voor identificeerbaarheid onder specifieke voorwaarden (zoals hulpvariabelen, tijdsstructuur of sparsiteit), worden deze in de praktijk empirisch gevalideerd met behulp van standaardmeters (metrics) zoals MCC (Mean Correlation Coefficient), $R^2$ en DCI (Disentanglement, Completeness, Informativeness).

Het centrale probleem dat dit paper adresseert, is dat de aannames die deze meters impliciet maken vaak niet worden geverifieerd. De auteurs stellen de vraag: "Wie bewaakt de bewakers?" (Quis custodiet ipsos custodes?). Ze tonen aan dat deze meters structureel verkeerd gespecificeerd (misspecified) kunnen zijn. Dit betekent dat ze systematisch foutieve scores produceren (valse positieven of valse negatieven) wanneer de data-genererende processen (DGP) of de geometrie van de encoder afwijken van de aannames van de meter, zelfs als de samplegrootte naar oneindig gaat.

Methodologie

De auteurs ontwikkelen een rigoureuze analyseframework om de validiteit van identificeerbaarheidsmeters te testen, losgekoppeld van optimalisatiefouten van leermodellen.

Taxonomie van Aannames:
Ze introduceren een tweedimensionale taxonomie om evaluatiesettingen te classificeren:
- A. Structuur van Latente Factoren (DGP):
  - Onafhankelijk ( $D_\perp$ ): Factoren zijn statistisch onafhankelijk.
  - Gecorreleerd ( $D_\rho$ ): Factoren hebben statistische afhankelijkheid (maar behouden hun eigen vrijheidsgraden).
  - Functionele beperkingen ( $D_f, D_F$ ): Factoren zijn deterministisch aan elkaar gekoppeld (bijv. $V = I \cdot R$ ), wat de effectieve dimensie ( $d_{eff}$ ) verlaagt onder het aantal gedefinieerde factoren ( $d$ ).
- B. Encoder Geometrie:
  - Equivalentieklasse: Lineair (permutatie/schaling), niet-lineair, of lineair verward (affiene transformatie).
  - Dimensieverhouding: Matched ( $m=d$ ), ondercompleet ( $m<d$ ), of overcompleet ( $m>d$ , veelvoorkomend in mechanistische interpretatie).
Gecontroleerde Synthetische Experimenten:
In plaats van geoptimaliseerde neurale netwerken te gebruiken, construeren de auteurs synthetische encoders met bekende transformaties (bijv. pure rotatie, niet-lineaire functies, duplicatie). Hierdoor wordt de metriek geïsoleerd van trainingsartefacten; elke fout in de score is een eigenschap van de metriek zelf.
Theoretische Afleidingen:
De auteurs leiden gesloten-formule uitdrukkingen af voor het verwachte gedrag van meters onder specifieke voorwaarden (bijv. null-encoders, gecorreleerde factoren) om de oorzaken van fouten wiskundig te onderbouwen.

Belangrijkste Bijdragen

Taxonomie voor (Mis)Specificatie: Een formeel raamwerk dat aannames over data en encoder scheidt, waardoor het mogelijk wordt om de geldigheidsdomeinen van bestaande meters te karakteriseren.
Vier Eigenschappen voor Robuuste Meters: De auteurs definiëren vier desiderata waaraan een ideale meter moet voldoen:
- P1 (Invariantie t.o.v. correlatie): De score mag niet veranderen als factoren gecorreleerd zijn, zolang de encoder goed werkt.
- P2 (Getrouwheid aan effectieve dimensie): De meter moet onderscheid kunnen maken tussen het weglaten van een redundante factor (verliesloos) en een informatieve factor (verliesvol).
- P3 (Invariantie t.o.v. overcompleetheid): Extra dimensies in de code (zonder nieuwe informatie) mogen de score niet kunstmatig verhogen of verlagen.
- P4 (Ongevoeligheid voor oninformatieve encoders): Een willekeurige encoder moet een score van ~0 krijgen, ongeacht de verhouding $m/n$ .
Analyse van Bestaande Meters: Een uitgebreide evaluatie toont aan dat geen enkele bestaande meter aan alle vier de eigenschappen voldoet.
Open Source Suite: De auteurs release een evaluatiesuite voor reproduceerbare stress-tests.

Resultaten en Kernbevindingen

De studie onthult systematische fouten in de meest gebruikte meters:

MCC (Mean Correlation Coefficient):
- Valse Positieven bij correlatie: MCC verwardt correlatie tussen factoren met identificeerbaarheid. Bij sterke correlatie ( $\rho \to 1$ ) geeft MCC een score van ~1, zelfs als de encoder volledig verward is (Property 1 geschonden).
- Valse Positieven bij hoge $m/n$ : Bij een hoge verhouding tussen representatiedimensie en samplegrootte ( $m/n \gtrsim 0.1$ ), stijgt de MCC-score voor een willekeurige (null) encoder naar boven 0,5 of zelfs 0,8. Dit komt door extreme-waarde statistiek bij het vinden van de beste matching.
- Niet-invariantie: MCC faalt bij overcompleete, gedistribueerde codes (waar één factor over meerdere codes verspreid is).
DCI (Disentanglement):
- Gevoeligheid voor verwardheid: DCI straft lineair verwarde encoders (affiene transformaties) te streng af, zelfs als alle informatie behouden blijft (Property 1 geschonden).
- Faalt bij multi-factor redundantie: DCI kan niet onderscheiden tussen het weglaten van een redundante factor (bijv. $z_2 = f(z_1)$ ) en een informatieve factor. Het straft een verliesloze compressie onterecht af (Property 2 geschonden).
- Overcompleetheid: Bij hoge $m/d$ kan DCI valse positieven geven voor lineair verwarde encoders.
$R^2$ (Linear Regression):
- Meest robuust: $R^2$ is de enige meter die consistent presteert bij correlatie (P1) en null-encoders (P4).
- Beperking: Het kan net als DCI geen onderscheid maken tussen verliesloze compressie en verlies bij multi-factor afhankelijkheden (P2).
Algemene bevinding: Er is geen "one-size-fits-all" meter. De keuze van de meter hangt kritiek af van de specifieke setting (DGP en encoder geometrie).

Significantie en Implicaties

Dit paper heeft grote gevolgen voor het veld van causale representatieleren en mechanistische interpretatie (bijv. bij het analyseren van Large Language Models met Sparse Autoencoders):

Herinterpretatie van Bestaande Resultaten: Veel eerder gepubliceerde claims over "ontwarde" (disentangled) representaties, gebaseerd op hoge MCC of DCI-scores, kunnen onjuist zijn als de data-correlatie of de samplegrootte niet in overweging is genomen.
Richtlijnen voor Praktici: De auteurs bieden een checklist voor onderzoekers:
- Controleer altijd de verhouding $m/n$ . Als $m/n > 0.1$ , zijn MCC-scores onbetrouwbaar.
- Rapporteer altijd een null-encoder baseline (een willekeurige encoder) om valse positieven te detecteren.
- Kies de meter op basis van de DGP: Gebruik $R^2$ voor gecorreleerde data, vermijd DCI bij overcompleetheid.
Toekomstige Ontwikkeling: Het paper stelt een nieuwe standaard voor het ontwerpen van meters die expliciet rekening houden met de effectieve dimensie en invariant zijn voor de geometrie van de encoder.

Samenvattend waarschuwt het paper dat de "bewakers" (de evaluatiemeters) zelf kwetsbaar zijn voor structurele misvattingen. Zonder een grondig begrip van de onderliggende aannames, kunnen hoge scores leiden tot de verkeerde conclusie dat een model goed identificeerbaar is, terwijl dit in werkelijkheid niet het geval is.

Who Guards the Guardians? The Challenges of Evaluating Identifiability of Learned Representations

1. De Meetlat is niet altijd recht

2. De vier valkuilen (De "Vijandige" Omstandigheden)

Valkuil 1: De "Klonterige" Vrienden (Correlatie)

Valkuil 2: Het Verborgen Geheim (Meerdere Factoren)

Valkuil 3: De Overvolle Koffer (Te veel dimensies)

Valkuil 4: De Geluksvogel (Te weinig data)

3. Wat betekent dit voor de praktijk?

Conclusie

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten en Kernbevindingen

Significantie en Implicaties

Meer zoals dit

Complexity of Classical Acceleration for ℓ1\ell_1ℓ1​-Regularized PageRank

MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?

Language Guided Adversarial Purification

Graph-based Active Learning for Entity Cluster Repair

Neural Green's Operators for Parametric Partial Differential Equations

Complexity of Classical Acceleration for $\ell_1$ -Regularized PageRank