Expert Selections In MoE Models Reveal (Almost) As Much As Text

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorm, slimme robot hebt die teksten schrijft. Om dit snel en efficiënt te doen, heeft deze robot geen enkele brein, maar een team van 32 specialisten (de "experts"). Voor elk woord dat de robot schrijft, kijkt hij even snel: "Wie is de beste specialist voor dit woord?" en stuurt hij het woord naar die specialist.

Dit is wat er gebeurt in moderne AI-modellen die MoE (Mixture of Experts) worden genoemd.

Deze paper, geschreven voor een conferentie over betrouwbare AI, vertelt een schokkend verhaal: Het is mogelijk om te raden wat er geschreven is, puur door te kijken naar welke specialisten er aan het werk waren.

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het Grote Geheim: De "Postbode" Lekt

Stel je voor dat je een brief schrijft en die naar een postkantoor stuurt. Je schrijft de inhoud van de brief niet op de envelop, maar je stuurt hem wel naar een specifieke bezorger.

Normaal: Iemand die alleen de envelop ziet, weet niet wat erin zit.
De ontdekking in deze paper: De onderzoekers hebben ontdekt dat als je ziet naar welke bezorger de brief is gegaan, je eigenlijk al 90% van de inhoud van de brief kunt raden.

In de AI-wereld is de "bezorger" de expert die het woord verwerkt. De onderzoekers lieten zien dat als je alleen kijkt naar de lijst van experts die werden gekozen (bijvoorbeeld: "Expert 3, Expert 12 en Expert 5"), je een slimme computer kunt trainen om de originele tekst terug te bouwen.

2. Hoe werkt de aanval? (De "Reconstructie")

De onderzoekers deden twee dingen om dit te bewijzen:

De simpele poging (De ML-Perceptron): Ze gebruikten een simpele rekenmachine die per woord probeerde te raden wat er stond. Dit werkte redelijk goed (ongeveer 63% van de woorden goed geraden).
De slimme poging (De Transformer): Ze gebruikten een veel slimmere AI die naar de hele lijst van experts keek, niet alleen per woord, maar als een verhaal. Deze AI zag patronen: "Als Expert 3 en Expert 12 samen werken, betekent dat bijna altijd dat het woord 'appels' of 'auto's' was."
- Het resultaat: Deze slimme AI kon 91% van de woorden perfect raden, en zelfs 94% als je de top-10 beste gokken mocht nemen.

De analogie: Het is alsof je een film ziet, maar alleen de schaduwen van de acteurs op de muur. Normaal denk je: "Dat is niet genoeg om de film te zien!" Maar deze paper zegt: "Nee, als je goed kijkt naar de schaduwen, kun je de hele film bijna perfect reconstrueren."

3. Hoe kan een hacker dit zien? (De "Lekkage")

Je vraagt je misschien af: "Wie ziet die lijst met experts dan?" De paper noemt een paar situaties waar dit kan gebeuren:

Verdeeld werken: Als de AI over meerdere computers werkt (bijvoorbeeld in de cloud), kan een kwaadaardige computer die een deel van het werk doet, zien welke experts er worden aangeroepen.
Stroomverbruik: Net zoals je kunt horen of iemand in huis loopt door het geluid van de vloer, kunnen hackers soms zien welke "experts" actief zijn door te meten hoeveel stroom de computer trekt of hoe snel de koelventilatoren draaien.
Interne logs: Soms houden bedrijven logs bij van wat er gebeurt binnen hun systemen. Als die logs niet goed beveiligd zijn, kan een hacker zien welke experts er werden gekozen.

4. Wat betekent dit voor ons?

De boodschap is helder: De keuze van de experts is net zo geheim als de tekst zelf.

Tot nu toe dachten mensen: "Ah, de tekst is versleuteld, maar de route die het neemt is niet belangrijk." Deze paper zegt: "Fout! Die route is een open boek."

5. Kan je er iets aan doen? (De "Verdediging")

De onderzoekers geven een paar tips om dit te voorkomen, net zoals je een huis beveiligt:

Verberg de route: Zorg dat niemand kan zien welke experts er worden gekozen. Behandel die informatie als geheim.
Voeg ruis toe: Net als wanneer je in een drukke kamer praat zodat niemand je verstaat, kun je de AI een beetje "verwarren" door willekeurige experts toe te voegen. Dit maakt het voor de hacker veel moeilijker om de tekst te raden, hoewel het de AI iets langzamer maakt.
Bescherm de hardware: Zorg dat hackers niet kunnen meten hoeveel stroom de computer verbruikt of hoe snel de koeling draait.

Conclusie

Deze paper is een wake-up call voor de AI-wereld. Het laat zien dat zelfs als je de inhoud van je berichten goed beschermt, de manier waarop de AI die berichten verwerkt (de "route" die het neemt), genoeg informatie kan lekken om je geheime berichten te reconstrueren.

Het is alsof je je geheimen in een kluis stopt, maar de sleutel (de lijst met experts) op de voordeur hangt. Zolang de sleutel zichtbaar is, is de kluis niet veilig.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Expert Selections in MoE Models Reveal (Almost) as Much as Text", geschreven in het Nederlands.

Titel: Expert Selections in MoE Models Reveal (Almost) as Much as Text

Conferentie: ICLR 2026 Workshop: Principled Design for Trustworthy AI
Auteurs: Amir Nuriyev (MBZUAI) en Gabriel Kulp (RAND, Oregon State University)

1. Het Probleem

Mixture-of-Experts (MoE) modellen zijn een populaire architectuur voor grote taalmodellen (LLMs) omdat ze berekeningen efficiënter maken door slechts een subset van parameters (experts) per token te activeren. Hoewel dit de prestaties verbetert, introduceert het een nieuw privacyrisico: de routeringsbeslissingen (welke experts worden geselecteerd voor welk token).

De auteurs tonen aan dat deze routeringsinformatie, die vaak als een intern, secundair signaal wordt beschouwd, voldoende informatie bevat om de onderliggende tekst (tokens) te reconstrueren. Dit vormt een ernstig privacylek, vooral in scenario's waar routeringsdata toevallig of via zijkanalen (side channels) zichtbaar wordt voor een aanvaller.

2. Methodologie

De studie presenteert een tekst-reconstructie-aanval die uitsluitend gebruikmaakt van de selectie van experts door de router.

Bedreigingsmodel:
- De aanvaller observeert alleen de geselecteerde experts voor elke token op één of meer lagen van het model.
- De aanvaller heeft geen toegang tot router-logits, gewichten, verborgen staten of expert-uitvoer.
- De aanvaller kent de tokenizer en de MoE-configuratie (aantal experts, $k$ ).
- De aanvaller kan trainingsparen "(tekst, expert-selectie trace)" verzamelen (bijv. via een instrumenteerd model of interne logs).
Aanvalsarchitectuur:
De auteurs vergelijken twee benaderingen voor het decoderen van de expert-selecties terug naar tekst:
1. Single-token MLP: Een 3-laags Multi-Layer Perceptron dat probeert elk token onafhankelijk te voorspellen op basis van de bijbehorende expert-selectie.
2. Sequence Decoder (Transformer): Een encoder-only transformer die de volledige reeks expert-selecties (voor een sequentie van tokens) simultaan verwerkt. Dit model maakt gebruik van contextuele afhankelijkheden tussen tokens.
Dataset en Training:
- Gebruikt: OpenWebText (100 miljoen tokens voor training, 10 miljoen voor validatie).
- Model: gpt-oss-20b (32 experts, top-4 routing, 24 lagen).
- De training bestaat uit het minimaliseren van de negatieve log-likelihood om een decoder $p_\theta(x_{1:T} | I)$ te leren, waarbij $I$ de routeringstrace is.

3. Belangrijkste Resultaten

De resultaten tonen aan dat expert-selecties een zeer hoge informatie-inhoud hebben, bijna gelijk aan de tekst zelf.

Reconstructie-accuraatheid:
- MLP-baseline: Bereikt 63,1% top-1 nauwkeurigheid (84,3% top-10).
- Transformer Sequence Decoder: Bereikt 91,2% top-1 nauwkeurigheid en 94,8% top-10 nauwkeurigheid op 32-token sequenties.
- Dit is een aanzienlijke verbetering ten opzichte van eerdere werken die logistieke regressie gebruikten (die slechts beperkte reconstructie mogelijk maakten).
Informatie-analyse:
- De auteurs berekenden de entropie van de routeringskeuzes. Hoewel de theoretische bovengrens hoog is (~363 bits per token), is de effectieve entropie lager door correlaties tussen lagen.
- De analyse toont aan dat bepaalde lagen (rond laag 11) minder wederzijdse informatie hebben met andere lagen, wat suggereert dat er verschillende "routeringsregimes" bestaan.
- De nauwkeurigheid neemt af naarmate de frequentie van een token in de dataset lager is, maar blijft zelfs voor zeldzame tokens significant.
Robuustheid:
- Zelfs bij het toevoegen van ruis (waarbij een fractie van de expert-selecties willekeurig wordt vervangen), daalt de nauwkeurigheid, maar wordt de reconstructie niet volledig onmogelijk gemaakt.

4. Aanvalsoppervlakken (Attack Surfaces)

Het paper identificeert praktische scenario's waarin deze data kan lekken:

Gedistribueerde inferentie: Een kwaadaardige host-machine in een cluster kan de routeringsdata zien die tussen machines of processen wordt uitgewisseld.
Fysieke zijkanalen: Via energieverbruik, elektromagnetische emissies of GPU-performance counters kan een aanvaller afleiden welke experts actief zijn.
Pipeline-parallelisme: Als experts over verschillende GPU's zijn verspreid, kan een aanvaller door activiteit op specifieke GPU's te monitoren, de geselecteerde experts afleiden.

5. Significantie en Implicaties

Privacyrisico: De bevindingen suggereren dat expert-selecties in MoE-implementaties even gevoelig moeten worden behandeld als de onderliggende tekst zelf. Het blootstellen van routeringsdata kan leiden tot het onthullen van gevoelige prompts, API-sleutels of persoonlijke informatie.
Verband met Embedding Inversion: De studie verbindt MoE-routering met het bredere veld van "embedding inversion", waarbij discrete, laag-breedte signalen worden gebruikt om semantische inhoud te reconstrueren.
Mitigatie:
- Beperken van blootstelling: Routeringsdata mag niet worden gelogd of teruggegeven aan gebruikers, tenzij de tokens zelf ook als gevoelig worden behandeld.
- Ruis toevoegen: Het introduceren van ruis in de routering of het toevoegen van dummy-berekeningen kan de reconstructie bemoeilijken, maar elimineert het risico niet volledig.
- Hardware-beveiliging: Het afschermen van fysieke zijkanalen en het isoleren van co-residente werklasten.

Conclusie

Dit paper waarschuwt dat de efficiëntie van MoE-modellen een nieuw privacy-veiligheidsprobleem introduceert. De keuze van experts fungeert als een krachtige "discrete embedding" die, zelfs zonder toegang tot de modelgewichten of hidden states, bijna volledige reconstructie van de invoer toestaat. De auteurs pleiten voor een fundamentele heroverweging van hoe routeringsinformatie in productieomgevingen wordt beschermd.

Expert Selections In MoE Models Reveal (Almost) As Much As Text

1. Het Grote Geheim: De "Postbode" Lekt

2. Hoe werkt de aanval? (De "Reconstructie")

3. Hoe kan een hacker dit zien? (De "Lekkage")

4. Wat betekent dit voor ons?

5. Kan je er iets aan doen? (De "Verdediging")

Conclusie

Titel: Expert Selections in MoE Models Reveal (Almost) as Much as Text

1. Het Probleem

2. Methodologie

3. Belangrijkste Resultaten

4. Aanvalsoppervlakken (Attack Surfaces)

5. Significantie en Implicaties

Conclusie

Meer zoals dit

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance