Expert Selections In MoE Models Reveal (Almost) As Much As Text

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, ein riesiges, superintelligentes Gehirn (ein KI-Modell) liest einen Text und muss ihn verstehen. Um das effizient zu tun, ist dieses Gehirn nicht aus einem einzigen Block gebaut, sondern aus vielen kleinen Spezialisten, den sogenannten „Experten".

Das ist wie in einem riesigen Bürogebäude mit hunderten von Abteilungen. Wenn ein Mitarbeiter (ein Wort aus dem Text) hereinkommt, entscheidet ein Türsteher (der „Router"), welche 4 Abteilungen (die „Experten") diesen Mitarbeiter bearbeiten sollen. Der Rest des Gebäudes bleibt in Ruhe. Das spart Energie und Zeit.

Das Problem:
Die Forscher aus diesem Papier haben entdeckt, dass dieser Türsteher ein riesiges Geheimnis verrät. Nur weil man sieht, welche 4 Abteilungen gerade aktiv waren, kann man fast den gesamten Text rekonstruieren, der den Mitarbeiter begleitet hat.

Hier ist die einfache Erklärung der wichtigsten Punkte:

1. Der Trick: Die „Türsteher-Liste"

Normalerweise denken wir, dass nur der Inhalt des Textes geheim ist. Aber die Forscher haben gezeigt: Die Liste der aktivierten Abteilungen ist fast genauso wertvoll wie der Text selbst.

Die Analogie: Stell dir vor, du hörst nur, welche Lichter in einem dunklen Haus angeknipst werden. Wenn du genau weißt, welche 4 Zimmer in einem 32-Zimmer-Haus beleuchtet sind, kannst du mit ziemlicher Sicherheit erraten, was in diesen Zimmern passiert.
Das Ergebnis: Mit einer einfachen Methode (einem kleinen Computer-Programm) konnten die Forscher 63 % der Wörter nur anhand dieser Lichter-Liste erraten. Mit einer clevereren Methode (einem modernen KI-Decoder) schafften sie es, 91 % der Wörter exakt zu erraten. Das ist, als würdest du ein Buch lesen, indem du nur die Schatten an der Wand betrachtest.

2. Wie funktioniert der Angriff?

Die Forscher haben ein eigenes KI-Modell trainiert, das wie ein Detektiv arbeitet.

Der Fall: Der Detektiv bekommt eine Liste: „Wort 1: Experten A, B, C, D. Wort 2: Experten B, E, F, G..."
Die Lösung: Das trainierte Modell sagt: „Aha! Diese Kombination von Experten kommt nur vor, wenn das Wort 'Hund' steht. Und diese hier passt nur zu 'läuft'."
Es ist wie ein riesiges Puzzle. Jedes Wort hat einen einzigartigen „Fingerabdruck" aus Experten-Kombinationen. Das Modell hat gelernt, diesen Fingerabdruck zurück in das Wort zu übersetzen.

3. Wo kann das passieren? (Die unsicheren Türen)

Warum sollte jemand diese Liste sehen? Das passiert in der echten Welt oft unbemerkt:

Verteilte Arbeit: Wenn das KI-Modell auf vielen verschiedenen Computern gleichzeitig rechnet (wie ein Team, das über mehrere Gebäude verteilt arbeitet), könnte ein böswilliger Computer im Team sehen, welche Teile der Arbeit gerade erledigt werden, und daraus den Text ableiten.
Physische Spuren: Selbst wenn die Daten verschlüsselt sind, könnte ein Hacker messen, wie viel Strom ein Computer zieht oder wie laut er summt. Bestimmte Experten brauchen mehr Strom. Wenn man hört, welche „Maschinen" laut werden, kann man erraten, welche Experten aktiv sind.

4. Was bedeutet das für uns?

Die Botschaft ist klar: Die Wahl der Experten ist ein Geheimnis.
Bisher haben sich Firmen nur darum gekümmert, dass der Text nicht gestohlen wird. Jetzt wissen wir, dass auch die Entscheidung, welche Experten arbeiten, geschützt werden muss.

Wie schützt man sich?

Nicht verraten: Firmen sollten nicht protokollieren, welche Experten gerade arbeiten, es sei denn, sie behandeln diese Liste genauso streng wie den Text selbst.
Rauschen hinzufügen: Man könnte absichtlich ein bisschen „Lärm" erzeugen. Zum Beispiel zufällig einen Experten hinzufügen oder weglassen, damit die Liste ungenau wird. Das macht es für den Angreifer schwerer, aber nicht unmöglich.
Verschleierung: Man könnte die Arbeit so verteilen, dass man nicht mehr sieht, wer genau was macht (z. B. durch ständige Umverteilung der Aufgaben).

Fazit

Dieses Papier warnt uns davor, dass die „inneren Entscheidungen" einer KI genauso sensibel sind wie die Antworten, die sie gibt. Wenn du einem KI-Modell ein Geheimnis anvertraust, ist es nicht sicher, nur weil der Text verschlüsselt ist. Wenn jemand sehen kann, welche Teile des Gehirns dabei aktiv waren, kann er das Geheimnis fast genauso gut lesen wie du selbst.

Es ist ein bisschen so, als würdest du ein geheimes Dokument in einem Büro verteilen. Wenn jemand nur sieht, welche 4 Mitarbeiter das Dokument in die Hand nehmen, kann er oft schon erraten, worum es geht – selbst wenn er das Dokument selbst nie zu Gesicht bekommt.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Expert Selections in MoE Models Reveal (Almost) as Much as Text" für den ICLR 2026 Workshop, auf Deutsch:

Titel: Expert Selections in MoE Models Reveal (Almost) as Much as Text

Autoren: Amir Nuriyev (MBZUAI), Gabriel Kulp (RAND, Oregon State University)
Kontext: ICLR 2026 Workshop: Principled Design for Trustworthy AI

1. Problemstellung

Mixture-of-Experts (MoE) Modelle sind eine Schlüsselarchitektur für effiziente Large Language Models (LLMs), da sie nur eine Teilmenge der Parameter pro Token aktivieren. Die Routing-Entscheidung (welche Experten für ein Token ausgewählt werden) wird jedoch oft als internes Detail betrachtet.
Die Autoren zeigen, dass diese Experten-Auswahlentscheidungen (Expert Selections) eine signifikante Informationslecks darstellen. Selbst ohne Zugriff auf die eigentlichen Textdaten, Hidden States oder Logits kann ein Angreifer, der nur die Routing-Traces (welche Experten für welche Tokens aktiviert wurden) beobachtet, den ursprünglichen Text mit hoher Genauigkeit rekonstruieren. Dies stellt eine neue Bedrohung für die Privatsphäre in MoE-Deployments dar, insbesondere in verteilten Umgebungen oder bei Side-Channel-Angriffen.

2. Methodik und Angriffsvektoren

Threat Model (Bedrohungsmodell):

Beobachtetes Signal: Der Angreifer sieht nur die Indexe der ausgewählten Experten für jedes Token in einer oder mehreren Schichten.
Nicht verfügbar: Logits, Gewichte, Hidden States oder Ausgaben der Experten.
Voraussetzungen: Kenntnis des Tokenizers und der MoE-Konfiguration (z. B. Anzahl der Experten $n$ , Top- $k$ Routing).
Lernphase: Der Angreifer trainiert einen Decoder auf Paaren aus „(Text, Experten-Trace)", die von einem Modell derselben Familie oder aus internen Logs stammen.

Angriffsflächen (Attack Surfaces):
Die Autoren identifizieren praktische Szenarien, in denen diese Traces abgefangen werden können:

Verteilte Inferenz: Ein bösartiger Host, der einen Teil des Modells (Experten) ausführt, sieht die Routing-Entscheidungen.
Physische Side-Channels: Messungen von Stromverbrauch oder elektromagnetischer Abstrahlung können Rückschlüsse auf die Aktivität spezifischer Experten zulassen.
Pipeline-Parallelismus: Wenn Experten auf verschiedene GPUs verteilt sind, kann die Aktivität bestimmter GPUs die zugrunde liegenden Experten identifizieren.

Decoding-Ansätze:
Die Autoren vergleichen zwei Ansätze zur Rekonstruktion des Textes aus den Experten-Indices:

Single-Token MLP: Ein 3-Schichten-MLP, der jeden Token unabhängig basierend auf dessen Experten-Trace vorhersagt.
Sequence Decoder (Transformer): Ein Encoder-only Transformer, der die gesamte Sequenz der Experten-Traces (über alle Schichten) gemeinsam verarbeitet, um Abhängigkeiten zwischen Token-Positionen zu nutzen.

3. Wichtige Ergebnisse

Die Experimente wurden mit dem Modell gpt-oss-20b (32 Experten, Top-4 Routing, 24 Schichten) und dem Datensatz OpenWebText durchgeführt.

MLP-Baseline: Ein einfacher 3-Schichten-MLP erreicht eine Top-1-Genauigkeit von 63,1 % bei der Vorhersage einzelner Tokens.
Sequence Decoder (State-of-the-Art): Der Transformer-basierte Sequenz-Decoder übertrifft den MLP deutlich. Er erreicht:
- 91,2 % Top-1-Genauigkeit
- 94,8 % Top-10-Genauigkeit
- Dies wurde auf einer 10-Millionen-Token-Holdout-Schicht erreicht, trainiert mit 100 Millionen Token.
Datenmenge: Die Genauigkeit skaliert gut mit der Trainingsmenge, zeigt aber auch bei geringeren Datenmengen noch signifikante Leistung.
Einfluss der Token-Häufigkeit: Häufige Tokens werden deutlich besser rekonstruiert als seltene (High-Entropy) Tokens, wobei die Top-10-Genauigkeit auch für seltenere Tokens noch hoch bleibt.
Rauschen und Robustheit: Die Einführung von Rauschen (zufälliges Ersetzen von Experten-Indices) reduziert die Genauigkeit, eliminiert die Rekonstruktion aber nicht vollständig. Selbst bei 30–40 % Rauschanteil bleibt eine signifikante Rekonstruktionsfähigkeit bestehen.

4. Informationsanalyse

Entropie: Die Autoren analysieren die Entropie der Experten-Auswahlen pro Schicht. Die Summe der Entropie über alle 24 Schichten ergibt eine obere Schranke von ca. 363 Bits pro Token (theoretisches Maximum), wobei die effektive Entropie aufgrund von Korrelationen zwischen Schichten niedriger ist.
Schicht-Information: Frühe Schichten (1–7) zeigen hohe gegenseitige Information (Redundanz), während mittlere Schichten (um Schicht 11) weniger redundant sind und unterschiedliche Routing-Muster aufweisen.
Vergleich mit Embedding-Inversion: Experten-Auswahlen fungieren als diskrete, niedrigbandbreite „Embeddings", die dennoch genügend semantische und lexikalische Informationen enthalten, um Text zu rekonstruieren.

5. Gegenmaßnahmen (Mitigations)

Da Experten-Auswahlen als sensibel wie der Text selbst behandelt werden sollten, schlagen die Autoren folgende Maßnahmen vor:

Datenschutz: Experten-Indices sollten nicht geloggt, exportiert oder an unsichere Hosts weitergegeben werden.
Engineering-Maßnahmen:
- Ausbalancierung der Workloads und Speicherzugriffsmuster, um die Unterscheidbarkeit der Experten-Ausführung zu reduzieren.
- Hinzufügen von Dummy-Berechnungen oder konstantem Workload-Padding.
- Einführung von Rauschen in die Routing-Entscheidungen (z. B. Logit-Rauschen) oder periodisches Permutieren der Experten-Identitäten.
- Abschirmung gegen physische Side-Channels und Deaktivierung feingranularer Performance-Counter.

6. Bedeutung und Fazit

Diese Arbeit stellt einen Paradigmenwechsel in der Sicherheitsbetrachtung von MoE-Modellen dar. Sie zeigt, dass Routing-Entscheidungen keine harmlosen Metadaten sind, sondern eine direkte Quelle für Text-Rekonstruktion darstellen.

Implikation: In verteilten Systemen oder Cloud-Umgebungen, wo Experten auf verschiedenen Knoten laufen, ist die Privatsphäre der Nutzer gefährdet, selbst wenn der eigentliche Text verschlüsselt bleibt.
Beitrag: Die Studie verbindet die Literatur zu Embedding-Inversion mit MoE-Sicherheit und liefert praktische Beweise für die Notwendigkeit, Routing-Traces als vertrauliche Daten zu behandeln.
Einschränkungen: Die Ergebnisse basieren auf kurzen Sequenzen (32 Tokens) und einem spezifischen Modell. Die Skalierbarkeit auf sehr lange Kontexte und die Transferierbarkeit auf andere Modellfamilien wurden nicht vollständig untersucht.

Zusammenfassend warnen die Autoren davor, dass MoE-Implementierungen ohne entsprechende Schutzmaßnahmen (wie Rauschen oder Isolation) ein erhebliches Risiko für die Offenlegung privater Eingaben (Prompts) bergen.

Expert Selections In MoE Models Reveal (Almost) As Much As Text

1. Der Trick: Die „Türsteher-Liste"

2. Wie funktioniert der Angriff?

3. Wo kann das passieren? (Die unsicheren Türen)

4. Was bedeutet das für uns?

Fazit

Titel: Expert Selections in MoE Models Reveal (Almost) as Much as Text

1. Problemstellung

2. Methodik und Angriffsvektoren

3. Wichtige Ergebnisse

4. Informationsanalyse

5. Gegenmaßnahmen (Mitigations)

6. Bedeutung und Fazit

Mehr davon

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance