Mapping Overlaps in Benchmarks through Perplexity in the Wild

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache Erklärung der Forschung, als würde man sie einem Freund beim Kaffee erzählen – ohne Fachchinesisch, aber mit ein paar bildhaften Vergleichen.

Das große Problem: Zu viele Prüfungen, zu wenig Klarheit

Stell dir vor, du bist ein Lehrer und möchtest herausfinden, wie gut deine Schüler (die KI-Modelle) sind. Du hast aber ein riesiges Problem: Es gibt Tausende von verschiedenen Prüfungen (Benchmarks).

Eine Prüfung testet Mathe.
Eine andere testet Logik.
Eine dritte testet, ob die KI Anweisungen befolgt.

Das Problem ist: Viele dieser Prüfungen sind sich eigentlich sehr ähnlich, auch wenn sie anders aussehen. Es ist, als würdest du deinem Schüler drei verschiedene Mathe-Tests geben, die alle nur das gleiche kleine Thema abfragen. Oder du gibst ihm einen Mathe-Test, der aber eigentlich nur prüft, ob er gut lesen kann, nicht ob er rechnen kann.

Die Forscher fragen sich: Müssen wir wirklich so viele Prüfungen machen? Wo überschneiden sie sich wirklich? Und welche Fähigkeiten testen sie wirklich?

Die Lösung: Der "Fingerabdruck" der KI

Bisher haben die Forscher auf zwei Arten geschaut:

Semantik (Der Inhalt): Sind die Fragen ähnlich? (Wie zwei Texte, die sich ähnlich anhören).
Leistung (Das Ergebnis): Haben die KI-Modelle bei beiden Prüfungen ähnlich gut abgeschnitten?

Das Problem dabei:

Die Inhalte sehen oft ähnlich aus, testen aber unterschiedliche Dinge.
Die Ergebnisse sind oft hochkorreliert, aber nur, weil die KI den Fragestil (z. B. Multiple Choice) gelernt hat, nicht die eigentliche Fähigkeit.

Die neue Idee der Forscher: Der "Benchmark-Fingerabdruck" (Benchmark Signature).

Stell dir vor, jede KI hat einen unsichtbaren "Fingerabdruck" in ihrer Ausbildung. Dieser Fingerabdruck besteht aus bestimmten Wörtern und Wortmustern, die sie in ihren Trainingsdaten (dem ganzen Internet, Zeitungen, Code, Büchern) gesehen hat.

Die Forscher haben eine geniale Methode entwickelt:
Sie schauen nicht auf die Prüfungsfragen selbst, sondern auf wie verwirrt die KI bei bestimmten Wörtern im Internet ist.

Die Analogie: Stell dir vor, du trainierst einen Hund. Wenn du ihm beibringst, "Sitz" zu machen, reagiert er auf das Wort "Sitz". Wenn du aber "Bleib" sagst, ist er verwirrt.
Die Forscher nehmen jetzt Tausende von Wörtern aus dem echten Internet (nicht aus den Prüfungen!). Sie schauen sich an: Wie sicher ist die KI bei diesen Wörtern?
- Ist die KI bei einem Wort sehr sicher (niedrige "Perplexität")? Dann hat sie das Muster oft gesehen.
- Ist sie unsicher (hohe "Perplexität")? Dann ist das ein neues oder seltenes Muster für sie.

Sie finden heraus: Bestimmte Wörter im Internet sind wie ein Schlüssel. Wenn eine KI bei diesen speziellen Wörtern sicher ist, dann schneidet sie auch bei bestimmten Prüfungen (z. B. Mathe oder Logik) gut ab.

Diese Gruppe von "Schlüsselwörtern" nennen sie die Signatur.

Was haben sie herausgefunden? (Die Überraschungen)

Als sie diese Fingerabdrücke verglichen, kamen Dinge ans Licht, die man mit bloßem Auge nicht gesehen hätte:

Logik und Mathe sind beste Freunde:
Die Signatur von Logik-Tests und Mathe-Tests ist fast identisch. Das bedeutet: Um Mathe zu lösen, braucht die KI fast die gleichen "Wort-Muster" wie für Logik. Sie hängen stark zusammen.
Programmieren ist der Einsiedler:
Die Signatur für Programmieren (Coding) sieht völlig anders aus als bei allen anderen Fähigkeiten. Sie hat kaum Überschneidungen mit Logik oder Sprache. Das liegt daran, dass Programmieren sehr spezifische Daten (wie GitHub-Code) braucht, die in normalen Texten selten sind. Es ist eine ganz eigene Welt.
Kultur und Wissen sind weit voneinander entfernt:
Tests über Geschichte, Kunst oder kulturelle Nuancen haben sehr unterschiedliche Fingerabdrücke. Eine KI, die gut in US-Geschichte ist, muss nicht automatisch gut in japanischer Kultur sein.
Der "Format-Trick" entlarvt:
Früher dachten Forscher: "Oh, die KI macht bei MMLU-Historie und MMLU-Chemie beide gut mit, also sind die Tests ähnlich."
Aber die Signatur zeigt: Nein! Die Ähnlichkeit kam nur daher, dass beide Tests den gleichen Fragestil (Multiple Choice) hatten. Wenn man den "Format-Trick" herausfiltert, sieht man, dass Geschichte und Chemie eigentlich gar nichts miteinander zu tun haben. Die Signatur ist also wie ein Röntgenbild, das den echten Knochen (die Fähigkeit) zeigt, während das Fleisch (der Fragestil) unsichtbar bleibt.

Warum ist das wichtig?

Bessere Tests: Wir können jetzt sehen, welche Prüfungen wirklich neu sind und welche nur das Gleiche in anderer Verpackung testen.
Verständnis der KI: Wir lernen, wie die KI die Welt "denkt". Sie denkt nicht wie ein Mensch (der Konzepte wie "Logik" und "Mathe" trennt), sondern eher in statistischen Mustern von Wörtern.
Zukunft: Anstatt immer neue, schwierigere Prüfungen zu erfinden, können wir jetzt gezielt Lücken schließen. Wenn wir sehen, dass "Programmieren" isoliert ist, wissen wir, dass wir dort mehr Trainingsdaten brauchen.

Zusammenfassung in einem Satz

Die Forscher haben eine neue Art von "Röntgenbild" für KI-Tests entwickelt, das durch die Analyse von Wörtern im echten Internet zeigt, welche Fähigkeiten wirklich zusammenhängen und welche Tests sich nur täuschen lassen – und damit hilft, die KI-Landschaft endlich klar zu verstehen.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Mapping Overlaps in Benchmarks through Perplexity in the Wild" auf Deutsch:

1. Problemstellung

Die Landschaft der Benchmarks für Large Language Models (LLMs) wächst exponentiell an, wobei jährlich tausende neuer Evaluierungssätze veröffentlicht werden. Ein zentrales Problem ist jedoch unklar: Wie viel Überlappung (Overlap) existiert tatsächlich zwischen diesen Benchmarks?

Herausforderung: Oft ist ungewiss, ob Benchmarks wirklich unterschiedliche Fähigkeiten testen oder lediglich überlappende Fertigkeiten, spezifische Prompt-Heuristiken oder eng gefasste Proxies messen.
Limitationen bestehender Ansätze:
- Semantische Ähnlichkeit: Misst nur die Oberflächenähnlichkeit der Fragen (z. B. über Text-Embeddings), ignoriert aber die zugrundeliegenden Fähigkeiten.
- Leistungs-Korrelationen: Zeigen oft hohe Korrelationen zwischen Benchmarks, die jedoch durch „benchmark-orthogonale" Faktoren verzerrt sind (z. B. Frageformat wie Multiple-Choice vs. True/False oder Benchmark-Familien-Effekte), und nicht durch echte Fähigkeiten.

Die Autoren stellen die Frage: Gibt es eine robustere Methode, um die tatsächliche Überlappung von Modellfähigkeiten zu quantifizieren, die frei von diesen Verzerrungen ist?

2. Methodik: Benchmark-Signaturen

Die Kerninnovation des Papers ist die Einführung von Benchmark-Signaturen. Diese sind definiert als Mengen salienter (aussagekräftiger) Tokens aus großen, natürlichen Korpora („in-the-wild"), deren Token-Perplexität die Leistung von Modellen auf einem bestimmten Benchmark vorhersagt.

Der Prozess der Signatur-Extraktion:

Datenbasis: Nutzung von großen, natürlichen Korpora (RedPajama), die aus News, Foren, Code, Büchern etc. bestehen. Diese Daten spiegeln die Verteilung wider, aus der Fähigkeiten entstehen, und sind nicht für Benchmarks designed.
Perplexität als Proxy: Die Perplexität eines Modells auf einem Token im natürlichen Korpus dient als Maß für die „Vertrautheit" des Modells mit dem zugrundeliegenden Muster.
Zwei-Stufen-Regressions-Pipeline (Algorithmus 1 & 4):
- Stufe 1: Screening (Thrush Correlation): Da die Anzahl der Tokens ( $d \approx 8,45 \times 10^9$ ) die Anzahl der Modelle ( $m=32$ ) um Größenordnungen übersteigt, wird ein Sure Independence Screening (SIS) durchgeführt. Es wird eine robuste Korrelation (Thrush-Korrelation, eine Variante von Kendall's $\tau$ ) zwischen der Perplexität jedes Tokens und der Benchmark-Leistung berechnet. Nur die Top-1% der Tokens mit der stärksten Signalstärke werden behalten.
- Stufe 2: Forward Selection (AIC): Auf dem gefilterten Kandidatensatz wird eine schrittweise Vorwärtsselektion mit dem Akaike Information Criterion (AIC) angewendet. Dies entfernt redundante Features und identifiziert eine parsimonische (sparsame) Menge von Tokens, die die Benchmark-Leistung am besten erklärt.
Überlappungs-Messung: Die Überlappung zwischen zwei Benchmarks wird durch die Spearman-Korrelation der Perplexitäts-Profile ihrer jeweiligen Signaturen über ein Set von 32 Modellen berechnet.

3. Wichtige Beiträge

Systematisches Framework: Einführung eines dreistufigen Ansatzes zur Analyse von Benchmark-Beziehungen: Semantik, Leistung und die neu eingeführte Signatur-Ebene.
Robuste Signatur-Extraktion: Entwicklung einer Pipeline, die Token-Perplexitätsstatistiken aus natürlichen Daten nutzt, um prädiktive Fingerabdrücke für Benchmarks zu extrahieren, ohne direkte Evaluierung auf dem Benchmark selbst zu benötigen.
Aufdeckung unerwarteter Überlappungen: Die Studie zeigt, dass Benchmarks, die scheinbar unterschiedliche Fähigkeiten testen (z. B. Logik vs. Instruktionbefolgung), oft stark überlappen, während andere (z. B. Kultur-basierte Benchmarks) weniger ähnlich sind als erwartet.

4. Ergebnisse

Die Analyse umfasste 32 LLMs und 89 Benchmarks über diverse Domänen.

Diskriminierungsfähigkeit:
- Semantik: Zeigt nur eine enge, mittlere Überlappung (0,1–0,4) und unterscheidet kaum zwischen Kategorien.
- Leistung: Zeigt fast universell hohe Korrelationen, die stark durch Frageformate und Benchmark-Familien verzerrt sind (z. B. korrelieren MMLU-History und MMLU-Chemie stärker als zwei verschiedene History-Benchmarks).
- Signaturen: Bieten die stärkste Diskriminierungsfähigkeit. Sie zeigen eine klare Struktur: Benchmarks innerhalb derselben Fähigkeit (z. B. Mathematik und Logik) überlappen stark, während kulturelle Benchmarks untereinander weniger ähnlich sind.
Auflösung von Verzerrungen: Signaturen sind robust gegenüber „benchmark-orthogonalen" Faktoren wie Frageformaten (Multiple-Choice vs. True/False). Im Gegensatz zur Leistungsanalyse zeigen Signaturen keine signifikanten Unterschiede innerhalb von Familien/Formaten, was auf eine echte Erfassung der Fähigkeiten hindeutet.
Funktions-Überlappungen:
- Logik, Mathematik, Sprache und Weltwissen bilden einen Cluster miteinander verbundener Fähigkeiten.
- Coding ist die am stärksten isolierte Funktion und interagiert nur moderat mit der Fähigkeit, fehlende Informationen zu erkennen.
- Es gibt signifikante Überlappungen zwischen Logik und Instruktionbefolgung, was darauf hindeutet, dass viele „Logik"-Benchmarks in der Praxis eher Instruktionbefolgung testen.
Qualitative Analyse: Nur Signatur-Tokens für Wissens-Benchmarks (Knowledge) korrelieren semantisch mit dem tatsächlichen Inhalt (z. B. medizinische Begriffe). Bei abstrakten Fähigkeiten (Logik, fehlende Informationen) spiegeln die Tokens eher syntaktische Muster oder Diskursmarker wider als die eigentliche Fähigkeit, was auf eine Diskrepanz zwischen menschlichen Konzepten und LLM-Semantik hindeutet.

5. Bedeutung und Fazit

Validität von Benchmarks: Die Arbeit liefert ein Werkzeug, um die Validität von Benchmarks zu überprüfen. Sie zeigt, dass viele Benchmarks redundante Fähigkeiten messen oder durch Format-Bias verzerrt sind.
LLM-Fähigkeitsraum: Die Ergebnisse deuten auf einen hochvernetzten Raum von LLM-Fähigkeiten hin, der sich von der menschlichen konzeptionellen Struktur unterscheidet.
Zukunftsperspektive: Die Autoren schlagen eine „Benchmark-Algebra" vor, bei der Benchmarks durch ihre Signaturen zerlegt, kombiniert und verglichen werden können, um Lücken im Evaluierungsökosystem zu identifizieren und neue, gezieltere Benchmarks zu erstellen.
Reproduzierbarkeit: Der Code und die Daten wurden auf GitHub open-sourced, und die Methode ist auch mit begrenzten Rechenressourcen (durch Downsampling auf 1 Mrd. Tokens) replizierbar.

Zusammenfassend bietet das Paper einen paradigmatischen Wechsel von der reinen Leistungsbeobachtung hin zu einer tiefen Analyse der Verteilungs-Fingerabdrücke von Benchmarks in den Trainingsdaten der Modelle, um deren wahre Überlappung und Validität zu entschlüsseln.

Mapping Overlaps in Benchmarks through Perplexity in the Wild

Das große Problem: Zu viele Prüfungen, zu wenig Klarheit

Die Lösung: Der "Fingerabdruck" der KI

Was haben sie herausgefunden? (Die Überraschungen)

Warum ist das wichtig?

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik: Benchmark-Signaturen

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance