Who Benchmarks the Benchmarks? A Case Study of LLM Evaluation in Icelandic

Each language version is independently generated for its own context, not a direct translation.

🧐 Die Geschichte vom „Irischen Sprach-Test"

Stellen Sie sich vor, Sie wollen herausfinden, wie gut ein neuer, super-intelligenter Roboter (ein sogenanntes KI-Modell) die isländische Sprache beherrscht. Dazu braucht man einen Test, einen sogenannten Benchmark.

Das Problem: Isländisch ist eine „kleine" Sprache. Es gibt nicht so viele Bücher, Zeitungen oder Texte davon wie für Englisch. Deshalb haben die Ersteller der Tests oft keine Zeit oder kein Geld, um alles selbst zu schreiben.

Was tun sie dann?
Sie nehmen einen perfekten Test auf Englisch und lassen ihn von einer Übersetzungs-KI (wie Google Translate oder einer modernen KI) ins Isländische übersetzen. Oder sie lassen die KI einfach neue Fragen erfinden.

Das ist wie beim Kochen:
Stellen Sie sich vor, Sie wollen ein Gericht für Isländer kochen. Aber Sie können nicht kochen und sprechen kein Isländisch. Also nehmen Sie ein Rezept aus einem englischen Kochbuch und lassen es von einem Roboter übersetzen.

Das Ergebnis? Der Roboter übersetzt „Butter" vielleicht korrekt, aber bei speziellen isländischen Zutaten oder kulturellen Begriffen macht er Fehler. Vielleicht steht da plötzlich „Truthahn" (das Tier) statt „Tyrkland" (das Land), oder ein berühmter isländischer Philosoph wird zu einem völlig fremden Namen.

🔍 Was haben die Forscher in diesem Papier gemacht?

Die Autoren (ein Team aus Isländern und einem Schweizer) haben sich angesehen, welche Tests aktuell für Isländisch verwendet werden, um KI zu bewerten. Sie haben sich gefragt: „Wer hat eigentlich diese Tests erstellt? Und haben sie sie überprüft?"

Sie haben eine Art „Qualitätskontrolle" durchgeführt. Sie haben sich zufällige Fragen aus diesen Tests herausgepickt und von muttersprachlichen Isländern prüfen lassen.

Das Ergebnis war erschreckend:

Die „Roboter-Übersetzungen" sind voller Fehler:
Viele Tests, die automatisch übersetzt wurden, enthalten Fragen, die keinen Sinn ergeben, falsche Fakten haben oder grammatikalisch falsch sind.
- Beispiel: Ein Test fragte nach einem Paar, das einen Sohn namens „Sigurjón" hatte. Aber der Name stand gar nicht im Text, und die Antwort war völlig falsch.
- Beispiel: In einem anderen Test wurde ein wissenschaftlicher Begriff falsch übersetzt, sodass die Frage für einen Isländer unsinnig war.
Die „Menschlichen" Tests sind besser:
Die Tests, die von echten Isländern geschrieben oder von Menschen sorgfältig geprüft und korrigiert wurden, waren fast fehlerfrei.
Das große Missverständnis:
Wenn eine KI auf diesen fehlerhaften Tests „gut" abschneidet, heißt das nicht, dass sie Isländisch kann. Sie hat vielleicht nur gelernt, die Fehler des Tests zu erkennen oder zufällig die richtige Antwort zu raten, weil die Frage so schlecht gestellt war. Es ist wie bei einem Schüler, der eine Mathe-Arbeit schreibt, bei der die Aufgaben falsch sind. Wenn er die falsche Antwort gibt, weil die Aufgabe falsch war, ist das keine gute Leistung.

🚨 Warum ist das ein Problem?

Stellen Sie sich vor, Sie bauen ein Auto und testen es auf einer Rennstrecke, die voller Löcher und falscher Schilder ist.

Wenn das Auto über die Löcher stolpert, sagen Sie: „Das Auto ist schlecht!"
Aber vielleicht ist das Auto gut, nur die Strecke war kaputt.

Wenn wir KI-Modelle mit solchen fehlerhaften Tests bewerten, passieren zwei Dinge:

Wir denken, die KI ist besser (oder schlechter), als sie wirklich ist.
Noch schlimmer: Die KI lernt aus diesen Tests. Wenn wir KI-Modelle mit fehlerhaften Daten trainieren, werden sie diese Fehler lernen und in der Zukunft noch mehr Unsinn produzieren. Das nennt man einen „Teufelskreis".

💡 Die wichtigsten Lehren (in einfachen Worten)

Die Autoren geben drei wichtige Ratschläge für die Zukunft, besonders für kleine Sprachen wie Isländisch:

Keine blinden Übersetzungen: Übersetzen Sie Tests nicht einfach per Knopfdruck von Englisch auf eine andere Sprache. Das funktioniert nicht gut.
Menschen müssen mitreden: Muttersprachler müssen die Tests schreiben oder zumindest prüfen. Ein KI-Test ohne menschliche Kontrolle ist wie ein Haus ohne Fundament.
Qualität vor Quantität: Es ist besser, einen kleinen, perfekten Test zu haben, als einen riesigen Haufen von Tests, die voller Fehler stecken.

🎯 Fazit

Die Überschrift des Papers fragt: „Wer prüft die Prüfer?"
Die Antwort lautet: Niemand.

Bisher haben sich viele darauf verlassen, dass KI-Tests automatisch funktionieren. Dieses Papier zeigt: Das ist gefährlich. Bevor wir KI bewerten, müssen wir sicherstellen, dass unsere Tests selbst korrekt sind. Sonst bewerten wir nicht die Intelligenz der KI, sondern nur die Qualität unserer schlechten Übersetzungen.

Kurz gesagt: Man kann nicht messen, wie gut jemand Isländisch spricht, wenn man ihm eine Frage stellt, die in Isländisch gar keinen Sinn ergibt. Und das passiert aktuell viel zu oft.

Who Benchmarks the Benchmarks? A Case Study of LLM Evaluation in Icelandic

🧐 Die Geschichte vom „Irischen Sprach-Test"

🔍 Was haben die Forscher in diesem Papier gemacht?

🚨 Warum ist das ein Problem?

💡 Die wichtigsten Lehren (in einfachen Worten)

🎯 Fazit

1. Problemstellung

2. Methodik

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Schlussfolgerungen

Who Benchmarks the Benchmarks? A Case Study of LLM Evaluation in Icelandic

🧐 Die Geschichte vom „Irischen Sprach-Test"

🔍 Was haben die Forscher in diesem Papier gemacht?

🚨 Warum ist das ein Problem?

💡 Die wichtigsten Lehren (in einfachen Worten)

🎯 Fazit

1. Problemstellung

2. Methodik

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Schlussfolgerungen

Mehr davon

Caption First, VQA Second: Knowledge Density, Not Task Format, Drives Multimodal Scaling

WorkRB: A Community-Driven Evaluation Framework for AI in the Work Domain

Text-as-Signal: Quantitative Semantic Scoring with Embeddings, Logprobs, and Noise Reduction

A Multi-Model Approach to English-Bangla Sentiment Classification of Government Mobile Banking App Reviews

KMMMU: Evaluation of Massive Multi-discipline Multimodal Understanding in Korean Language and Context