Who Benchmarks the Benchmarks? A Case Study of LLM Evaluation in Icelandic

Each language version is independently generated for its own context, not a direct translation.

🧊 Le Titre : « Qui vérifie les vérificateurs ? » (L'histoire du test de glace islandaise)

Imaginez que l'Islande est un petit village isolé au milieu d'un océan de données géantes, dominé par l'anglais. Les chercheurs veulent construire des tests (des examens) pour voir si les intelligences artificielles (les robots) parlent bien islandais.

Le problème ? Personne ne veut prendre le temps de créer ces tests à la main, c'est trop long et cher. Alors, ils utilisent une machine pour traduire les tests anglais existants ou pour inventer de nouvelles questions automatiquement.

Ce papier dit : « Attention ! On a vérifié ces tests islandais, et beaucoup sont pourris. »

🏗️ L'Analogie : Construire une maison avec des briques pourries

Pour comprendre le cœur du problème, imaginez que vous voulez construire une maison (l'IA) et que vous avez besoin de briques solides (les données d'entraînement et les tests).

La méthode humaine (Idéale) : Des maçons islandais natifs construisent les murs avec des briques qu'ils ont fabriquées eux-mêmes. Ils savent exactement où va chaque brique. C'est solide, c'est beau, et ça résiste au vent.
La méthode automatique (Le problème) : On prend des plans de maisons américaines (les tests anglais), on les passe dans un traducteur automatique, et on essaie de construire la maison islandaise avec ces plans traduits.
- Le résultat ? Parfois, le traducteur oublie que la pluie en Islande tombe différemment qu'au Nevada. Il met une fenêtre là où il faut un mur de pierre. Il traduit un mot scientifique par un mot qui n'existe pas.
- La conséquence : La maison semble debout sur le papier, mais dès qu'on y habite (qu'on utilise l'IA), elle s'effondre ou fait des choses bizarres.

🔍 Ce que les auteurs ont découvert (Le diagnostic)

Les auteurs ont pris une loupe et ont examiné les tests utilisés pour l'Islande. Ils ont trouvé deux types de problèmes majeurs :

1. La « Traduction Magique » qui rate tout

Quand on traduit un test d'anglais en islandais sans faire attention, ça donne des résultats absurdes.

Exemple drôle : Dans un test de lecture, une question demande de choisir entre des pays. La traduction automatique a mis le mot « kalkúnn » (qui veut dire dinde l'animal) au lieu de « Tyrkland » (la Turquie).
Exemple scientifique : Un test de physique demande de distinguer des organismes. La traduction a inventé un mot islandais qui n'existe pas pour dire « autotrophe ».
Le verdict : C'est comme si on demandait à un élève islandais de répondre à un examen de sciences américaines sur le désert du Nevada, traduit par un robot qui ne connaît pas la géographie islandaise. L'élève va échouer, non pas parce qu'il est bête, mais parce que le test est faux.

2. L'absence de natifs (Le problème du « ScaLA »)

Certains tests ont été créés par des experts qui ne parlent pas islandais. Ils ont pris des textes de l'parlement islandais (qui sont des transcriptions orales, avec des hésitations et des interruptions) et les ont utilisés pour tester la grammaire.

L'erreur : Ils ont marqué comme « fautes de grammaire » des choses qui sont normales à l'oral (comme un président qui sonne une cloche pendant un discours).
L'analogie : C'est comme si un expert en musique classique notait un concert de jazz en disant : « C'est faux, il n'y a pas de partition ! ». Le test ne mesure pas la compétence, il mesure la méconnaissance de la culture.

📉 Les Chiffres (La réalité en face)

Les auteurs ont fait un comptage précis :

Sur certains tests générés par IA ou traduits automatiquement, moins de 10 % des questions étaient correctes et utilisables.
Sur d'autres, comme le test HellaSwag, aucune question n'était valide. C'est comme un examen où toutes les questions sont illisibles.
À l'inverse, les tests créés ou vérifiés par des humains natifs (comme WinoGrande) étaient quasi parfaits.

💡 La Leçon à retenir

Ce papier est un appel à l'ordre pour les chercheurs du monde entier, surtout pour les langues moins connues (comme l'islandais, le basque, le quechua, etc.).

Les 3 règles d'or :

Arrêtez de tout traduire automatiquement : Si vous ne vérifiez pas le travail du robot, vous risquez de construire une IA qui parle une langue qui n'existe pas.
Impliquez les natifs : Il faut des humains qui parlent la langue pour valider les tests. C'est le seul moyen de s'assurer que le test a du sens culturellement.
Ne confondez pas « grand nombre » et « bonne qualité » : Avoir 10 000 questions générées par une machine ne vaut rien si 9 000 d'entre elles sont fausses. Mieux vaut 100 questions parfaites.

🎯 Conclusion

En résumé, ce papier nous dit : « Ne laissez pas les robots juger les robots sans supervision humaine. »

Si on continue à utiliser des tests pourris pour entraîner les intelligences artificielles, on risque de créer des modèles qui semblent intelligents sur le papier, mais qui sont complètement déconnectés de la réalité des gens qui parlent ces langues. C'est comme donner une carte routière avec des fausses routes à un conducteur : il va avancer, mais il finira dans un fossé.

L'avenir de l'IA pour les petites langues passe par la qualité humaine, pas par la quantité automatique.

Who Benchmarks the Benchmarks? A Case Study of LLM Evaluation in Icelandic

🧊 Le Titre : « Qui vérifie les vérificateurs ? » (L'histoire du test de glace islandaise)

🏗️ L'Analogie : Construire une maison avec des briques pourries

🔍 Ce que les auteurs ont découvert (Le diagnostic)

1. La « Traduction Magique » qui rate tout

2. L'absence de natifs (Le problème du « ScaLA »)

📉 Les Chiffres (La réalité en face)

💡 La Leçon à retenir

🎯 Conclusion

1. Problématique

2. Méthodologie

3. Contributions Clés

4. Résultats Principaux

5. Signification et Implications

Who Benchmarks the Benchmarks? A Case Study of LLM Evaluation in Icelandic

🧊 Le Titre : « Qui vérifie les vérificateurs ? » (L'histoire du test de glace islandaise)

🏗️ L'Analogie : Construire une maison avec des briques pourries

🔍 Ce que les auteurs ont découvert (Le diagnostic)

1. La « Traduction Magique » qui rate tout

2. L'absence de natifs (Le problème du « ScaLA »)

📉 Les Chiffres (La réalité en face)

💡 La Leçon à retenir

🎯 Conclusion

1. Problématique

2. Méthodologie

3. Contributions Clés

4. Résultats Principaux

5. Signification et Implications

Articles similaires

Caption First, VQA Second: Knowledge Density, Not Task Format, Drives Multimodal Scaling

WorkRB: A Community-Driven Evaluation Framework for AI in the Work Domain

Text-as-Signal: Quantitative Semantic Scoring with Embeddings, Logprobs, and Noise Reduction

A Multi-Model Approach to English-Bangla Sentiment Classification of Government Mobile Banking App Reviews

KMMMU: Evaluation of Massive Multi-discipline Multimodal Understanding in Korean Language and Context