Do LLMs Judge Distantly Supervised Named Entity Labels Well? Constructing the JudgeWEL Dataset

Each language version is independently generated for its own context, not a direct translation.

🇱🇺 Le Problème : La "Faim" de Données pour le Luxembourgeois

Imaginez que le Luxembourgeois (la langue nationale du Luxembourg) soit un petit village isolé dans une grande forêt. Les géants de la forêt, comme l'Allemand et le Français, sont de grandes villes avec des bibliothèques immplies, des routes goudronnées et des outils modernes pour tout faire.

Le problème ? Le NLP (le traitement automatique des langues par les ordinateurs) a besoin de livres d'exercices (des données étiquetées) pour apprendre à comprendre le luxembourgeois. Mais pour ce "petit village", ces livres sont rares, voire inexistants. Écrire ces livres à la main prendrait des années et coûterait une fortune. C'est le "goulot d'étranglement".

🛠️ La Solution : Une Usine Automatique avec un "Inspecteur Robot"

Les auteurs (Alistair, Laura et Tharindu) ont eu une idée géniale pour construire ces livres d'exercices sans tout faire à la main. Ils ont créé un pipeline (une chaîne de montage) en trois étapes :

1. La Mine d'Or : Wikipédia et Wikidata

Ils ont pris les articles de Wikipédia en luxembourgeois. Imaginez que chaque mot important dans un article (comme un nom de personne, une ville ou une date) est relié par un lien hypertexte à une fiche d'identité sur Wikidata (une immense base de données de connaissances).

L'analogie : C'est comme si on prenait un livre de contes, et que chaque fois qu'un personnage apparaît, il y a un petit drapeau qui dit "C'est un roi" ou "C'est une ville".
Le hic : Parfois, les drapeaux sont mal placés, ou il y a des erreurs. C'est du "bruit".

2. Le Filtre Grossier

Ils ont écrit un programme pour extraire les phrases qui contiennent ces liens et leur attribuer automatiquement des étiquettes (Personne, Organisation, Lieu, Date). Mais comme on l'a dit, ce n'est pas parfait. On obtient un tas de phrases, mais certaines sont fausses.

3. Le Grand Jury : Les "Juges" IA (LLM)

C'est ici que la magie opère. Au lieu de payer des humains pour relire 75 000 phrases (ce qui serait trop long), ils ont demandé à des Intelligences Artificielles géantes (comme GPT-5, Llama, Mistral) de jouer au rôle de juges.

Le jeu : On donne une phrase à l'IA avec ses étiquettes automatiques. L'IA doit dire : "C'est correct, je garde !" ou "C'est nul, je jette !".
Le résultat : Ils ont testé plusieurs "juges" IA. Certains étaient très bons (comme GPT-5), d'autres un peu brouillons. Ils ont gardé uniquement les phrases que les meilleurs juges ont validées.

🏆 Le Résultat : Le Dataset "JudgeWEL"

Grâce à cette méthode, ils ont créé JudgeWEL, un nouveau trésor de données :

Taille : Il est 5 fois plus gros que tout ce qui existait avant pour le luxembourgeois.
Qualité : Il est équilibré et propre, car les IA ont éliminé les erreurs.
Utilité : C'est maintenant la "bible" pour entraîner des ordinateurs à comprendre les noms propres en luxembourgeois.

🧪 L'Expérience : Est-ce que ça marche vraiment ?

Les chercheurs ont fait deux tests pour vérifier leur travail :

Le test de l'Inspecteur : Ils ont demandé à 2 humains de vérifier 500 phrases au hasard. Résultat ? Les meilleures IA (comme GPT-5) ont été presque aussi d'accord avec les humains que les humains entre eux ! C'est une preuve que l'IA peut faire le travail de "contrôle qualité" sans qu'on ait besoin de payer des centaines de personnes.
Le test de l'Élève : Ils ont entraîné des modèles d'IA sur ce nouveau dataset JudgeWEL.
- Résultat : Les modèles sont devenus excellents (plus de 90% de réussite).
- Comparaison : Quand on les teste sur l'ancien petit dataset (RTL-NER), ils réussissent aussi très bien. Cela prouve que le nouveau dataset est de haute qualité et généralisable.

💡 La Leçon à retenir

Ce papier nous dit deux choses importantes :

On peut construire des ressources pour les langues rares en utilisant les liens de Wikipédia et en faisant valider le tout par des IA puissantes. C'est comme construire une route en utilisant des matériaux locaux et un bulldozer intelligent.
Les IA ne sont pas parfaites pour tout. Elles sont excellentes pour vérifier si une étiquette est bonne (le rôle de juge), mais elles sont encore un peu brouillonnes si on leur demande de créer les étiquettes de zéro. Le mélange entre données structurées (Wikipédia) et validation IA est la clé.

En résumé : Les chercheurs ont utilisé une "usine à IA" pour nettoyer et agrandir la bibliothèque du luxembourgeois, permettant aux ordinateurs de mieux comprendre cette belle langue, le tout avec très peu d'intervention humaine. 🚀🇱🇺

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Le domaine du Traitement Automatique des Langues (TAL) souffre d'un manque de ressources pour les langues sous-représentées, comme le luxembourgeois. La construction de corpus annotés pour l'Extraction d'Entités Nommées (NER) est coûteuse et difficile en raison de la pénurie de données écrites, du manque d'expertise linguistique et de l'absence de financement durable.
Les méthodes traditionnelles d'annotation manuelle sont trop lentes, tandis que les approches purement génératives par LLM (Large Language Models) peinent à produire des séquences d'étiquettes cohérentes et structurées (format BIO) sans erreur. L'article pose la question centrale : peut-on utiliser les LLM non pas pour générer les annotations, mais pour agir comme des "juges" fiables afin de filtrer et valider des données annotées automatiquement à partir de sources de supervision lointaine ?

2. Méthodologie

Les auteurs proposent un pipeline hybride pour créer le jeu de données judgeWEL, combinant la supervision lointaine (distant supervision) et la vérification par LLM.

A. Collecte et Supervision Lointaine

Source de données : Les articles de la Wikipédia luxembourgeoise (dump de mars 2024, ~77k articles).
Extraction : Utilisation de WikiExtractor pour récupérer le texte et les liens hypertextes.
Lien vers Wikidata : Chaque entité liée dans le texte est vérifiée via l'API Wikidata pour déterminer son type (Personne, Organisation, Lieu, Date) en fonction de ses attributs (ex: P31 = Q5 pour une personne).
Annotation initiale : Les entités sont étiquetées avec le schéma BIO (Begin-Inside-Outside) pour cinq types d'entités : PER, ORG, LOC, DATE, MISC.
Filtrage préliminaire : Sélection de phrases spécifiques (évitant les introductions trop formatées), suppression des phrases trop courtes, des doublons et des chevauchements d'entités.

B. Amélioration des Annotations

Un modèle LuxGPT-NER (finetuné) et des expressions régulières sont utilisés pour combler les lacunes de l'annotation initiale (ex: détection de dates manquantes, unification des tags GPE sous LOC).

C. Le Juge LLM (LLM-as-a-Judge)

C'est l'étape centrale de l'innovation. Au lieu de générer les étiquettes, les LLMs sont sollicités pour valider la qualité des phrases annotées.

Tâche : Pour chaque phrase et ses étiquettes BIO, le LLM doit décider de garder (1) ou rejeter (0) la phrase en vérifiant la cohérence des étiquettes.
Comparaison de modèles : Une large gamme de modèles a été testée (GPT-5, GPT-5-mini, Gemma-3, LLaMA-3, Mistral, Command-a, etc.), couvrant des modèles propriétaires, open-weight, et de différentes tailles.
Validation humaine : Un échantillon de 500 phrases a été annoté par deux humains natifs pour servir de référence (consensus) et évaluer la performance des LLMs juges.

D. Construction Finale

Seules les phrases validées par le meilleur LLM juge sont conservées pour former le corpus final judgeWEL.

3. Contributions Clés

Le jeu de données judgeWEL : Un corpus NER pour le luxembourgeois contenant 28 866 phrases (5x plus grand que le jeu de données précédent RTL-NER), offrant une couverture plus large et équilibrée des types d'entités.
Un pipeline open-source : Une méthode reproductible combinant Wikipédia, Wikidata et la vérification par LLM pour construire des datasets NER à faible coût.
Évaluation des LLMs comme juges : Une analyse comparative démontrant que certains LLMs (notamment GPT-5) peuvent atteindre un niveau d'accord avec les annotateurs humains proche de celui observé entre humains eux-mêmes ( $\kappa \approx 0,62$ vs $0,66$).

4. Résultats

A. Performance des LLMs Juges

Meilleurs modèles : Les modèles propriétaires GPT-5 et GPT-5-mini obtiennent les meilleurs résultats, avec un coefficient Kappa de Cohen de 0,62, très proche du consensus humain (0,66). Ils sont capables de distinguer les annotations correctes des erreurs subtiles.
Modèles Open-Weight : Des modèles comme GPT-OSS-120B et Mistral-Medium-3.1 montrent des performances modérées mais stables ( $\kappa \approx 0,45-0,47$ ).
Limites : Les modèles plus petits ou moins bien adaptés (Gemma-3-27B, LLaMA-3-8B) affichent des corrélations négatives ou nulles avec les jugements humains, indiquant qu'ils ne peuvent pas être utilisés comme juges fiables seuls.
Biais par catégorie : Les modèles gèrent bien les dates (cues de surface clairs) mais échouent souvent sur la catégorie MISC (entités diverses) et sur la détection des phrases sans entités (faux négatifs).

B. Performance en NER (Tâche en aval)

Les modèles ont été entraînés sur judgeWEL et évalués sur judgeWEL et sur le jeu de données existant RTL-NER.

Modèles Encodeurs (BERT, XLM-R) : Ils atteignent des scores F1 élevés (> 0,90) sur judgeWEL. Lorsqu'ils sont entraînés sur judgeWEL et testés sur RTL-NER, ils maintiennent une performance élevée (F1 ~ 0,89), prouvant que le dataset généré automatiquement capture bien les frontières d'entités et généralise bien.
Modèles Génératifs (LLaMA, Aya) : Ils obtiennent de bons résultats en in-domain (F1 ~ 0,92 pour LLaMA-3), mais souffrent d'une baisse de performance significative lors du transfert cross-domain ou lors de la génération de séquences BIO structurées (problèmes de fusion de tokens, de sauts de frontières). Cela confirme que les architectures encoder restent supérieures pour les tâches de labellisation de séquences strictes.

5. Signification et Conclusion

Validation de l'approche hybride : L'étude prouve qu'il n'est pas nécessaire de générer entièrement les données par LLM (ce qui est instable), mais que l'utilisation de LLMs comme filtres de qualité sur des données supervisées à distance est une stratégie efficace, rentable et scalable.
Réduction de la dépendance manuelle : Cette méthode permet de créer des corpus de grande taille pour des langues à faibles ressources avec un effort humain minimal (seulement une vérification de consensus sur un petit échantillon).
Futur : Bien que les LLMs ne remplacent pas encore totalement l'annotation humaine pour la génération de novo, ils sont des outils puissants pour l'assurance qualité et l'expansion de corpus. Les auteurs recommandent cette approche pour d'autres langues sous-représentées disposant d'une version Wikipédia active.

En résumé, judgeWEL démontre que l'association de connaissances structurées (Wikidata) et de la capacité de jugement des LLMs permet de surmonter le goulot d'étranglement de l'annotation manuelle, offrant une nouvelle voie pour l'équité en NLP.