From Raw Corpora to Domain Benchmarks: Automated Evaluation of LLM Domain Expertise
Cet article présente un pipeline déterministe et automatisé qui transforme des corpus de données brutes en benchmarks de type complétion pour évaluer de manière fiable, peu coûteuse et sans contamination les connaissances spécifiques d'un domaine des grands modèles de langage, sans recourir à d'autres LLM ni à une annotation humaine.