From Raw Corpora to Domain Benchmarks: Automated Evaluation of LLM Domain Expertise

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een grote groep studenten wilt testen om te zien wie de beste bioloog, econoom of computerwetenschapper is. In het verleden deden we dit met meerkeuzevragen (zoals "Wat is de hoofdstad van Frankrijk? A) Parijs, B) Berlijn..."). Maar deze methode heeft grote tekortkomingen, zoals beschreven in dit nieuwe onderzoek.

Hier is een uitleg van het onderzoek in simpele taal, met een paar creatieve vergelijkingen.

Het Probleem: De "Valse Vrienden" van de Test

Stel je voor dat je een student wilt testen op zijn kennis van de natuurkunde. Je geeft hem een meerkeuzetest. Maar wat als de student de test niet echt heeft geleerd, maar gewoon slim is in het raden van patronen?

De volgorde maakt uit: Als je de antwoorden A, B, C en D verwisselt, kan de student ineens een heel ander cijfer halen. Dat is niet eerlijk.
De "leermethode" is vies: Veel van deze tests zijn al gebruikt in de training van de AI. Het is alsof je een student een examen geeft waarvan je weet dat hij de antwoorden al uit zijn hoofd heeft geleerd. Dat zegt niets over zijn echte kennis.
De "algemene intelligentie" vs. "specialist": Een AI kan heel goed praten (algemeen), maar dat betekent niet dat hij echt weet hoe een motor werkt (specialist). Bestaande tests meten vaak alleen hoe goed de AI kan praten, niet wat hij echt weet.

De Oplossing: De "Vul de Kruisjes" Test

De auteurs van dit paper hebben een nieuwe, slimme manier bedacht om AI's te testen. In plaats van meerkeuzevragen, gebruiken ze een "Vul de Kruisjes" (of "Compleet de zin") methode.

Hoe werkt het? (De Vergelijking)
Stel je voor dat je een meesterkok wilt testen op zijn kennis van Italiaanse gerechten.

De oude methode (Meerkeuze): Je vraagt: "Wat is de belangrijkste ingrediënt in pizza? A) Suiker, B) Tomaten, C) Beton." De AI moet kiezen. Dit kan fout gaan door de volgorde of omdat de AI de test kent.
De nieuwe methode (Vul de Kruisjes): Je geeft de AI een zin: "Om een echte pizza te maken, moet je eerst deeg maken en daarop een laagje..."
De AI moet het woord "tomaten" (of een ander relevant woord) invullen.

De AI kan niet raden of de volgorde van de antwoorden veranderen. Hij moet het woord echt kennen om de zin logisch af te maken.

Hoe maken ze deze test? (De "Receptuur")

De onderzoekers hebben een automatische machine gebouwd die dit voor elke vakgebied doet, zonder dat mensen handmatig duizenden vragen moeten schrijven.

Het Boek lezen: Ze nemen een enorme stapel echte boeken en artikelen over een vakgebied (bijvoorbeeld duizenden artikelen over kunstmatige intelligentie).
De Sleutelwoorden vinden: De machine zoekt de belangrijkste woorden in die teksten (zoals "neuron", "algoritme", "rewards").
De Zinnen maken: De machine pakt zinnen uit de boeken en knipt ze net voor het belangrijke woord af.
- Originele zin: "...en dat noemen we backpropagation."
- Testzin: "...en dat noemen we..."
- Antwoord: backpropagation.
De Test: Ze laten de AI deze zinnen afmaken. Hoe vaak raadt de AI het juiste woord? Dat is de score.

Waarom is dit zo geweldig?

Geen "cheaten" mogelijk: Omdat de test automatisch wordt gemaakt uit nieuwe boeken die de AI nog niet heeft gezien, kan de AI niet "leren voor de test". Het is eerlijk.
Voor iedereen: Het werkt voor zowel de "ruwe" AI (die alleen tekst leest) als de "chatter" AI (die is getraind om te converseren).
Echte kennis: Het meet of de AI de taal van het vakgebied echt spreekt, niet alleen of hij slimme meerkeuzevragen kan oplossen.

Wat hebben ze ontdekt?

Toen ze hun nieuwe test gebruikten, kwamen ze tot een verrassende ontdekking:

De "Chat" AI's zijn soms minder slim: AI's die zijn getraind om aardig te praten en te chatten (zoals de modellen die je nu gebruikt), blijken soms minder kennis te hebben van specifieke vakgebieden dan de "ruwe" versies van dezelfde AI.
De "Belasting" van het chatten: Het lijkt erop dat het proces om een AI aardig en veilig te maken (zodat hij niet scheldt of gevaarlijk is), soms zijn specifieke kennis "verwijdert". Dit noemen ze de "alignment tax" (de prijs die je betaalt voor veiligheid).

Conclusie

Dit onderzoek is als het bouwen van een nieuwe, eerlijke meetlat voor AI's. In plaats van ze te laten raden bij meerkeuzevragen (waar ze vaak in trappen), laten we ze echte zinnen afmaken op basis van echte boeken. Hierdoor zien we precies hoeveel ze echt weten over een onderwerp, of het nu gaat over geneeskunde, economie of computerwetenschap.

Het is een stap in de richting van AI's die we echt kunnen vertrouwen, omdat we hun kennis op een eerlijke en transparante manier kunnen meten.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "From Raw Corpora to Domain Benchmarks: Automated Evaluation of LLM Domain Expertise" in het Nederlands.

Probleemstelling

De snelle proliferatie van Large Language Models (LLMs) heeft de vraag opgeworpen hoe men de domeinspecifieke expertise van modellen betrouwbaar kan meten, vooral in kritieke gebieden zoals gezondheidszorg, recht en onderwijs. Bestaande evaluatiemethoden hebben echter ernstige tekortkomingen:

Vervuiling (Contamination): Veel benchmarks zijn opgenomen in de trainingsdata van LLMs, waardoor scores kunstmatig hoog zijn en geen echte kennis meten.
Bias in Multiple Choice Questions (MCQ): Populaire benchmarks zoals MMLU lijden onder inherente biases. De volgorde van antwoordopties beïnvloedt de prestaties aanzienlijk, en sommige modellen kunnen antwoorden zonder de vraag te lezen.
Ongeschiktheid voor Base-modellen: MCQ-formaten zijn vaak ongunstig voor base-modellen die geen instructievolgende capaciteiten hebben en gevoelig zijn voor few-shot formatting.
Perplexiteit is onvoldoende: Perplexiteit meet de voorspelbaarheid over alle tokens (inclusief domein-irrelevante), waardoor het onmogelijk is om echte domeinkennis te onderscheiden van algemene taalkundige vlotheid.
Gebrek aan schaalbaarheid: Het handmatig creëren van domeinspecifieke benchmarks is duur, tijdrovend en niet dynamisch updatebaar.

Methodologie

De auteurs presenteren een deterministische pipeline die ruwe domeincorpora (zoals academische papers) omzet in benchmarks met "prompt-target" paren, zonder afhankelijkheid van andere LLMs of menselijke annotatie. De workflow bestaat uit de volgende stappen:

Data Curation:
- Gebruik van het RedPajama-Data-1T dataset (1,56 miljoen arXiv papers) voor vier domeinen: CS.AI, Physics, Quantitative Biology en Economics.
- De pipeline vereist een korte samenvatting (abstract) voor keyword-extractie en de volledige tekst voor zinsniveau-benchmarks.
Keyword Generatie (4-staps proces):
- Preprocessing van abstracts (normalisatie, verwijdering van bracket-content).
- Constructie van n-grams (2-7 tokens) met filtering van stopwoorden en generieke academische termen.
- Adaptieve lengte-filtering om ongeveer 300 hoogwaardige keywords per domein te behouden.
- Redundantie-reductie door semantische similariteit (cosine similarity > 0.85) te gebruiken om synoniemen te mergen.
Matching van Keywords en Zinnen:
- Sentences uit de volledige papers worden geëmbed en gematcht met de keywords via cosine similarity (drempel 0.5) om domein-relevante content te selecteren.
- De zinnen worden schoongemaakt (LaTeX-conversie, verwijdering citaties).
Doelvocabulaire (Target Vocabulary) Constructie:
- Twee varianten worden gebruikt om domeinspecifieke termen te extraheren uit de gematchte zinnen:
  - TF (Term Frequency): Selecteert termen die frequent voorkomen binnen een specifiek keyword-corpus.
  - TF-IDF (Term Frequency-Inverse Document Frequency): Benadrukt zeldzamere, meer gespecialiseerde termen door te kijken naar de frequentie over alle keyword-corpora heen.
Prompt-Target Paar Constructie:
- Voor elk keyword worden zinnen gefilterd die lang genoeg zijn (>10 tokens) en woorden uit het doelvocabulaire bevatten.
- Een prompt wordt gevormd door de zin tot net voor het doelwoord; het doelwoord is de "target".
- Er worden 50 prompt-target paren per keyword gegenereerd voor zowel TF als TF-IDF vocabulaires.
Evaluatie:
- Modellen worden getest op hun vermogen om het doelwoord te voorspellen gegeven de prompt.
- Primair Maatstaf: De rangorde (rank) van het correcte token in de output-verdeling van het model.
- Waarom rangorde? Token-probabiliteiten zijn vaak slecht gekalibreerd, vooral na instructie-tuning (RLHF). Rangorde is robuust en meet wat het model weet, niet hoe zeker het klinkt.
- Statistische verwerking: Gebruik van een 20% getrimd gemiddelde om outliers te minimaliseren.

Belangrijkste Bijdragen

Geautomatiseerde Schaalbaarheid: Een volledig deterministische pipeline die benchmarks genereert vanuit willekeurige ruwe tekstcorpora, zonder menselijke tussenkomst of andere LLMs.
Resistentie tegen Vervuiling: Omdat benchmarks on-demand kunnen worden gegenereerd uit nieuwe of "held-out" corpora, is benchmark-vervuiling inherent onmogelijk.
Universele Evaluatie: De methode is geschikt voor zowel base-modellen als instructie-getuned (chat) modellen, omdat deze beide zijn getraind op het volgende-token-voorspellingdoel.
Validatie: De pipeline is gevalideerd tegen een handmatig samengesteld expert-benchmark (gebaseerd op het boek Understanding Deep Learning) en een door Claude gegenereerde benchmark.

Resultaten

De auteurs hebben hun methode gevalideerd via diverse experimenten:

Validatie tegen Expert Benchmarks: Er is een bijna perfecte correlatie gevonden tussen de scores van de geautomatiseerde pipeline en het handmatige expert-benchmark (Pearson $r=0.99, p<0.001$ ). Ook de correlatie met de Claude-benchmark was sterk ( $r=0.91$ ).
Domeinadaptatie: In gecontroleerde experimenten waar Llama2-7B werd getraind op domeinen met verschillende semantische afstand tot het doel (CS.AI), presteerden modellen getraind op semantisch verwante domeinen consistent beter op de nieuwe benchmark. Traditionele metrics zoals perplexiteit en attributie-rates toonden geen of zwakke correlatie met deze kennisverwerving.
Pretraining Monitoring: Tijdens de pretraining van OLMo-2 en continue pretraining van Llama2-7B, toonde de benchmark subtiele patronen van kennisverwerving die door MCQ-evaluaties en perplexiteit volledig werden gemist (bijv. saturatie van MCQ's terwijl de prestaties op de nieuwe benchmark bleven stijgen).
Base vs. Chat Modellen: De evaluatie van zes model-families toonde aan dat instructie-tuning vaak leidt tot een daling in domeinkennis (een "alignment tax"). Base-modellen presteerden over het algemeen beter dan hun chat-varianten op domeinspecifieke taken, met name bij modellen zoals Llama2-7B en Mistral-7B.

Betekenis en Conclusie

Dit werk biedt een fundamenteel nieuwe aanpak voor domeinspecifieke evaluatie van LLMs. Het lost het probleem van benchmark-vervuiling op door dynamische generatie en elimineert de biases van MCQ-formaten. De methode stelt onderzoekers en praktici in staat om:

Schaalbare, onbevooroordeelde benchmarks te creëren voor elk willekeurig domein.
De kennisverwerving tijdens pretraining en fine-tuning nauwkeurig te volgen.
Eerlijke vergelijkingen te maken tussen base- en chat-modellen zonder afhankelijkheid van few-shot prompting.

De studie concludeert dat rangordemetingen op domeinspecifieke "completion"-taken een robuustere en betrouwbaardere maatstaf zijn voor echte expertise dan bestaande methoden, en een essentieel hulpmiddel vormen voor het selecteren en optimaliseren van modellen voor specifieke toepassingen.

From Raw Corpora to Domain Benchmarks: Automated Evaluation of LLM Domain Expertise

Het Probleem: De "Valse Vrienden" van de Test

De Oplossing: De "Vul de Kruisjes" Test

Hoe maken ze deze test? (De "Receptuur")

Waarom is dit zo geweldig?

Wat hebben ze ontdekt?

Conclusie

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models