From Raw Corpora to Domain Benchmarks: Automated Evaluation of LLM Domain Expertise

Dit paper introduceert een deterministische, LLM-onafhankelijke pipeline die ruwe domeincorpora omzet in schaalbare en onbevooroordeelde benchmarks voor het evalueren van domeinspecifieke kennis van zowel basis- als chat-modellen, zonder afhankelijk te zijn van menselijke annotatie of bestaande benchmarks.

Nitin Sharma, Thomas Wolfers, Ça\u{g}atay Yıldız

Gepubliceerd 2026-03-09
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een grote groep studenten wilt testen om te zien wie de beste bioloog, econoom of computerwetenschapper is. In het verleden deden we dit met meerkeuzevragen (zoals "Wat is de hoofdstad van Frankrijk? A) Parijs, B) Berlijn..."). Maar deze methode heeft grote tekortkomingen, zoals beschreven in dit nieuwe onderzoek.

Hier is een uitleg van het onderzoek in simpele taal, met een paar creatieve vergelijkingen.

Het Probleem: De "Valse Vrienden" van de Test

Stel je voor dat je een student wilt testen op zijn kennis van de natuurkunde. Je geeft hem een meerkeuzetest. Maar wat als de student de test niet echt heeft geleerd, maar gewoon slim is in het raden van patronen?

  • De volgorde maakt uit: Als je de antwoorden A, B, C en D verwisselt, kan de student ineens een heel ander cijfer halen. Dat is niet eerlijk.
  • De "leermethode" is vies: Veel van deze tests zijn al gebruikt in de training van de AI. Het is alsof je een student een examen geeft waarvan je weet dat hij de antwoorden al uit zijn hoofd heeft geleerd. Dat zegt niets over zijn echte kennis.
  • De "algemene intelligentie" vs. "specialist": Een AI kan heel goed praten (algemeen), maar dat betekent niet dat hij echt weet hoe een motor werkt (specialist). Bestaande tests meten vaak alleen hoe goed de AI kan praten, niet wat hij echt weet.

De Oplossing: De "Vul de Kruisjes" Test

De auteurs van dit paper hebben een nieuwe, slimme manier bedacht om AI's te testen. In plaats van meerkeuzevragen, gebruiken ze een "Vul de Kruisjes" (of "Compleet de zin") methode.

Hoe werkt het? (De Vergelijking)
Stel je voor dat je een meesterkok wilt testen op zijn kennis van Italiaanse gerechten.

  • De oude methode (Meerkeuze): Je vraagt: "Wat is de belangrijkste ingrediënt in pizza? A) Suiker, B) Tomaten, C) Beton." De AI moet kiezen. Dit kan fout gaan door de volgorde of omdat de AI de test kent.
  • De nieuwe methode (Vul de Kruisjes): Je geeft de AI een zin: "Om een echte pizza te maken, moet je eerst deeg maken en daarop een laagje..."
    De AI moet het woord "tomaten" (of een ander relevant woord) invullen.

De AI kan niet raden of de volgorde van de antwoorden veranderen. Hij moet het woord echt kennen om de zin logisch af te maken.

Hoe maken ze deze test? (De "Receptuur")

De onderzoekers hebben een automatische machine gebouwd die dit voor elke vakgebied doet, zonder dat mensen handmatig duizenden vragen moeten schrijven.

  1. Het Boek lezen: Ze nemen een enorme stapel echte boeken en artikelen over een vakgebied (bijvoorbeeld duizenden artikelen over kunstmatige intelligentie).
  2. De Sleutelwoorden vinden: De machine zoekt de belangrijkste woorden in die teksten (zoals "neuron", "algoritme", "rewards").
  3. De Zinnen maken: De machine pakt zinnen uit de boeken en knipt ze net voor het belangrijke woord af.
    • Originele zin: "...en dat noemen we backpropagation."
    • Testzin: "...en dat noemen we..."
    • Antwoord: backpropagation.
  4. De Test: Ze laten de AI deze zinnen afmaken. Hoe vaak raadt de AI het juiste woord? Dat is de score.

Waarom is dit zo geweldig?

  • Geen "cheaten" mogelijk: Omdat de test automatisch wordt gemaakt uit nieuwe boeken die de AI nog niet heeft gezien, kan de AI niet "leren voor de test". Het is eerlijk.
  • Voor iedereen: Het werkt voor zowel de "ruwe" AI (die alleen tekst leest) als de "chatter" AI (die is getraind om te converseren).
  • Echte kennis: Het meet of de AI de taal van het vakgebied echt spreekt, niet alleen of hij slimme meerkeuzevragen kan oplossen.

Wat hebben ze ontdekt?

Toen ze hun nieuwe test gebruikten, kwamen ze tot een verrassende ontdekking:

  • De "Chat" AI's zijn soms minder slim: AI's die zijn getraind om aardig te praten en te chatten (zoals de modellen die je nu gebruikt), blijken soms minder kennis te hebben van specifieke vakgebieden dan de "ruwe" versies van dezelfde AI.
  • De "Belasting" van het chatten: Het lijkt erop dat het proces om een AI aardig en veilig te maken (zodat hij niet scheldt of gevaarlijk is), soms zijn specifieke kennis "verwijdert". Dit noemen ze de "alignment tax" (de prijs die je betaalt voor veiligheid).

Conclusie

Dit onderzoek is als het bouwen van een nieuwe, eerlijke meetlat voor AI's. In plaats van ze te laten raden bij meerkeuzevragen (waar ze vaak in trappen), laten we ze echte zinnen afmaken op basis van echte boeken. Hierdoor zien we precies hoeveel ze echt weten over een onderwerp, of het nu gaat over geneeskunde, economie of computerwetenschap.

Het is een stap in de richting van AI's die we echt kunnen vertrouwen, omdat we hun kennis op een eerlijke en transparante manier kunnen meten.