Build, Borrow, or Just Fine-Tune? A Political Scientist's Guide to Choosing NLP Models

Each language version is independently generated for its own context, not a direct translation.

Kies je een kant-en-klaar recept, bak je zelf een taart, of pas je een bestaand recept aan?

Stel je voor dat je een taart wilt bakken, maar je weet niet precies hoe. Je hebt drie opties:

Kopen (Borrow): Je koopt een superduurzame, kant-en-klare taart van een beroemde bakker die al jaren in de buurt woont.
Bouwen (Build): Je begint vanaf nul. Je koopt je eigen meel, je eigen eieren, je eigen oven, en je leert zelf koken door urenlang te experimenteren met specifieke ingrediënten die alleen in jouw regio groeien.
Aanpassen (Fine-tune): Je neemt een goede, algemene basisrecept (zoals een standaard vanillecake) en past het heel specifiek aan voor jouw taart door er wat extra specerijen aan toe te voegen.

Dit artikel, geschreven door Shreyas Meher, gaat over precies dit dilemma, maar dan voor politiek onderzoekers die computers laten lezen wat er in kranten en rapporten staat over terrorisme en conflicten.

Het Probleem: Te veel keuze, te weinig advies

Vroeger was het moeilijk om computers tekst te laten begrijpen. Nu is het makkelijker dan ooit. Maar politiek onderzoekers staan nu voor een verwarring: "Moet ik een heel nieuw, speciaal model bouwen voor mijn onderzoek, of kan ik gewoon een bestaand, slim model nemen en het een beetje aanpassen?"

De meeste experts zeggen: "Bouw je eigen model! Dat is het beste!" Maar dat kost enorm veel tijd, geld en technische kennis. De vraag is: Is dat wel nodig voor jouw specifieke onderzoek?

De Test: Een strijd tussen twee modellen

Om dit te testen, heeft de auteur een proef gedaan met de Global Terrorism Database (GTD). Dit is een enorme lijst met meer dan 200.000 terroristische aanslagen. Elke aanslag heeft een type, zoals "Bom", "Gijzeling" of "Schietpartij".

Hij vergelijkte twee modellen:

ConfliBERT (De "Bouwer"): Dit is een model dat speciaal is getraind op miljoenen teksten over oorlog en conflicten. Het is de "gouden standaard", maar duur om te maken.
Confli-mBERT (De "Aanpasser"): Dit is een heel nieuw, algemeen slim model (ModernBERT) dat de auteur heeft "opgeleid" met de GTD-gegevens. Het is goedkoper, sneller en makkelijker te maken.

De Resultaten: Het hangt af van hoe zeldzaam het is

Hier komt het interessante deel. De uitkomst is niet "de ene is beter dan de andere", maar hangt af van hoe vaak iets voorkomt.

De veelvoorkomende dingen (De "Bommen" en "Schietpartijen"):
Voor de 98% van de aanslagen die vaak voorkomen (zoals bommen), werken beide modellen bijna even goed. Het verschil is verwaarloosbaar. Als je onderzoek gaat over de algemene trends in terrorisme, maakt het niet uit of je het dure model of het goedkope model gebruikt. Het goedkope model doet het prima.
De zeldzame dingen (De "Gijzelingen" en "Vliegtuigkapingen"):
Voor de heel zeldzame gebeurtenissen (minder dan 2% van alle gevallen) wint het dure, speciaal gebouwde model (ConfliBERT) het. Het ziet de subtiele verschillen beter. Maar omdat deze gebeurtenissen zo zeldzaam zijn, maakt het voor de meeste grote onderzoeken niet zo veel uit als het goedkope model hier en daar een foutje maakt.

De Metafoor:
Stel je voor dat je een detective bent die duizenden moeders zoekt.

Als je zoekt naar een moord die elke dag gebeurt, is het niet nodig om een superdetective met een eigen team te huren. Een goede, getrainde agent (het aangepaste model) pakt die ook wel.
Als je zoekt naar een extreem zeldzame moord die maar één keer in de geschiedenis is gebeurd, dan heb je misschien wel die superdetective nodig die alle specifieke details van die ene zaak kent.

Waarom "Kopen" (API's) vaak een slecht idee is

De auteur testte ook of onderzoekers gewoon een dure, commerciële AI (zoals een chatbot van Google of OpenAI) konden gebruiken zonder iets te trainen.

Het resultaat: Die modellen waren veel slechter dan de getrainde modellen.
De reden: Een algemene chatbot weet veel over de wereld, maar niet over de specifieke regels van terrorisme-codering. Het is alsof je een chef-kok vraagt om een heel specifiek, lokaal gerecht te maken zonder het recept te hebben. Hij maakt het wel, maar het smaakt niet goed.
Kosten: Het gebruiken van die dure diensten kost ook veel geld en is lastig om te controleren of het resultaat hetzelfde blijft over een paar jaar.

De Conclusie: Een Simpel Beslissingsmodel

De auteur geeft politiek onderzoekers een simpele leidraad om te kiezen:

Kijk naar je onderwerp: Gaat het over veelvoorkomende dingen (zoals bommen)? Dan fine-tune je gewoon een bestaand model. Het is goedkoop, snel en werkt net zo goed als de dure optie.
Kijk naar je foutmarge: Moet je elke zeldzame gebeurtenis perfect vinden? Dan is het misschien de moeite waard om een speciaal model te bouwen of te huren.
Kijk naar je middelen: Heb je weinig tijd en geld? Dan is fine-tuning de enige logische keuze.

In het kort:
Je hoeft niet altijd het allerbeste, duurste gereedschap te kopen. Voor de meeste taken is een goed, aangepast gereedschap precies wat je nodig hebt. Bouw alleen iets nieuws als je echt iets heel specifieks moet doen dat de standaardmodellen niet kunnen.

Voor de meeste politieke onderzoekers is het advies: Begin met aanpassen (fine-tuning). Dat is de slimste, goedkoopste en meest betrouwbare weg.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "Build, Borrow, or Just Fine-Tune? A Political Scientist's Guide to Choosing NLP Models" van Shreyas Meher, vertaald en samengevat in het Nederlands.

1. Het Probleem

Politieke wetenschappers staan voor een cruciale methodologische keuze bij het adopteren van Natural Language Processing (NLP) tools voor tekstclassificatie. Er zijn drie hoofdopties:

Bouwen (Build): Een domeinspecifiek model vanaf nul voorpreppen (pretrainen) op een gespecialiseerd corpus. Dit is duur, technisch veeleisend en vereist veel expertise (bijv. ConfliBERT voor conflictstudies).
Lenen/Fine-tunen (Borrow/Fine-Tune): Een bestaand, algemeen doelgericht model nemen en aanpassen aan een specifieke taak met gelabelde data. Dit is goedkoper, sneller en toegankelijker.
Kopen (Buy): Gebruik maken van commerciële API's van grote taalmodellen (LLMs) zonder training.

De literatuur focust vaak op de prestaties van "gebouwde" modellen, wat de implicatie suggereert dat meer investering altijd leidt tot betere resultaten. Er ontbreekt echter een empirisch kader om te bepalen wanneer de extra kosten en complexiteit van domeinspecifiek voorpreppen noodzakelijk zijn, en wanneer fine-tunen van een algemeen model voldoende is.

2. Methodologie

De auteur gebruikt de Global Terrorism Database (GTD) als testgeval voor multi-label classificatie van aanvalstypen (9 categorieën, zoals bomaanslagen, ontvoeringen, gewapende aanvallen).

Dataverdeling: De data is temporair opgesplitst. Incidenten vóór 2017 vormen de trainingsset ( $N=170.623$ ), en incidenten vanaf 2017 vormen de testset ( $N=37.709$ ). Dit simuleert een realistisch gebruiksscenario waarbij een model wordt toegepast op nieuwe gebeurtenissen.
Modellen vergeleken:
- Confli-mBERT (De "Borrow/Fine-Tune" optie): Een ModernBERT-model (149M parameters, een state-of-the-art encoder-only transformer) dat is gefine-tuned op de GTD-data. Het gebruikt een sigmoid-activatie voor multi-label classificatie en inverse-frequentie gewichting om het probleem van onbalans in de klassen aan te pakken.
- ConfliBERT (De "Build" optie): Het huidige gouden standaardmodel, voorgetraind op 33 miljoen tokens van conflictgerelateerde teksten.
- ConflLlama: Een fine-tuned generatief model (Llama) als referentie.
- Zero-Shot LLMs: Commerciële API's (bijv. Gemini, Claude) en lokale open-source modellen zonder fine-tuning, getest op een stratified steekproef van 2.000 incidenten.
Evaluatiemetrics: Overall nauwkeurigheid, per-klass F1-scores, AUC-ROC, en analyse van True Positives. Er wordt specifiek gekeken naar de relatie tussen de prevalentie van een klasse (hoe vaak een type aanval voorkomt) en het prestatieverschil tussen de modellen.

3. Belangrijkste Resultaten

A. Prestatieverschil is niet uniform

Algemene nauwkeurigheid: ConfliBERT scoort 79,34% tegenover 75,46% voor Confli-mBERT (een verschil van ~4 procentpunten).
Prevalentie-afhankelijkheid: Het prestatieverschil is sterk afhankelijk van hoe vaak een aanvalstype voorkomt.
- Bij frequent voorkomende klassen (bijv. Bomaanslagen/Explosies, Gewapende Aanslagen, Ontvoeringen) zijn de modellen bijna niet van elkaar te onderscheiden. Bij Bomaanslagen is het F1-verschil slechts 0,01 (0,96 vs 0,95).
- Bij zeldzame klassen (minder dan 2% van de data, zoals Gijzeling, Barricades, Ontwapende Aanslagen) is het verschil groot. ConfliBERT scoort hier aanzienlijk beter (bijv. +0,26 AUC-punten voor Gijzeling).
Conclusie: Voor de 98% van de incidenten die tot de meest voorkomende categorieën behoren, biedt fine-tunen een vergelijkbare oplossing als het duur gebouwd model. Het voordeel van domeinspecifiek voorpreppen concentreert zich uitsluitend op zeldzame gebeurtenissen.

B. Zero-Shot vs. Fine-Tuning

Commerciële API's (Zero-Shot) presteren aanzienlijk slechter dan fine-tuned modellen, zelfs de beste API (Gemini 3 Flash) scoort slechts 65,85% nauwkeurigheid.
Grootte vs. Prestatie: Er is een negatieve correlatie tussen modelgrootte en prestatie voor deze specifieke taak. Een klein, fine-tuned model (110M parameters) presteert beter dan een enorm generatief model (685B parameters) dat niet is aangepast.
Kosten en Reproduceerbaarheid: API's zijn duurder op lange termijn (vooral door iteratieve ontwikkeling), minder reproduceerbaar (modellen veranderen zonder waarschuwing) en brengen datavertouwingsrisico's met zich mee. Fine-tunen kost slechts enkele dollars aan cloud-compute en is lokaal reproduceerbaar.

4. Kernbijdragen

Empirisch Bewijs: Het artikel levert kwantitatief bewijs dat de "marginal return" van domeinspecifiek voorpreppen afneemt naarmate de hoeveelheid gelabelde data voor een specifieke klasse toeneemt.
Beslissingskader: De auteur ontwikkelt een praktisch kader voor politieke wetenschappers om een NLP-model te kiezen, gebaseerd op drie factoren:
- Prevalentie: Zijn de klassen van belang zeldzaam of frequent?
- Fouttolerantie: Hoe gevoelig is de analyse voor classificatiefouten? (Aggregaat analyses zijn robuuster dan case-studies).
- Beschikbare Middelen: Wat zijn de budgetten en technische capaciteiten?
Validatie van "Fine-Tuning": Het toont aan dat voor de meeste politieke wetenschappelijke toepassingen (die vaak aggregaat trends analyseren van veelvoorkomende gebeurtenissen), fine-tunen van een modern algemeen model de meest kosteneffectieve en wetenschappelijk verdedigbare optie is.

5. Betekenis en Implicaties

Verschuiving in de discipline: De drempel voor hoogwaardige NLP-analyse in de politieke wetenschap wordt verlaagd. Onderzoekers hoeven niet langer maanden te investeren in het bouwen van domeinspecifieke modellen, tenzij ze specifiek onderzoek doen naar zeldzame gebeurtenissen.
Toekomstperspectief: Omdat algemene taalmodellen (zoals ModernBERT) trainen op steeds grotere en diversere datasets (2 biljoen tokens in plaats van 3,3 miljard), wordt de "vocabulairekloof" tussen algemeen en domeinspecifiek kleiner. De basisprestatie van fine-tuning stijgt, waardoor de noodzaak voor dure domeinspecifieke pre-training verder afneemt.
Praktisch Advies: De aanbeveling is om te beginnen met fine-tunen van een open-source model. Investering in het bouwen van een eigen domeinspecifiek model is alleen gerechtvaardigd als het onderzoek specifiek gericht is op zeldzame klassen waar de data schaars is en de fouttolerantie laag is.

Kortom, het artikel concludeert dat voor de meerderheid van de politieke wetenschappelijke taken, data belangrijker is dan het model: een goed gefine-tuned model op de juiste data presteert vaak net zo goed als een duurder gebouwd model, met aanzienlijk minder kosten en complexiteit.

Build, Borrow, or Just Fine-Tune? A Political Scientist's Guide to Choosing NLP Models

Het Probleem: Te veel keuze, te weinig advies

De Test: Een strijd tussen twee modellen

De Resultaten: Het hangt af van hoe zeldzaam het is

Waarom "Kopen" (API's) vaak een slecht idee is

De Conclusie: Een Simpel Beslissingsmodel

1. Het Probleem

2. Methodologie

3. Belangrijkste Resultaten

4. Kernbijdragen

5. Betekenis en Implicaties

Meer zoals dit

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance