Can LLMs Capture Expert Uncertainty? A Comparative Analysis of Value Alignment in Ethnographic Qualitative Research

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een groep mensen interviewt over hun leven, hun dromen en wat ze echt belangrijk vinden. Dit is wat antropologen en economen doen: ze proberen de "ziel" van een cultuur te begrijpen door naar de verhalen van mensen te luisteren.

Maar hier is het probleem: deze interviews zijn lang, rommelig en vol met subtiele hints. Het is alsof je probeert een complex puzzel op te lossen terwijl de stukjes soms ontbreken of dubbelzinnig zijn. Traditioneel doen menselijke experts dit werk. Ze lezen, discussiëren en beslissen samen welke waarden (zoals "veiligheid", "vrijheid" of "macht") het belangrijkst zijn. Maar dit is tijdrovend en zelfs experts zijn het niet altijd met elkaar eens.

Nu komen er slimme computerprogramma's, genaamd LLM's (zoals de technologie achter ChatGPT), die kunnen helpen. De vraag van dit onderzoek is simpel: Kunnen deze computers net zo goed "nadenken" als menselijke experts, en voelen ze ook dezelfde twijfel als wij?

Hier is wat de onderzoekers hebben ontdekt, vertaald in een simpel verhaal:

1. De Test: Een puzzel met 10 stukjes

De onderzoekers gaven de computers een taak: lees 12 lange interviews en zeg welke drie belangrijkste waarden de mensen in die interviews hebben. Ze gebruikten een bekende lijst van 10 menselijke waarden (de "Schwartz-theorie").

Ze vergeleken de antwoorden van de computers met die van een team van menselijke experts. En ze keken niet alleen naar of het antwoord goed was, maar ook naar hoe zeker de computer was.

2. Wat ging er goed? (De "Vangst")

De computers waren verrassend goed in het vinden van de juiste waarden.

De Analogie: Stel je voor dat je een visnet uitgooit. De computers vingen bijna net zo veel vissen als de menselijke vissers. Als je kijkt naar de lijst van drie waarden die de computer noemde, kwam die vaak overeen met de lijst van de mens.
De winnaar: Het model genaamd Qwen deed het het beste. Het was de "topstudent" die het dichtst bij de menselijke experts zat.

3. Wat ging er mis? (De "Rangschikking")

Hoewel de computers de juiste waarden vonden, waren ze slecht in het bepalen van de volgorde.

De Analogie: Stel je voor dat je drie favoriete ijsjes moet kiezen. De mens zegt: "1. Chocolade, 2. Vanille, 3. Aardbei." De computer zegt misschien: "Aardbei, Chocolade, Vanille." De juiste smaken zijn er wel, maar de volgorde klopt niet.
De computers wisten niet precies welke waarde het allerbelangrijkste was. Ze waren een beetje wazig in hun prioriteiten.

4. Het grootste geheim: De "Zekerheids-Compass"

Dit is het meest interessante deel van het onderzoek. Menselijke experts zijn het niet altijd met elkaar eens. Soms twijfelen ze: "Is dit nu echt 'veiligheid' of is het 'traditie'?" Die twijfel is gezond; het betekent dat het onderwerp lastig is.

Het probleem: De computers twijfelden op de verkeerde momenten.
- Soms waren ze heel zeker van iets waar mensen twijfelden.
- Soms twijfelden ze waar mensen zeker van waren.
De Analogie: Stel je voor dat je een kompas hebt. Menselijke experts wijzen soms in verschillende richtingen als het landschap mistig is. De computers hadden een kompas dat wel degelijk bewoog, maar vaak in een andere richting dan de mensen, zelfs als het landschap hetzelfde was. Ze hadden een ander "zekerheidsgevoel" dan wij.

5. Een vreemde voorkeur: Alles is "Veiligheid"

Alle computers hadden een rare gewoonte: ze vonden dat "Veiligheid" (Security) veel belangrijker was dan de mensen vonden.

De Analogie: Het is alsof je een groep vrienden vraagt wat ze belangrijk vinden. Zij zeggen: "Avontuur en vrijheid." Maar de computer zegt: "Nee, nee, het gaat allemaal om veiligheid!"
Dit kan betekenen dat de computer "vooroordeelt" heeft meegekregen uit zijn training, of dat hij op een slimme manier een nieuw perspectief biedt dat mensen over het hoofd zagen. Maar het is een waarschuwing: vertrouw niet blind op de computer.

6. De Oplossing: Het "Meester-Panel"

Wat als je niet één computer gebruikt, maar een team?

De onderzoekers lieten vier verschillende computers werken en namen het gemiddelde van hun antwoorden (een "meerderheidsstem").
Het resultaat: Dit werkte fantastisch! Het was alsof je een panel van experts hebt in plaats van één. De fouten van de ene computer werden gecorrigeerd door de andere. De groep was veel slimmer dan het individu.

Conclusie: Een slimme assistent, geen vervanger

Dit onderzoek leert ons drie dingen:

Computers zijn sterke hulpmiddelen: Ze kunnen snel grote hoeveelheden interviews lezen en de belangrijkste thema's vinden.
Ze zijn niet perfect: Ze zijn slecht in het bepalen van de exacte volgorde en hun "twijfel" voelt anders dan die van mensen.
Samenwerking is key: Als je ze gebruikt als een team (meerdere modellen) en ze combineert met menselijke inzicht, krijg je het beste resultaat.

Kortom: LLM's zijn als een zeer slimme stagiair die snel veel werk kan doen, maar die je nog steeds moet controleren, vooral als het gaat om het begrijpen van de subtiele nuances van wat mensen echt belangrijk vinden. Ze zijn een geweldig hulpmiddel, maar ze vervangen niet de menselijke wijsheid.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "Can LLMs Capture Expert Uncertainty? A Comparative Analysis of Value Alignment in Ethnographic Qualitative Research" in het Nederlands.

Probleemstelling

Kwalitatieve analyse van open-ended interviews is een hoeksteen van etnografisch en economisch onderzoek, waarbij het doel is om waarden, motivaties en cultureel ingebedde financiële gedragingen van individuen te onthullen. Hoewel Large Language Models (LLMs) veelbelovend zijn voor het automatiseren van deze interpretatieve taken, blijft hun vermogen om nuance en betrouwbaarheid te behouden onder de inherente ambiguïteit van dergelijke taken onduidelijk.

De kernuitdaging ligt in het feit dat menselijke waarden vaak impliciet, contextafhankelijk en gedeeltelijk verwoord zijn. Menselijke experts vertonen van nature onzekerheid en meningsverschillen bij het coderen van deze data; deze onzekerheid is productief en helpt vooroordelen te counteren. De vraag is of LLMs niet alleen nauwkeurige resultaten kunnen leveren, maar ook onzekerheidspatronen kunnen repliceren die vergelijkbaar zijn met die van menselijke experts. Bestaande evaluaties focussen vaak op aggregate prestaties en negeren de complexiteit van kwalitatieve interpretatie en de noodzaak om modelonzekerheid te aligneren met expertonzekerheid.

Methodologie

De auteurs voeren een case-study uit met de volgende componenten:

Dataset: Transcripts van 12 diepte-interviews (elk ongeveer 2 uur) met lokale bewoners in China. De interviews, oorspronkelijk in het Chinees, zijn vertaald naar het Engels door experts. Ze behandelen hoop, angsten, aspiraties en sociale issues.
Theoretisch Kader: De analyse is gebaseerd op de Schwartz Theory of Basic Human Values. De taak is om de top 3 waarden te identificeren uit een set van 58 sub-waarden, die worden gemapt naar 10 basis-motivatietypes.
Ground Truth: Zes experts (antropologen, economen, investeringsspecialisten) hebben onafhankelijk de interviews geannoteerd. De "ground truth" is bepaald via meerderheidsstemming. De inter-annotator overeenstemming (Krippendorff's $\alpha$ ) was 0,389, wat de inherente ambiguïteit van de taak bevestigt.
Modellen: Er zijn vier state-of-the-art open-source decoder-only modellen getest (met contextvensters van minimaal 32k tokens):
- DeepSeek-R1-Distill-Llama-8B
- Qwen3-30B-A3B-Instruct-2507
- Llama-3.3-70B-Instruct
- Mistral-Small-3.2-24B-Instruct-2506
Prompt Engineering: Verschillende strategieën zijn getest, waaronder:
- Baseline: Directe prioritering van waarden.
- Bias-Constraint (BC): Om objectiviteit te dwingen.
- Profile-Enhanced Prompting (PEP): Inclusief achtergrondinformatie van de geïnterviewde.
- Bottom-Up Prompt (BUP): Starten met sub-waarden en aggregatie naar basis-waarden.
- Segmentatie: Analyse van de volledige transcriptie versus segmenten van ~5.000 tokens.
Ensemble Methode: Outputs van meerdere modellen zijn geaggregeerd via Majority Vote, Borda Count en Kemeny-Young.
Evalueringsmetrieken:
- Set-metrieken: F1-score en Jaccard-similariteit (voor de top 3 waarden, ongeacht volgorde).
- Rank-metriek: Rank-Biased Overlap (RBO) voor het exacte rangschikken.
- Onzekerheidsanalyse: Cosine-similariteit voor gemiddelde verdelingen en Spearman's $\rho$ om te zien of modelonzekerheid (variatie over prompts) correleert met expert-onenigheid.

Belangrijkste Resultaten

Prestaties vs. Menselijk Plafond:
- LLMs benaderen het menselijke plafond op set-gebaseerde metrieken (F1 en Jaccard). Qwen3 presteert het beste met een gemiddelde F1 van 56,6 (menselijk plafond: 58,2) en Jaccard van 43,96.
- Modellen worstelen echter met het exacte rangschikken van waarden, wat blijkt uit lagere RBO-scores (Qwen3: 37,09 vs. menselijk plafond: 51,97). Het is makkelijker om de juiste set waarden te vinden dan de juiste volgorde.
- DeepSeek presteert significant slechter en toont zeer hoge variabiliteit (standaarddeviatie gelijk aan of groter dan het gemiddelde), wat wijst op lage betrouwbaarheid.
Invloed van Prompting en Segmentatie:
- Profile-Enhanced Prompting (PEP) op de volledige transcriptie levert over het algemeen de beste resultaten op.
- De Bottom-Up aanpak presteerde inferieur.
- Modellen tonen aanzienlijke gevoeligheid voor prompt-configuraties; de variabiliteit binnen een model over verschillende prompts overschrijdt vaak de variabiliteit tussen menselijke experts.
Ensemble Methode:
- Het gebruik van ensemble-methoden levert consistente verbeteringen op. Majority Vote en Borda Count presteren het beste, met een prestatieboost van 8-10 punten op F1 en RBO, en 6-8 punten op Jaccard ten opzichte van individuele modellen.
Onzekerheid en Waarde-Alignement:
- Verdelingen: De meeste modellen (behalve DeepSeek) benaderen de gemiddelde verdeling van waarden van experts redelijk goed (hoge cosine-similariteit).
- Onzekerheidsstructuur: Er is een discrepantie in hoe modellen onzekerheid uitdrukken.
  - Qwen3 toont de sterkste alignement met expert-onzekerheidspatronen ( $\rho = 0,457$ ), hoewel dit nog steeds gemiddeld is.
  - Llama is het meest consistent (laagste variatie over prompts), wat suggereert dat het systematisch oververzekerd is en de echte ambiguïteit van de data niet volledig weerspiegelt.
  - DeepSeek heeft een variatie die overeenkomt met expert-onenigheid, maar faalt in het correct mappen van de gemiddelde waardenverdeling.
- Systeematische Bias: Alle modellen neigen om de waarde Security (Veiligheid) significant vaker toe te wijzen dan menselijke experts. Dit kan wijzen op een model-bias, maar biedt ook een complementair perspectief dat door experts mogelijk wordt over het hoofd gezien.

Belangrijkste Bijdragen

Evaluatie van Onzekerheid: Het artikel verschuift de focus van puur prestatiegericht naar het analyseren van of LLMs de onzekerheidsstructuur van experts kunnen nabootsen, een cruciaal aspect voor vertrouwen in kwalitatief onderzoek.
Realistische Case Study: In plaats van korte tekstfragmenten, worden lange, ongestructureerde interviews gebruikt, wat een veel realistischere en complexere testomgeving biedt voor LLMs in etnografisch onderzoek.
Ensemble Effectiviteit: Het demonstreert dat het combineren van meerdere LLMs via stemmethoden de prestaties aanzienlijk verbetert en dichter bij menselijke expertniveaus komt.
Bias Detectie: Het identificeert systematische afwijkingen (zoals de overrepresentatie van 'Security') die zowel als waarschuwing voor bias als als potentiële bron van nieuwe inzichten kunnen dienen.

Betekenis en Conclusie

De studie concludeert dat LLMs veelbelovende partners zijn in kwalitatief onderzoek, vooral voor het identificeren van waardenpatronen en het versnellen van de analyse. Ze kunnen echter de subtiele nuances en de inherente onzekerheid van menselijke interpretatie niet volledig repliceren.

De belangrijkste beperkingen zijn de moeite met exacte rangschikkingen en de neiging tot systematische biases (zoals bij 'Security'). De auteurs benadrukken dat LLMs niet als vervanging voor experts moeten worden gezien, maar als complementaire tools. Voor toekomstig werk wordt voorgesteld om de dataset te vergroten voor betere generalisatie, de voorverwerking van transcripten te optimaliseren (bijv. naar vraag-antwoordparen), en de evaluatie uit te breiden naar gesloten bronmodellen. De bevindingen onderstrepen dat terwijl LLMs de drempel voor kwalitatief onderzoek verlagen, kritische menselijke supervisie essentieel blijft om model-bias en interpretatieve fouten te mitigeren.

Can LLMs Capture Expert Uncertainty? A Comparative Analysis of Value Alignment in Ethnographic Qualitative Research

1. De Test: Een puzzel met 10 stukjes

2. Wat ging er goed? (De "Vangst")

3. Wat ging er mis? (De "Rangschikking")

4. Het grootste geheim: De "Zekerheids-Compass"

5. Een vreemde voorkeur: Alles is "Veiligheid"

6. De Oplossing: Het "Meester-Panel"

Conclusie: Een slimme assistent, geen vervanger

Probleemstelling

Methodologie

Belangrijkste Resultaten

Belangrijkste Bijdragen

Betekenis en Conclusie

Meer zoals dit

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models