Evaluating LLM Alignment With Human Trust Models

Each language version is independently generated for its own context, not a direct translation.

Titel: Hoe een AI-robot "vertrouwen" in zijn hoofd ziet

Stel je voor dat een Large Language Model (een slimme AI zoals wij die nu gebruiken) een enorm, donker magazijn is. In dit magazijn staan miljarden planken met doosjes. Elke doos bevat een idee, een woord of een gevoel. De AI heeft deze doosjes niet zomaar neergezet; ze liggen op een heel specifieke manier gerangschikt.

Dit onderzoek is als een verlichtingstocht door dat magazijn. De onderzoekers wilden weten: Waar staat het doosje "vertrouwen" precies? En welke andere doosjes liggen er direct naast?

Het Experiment: De "Spiegel" van de AI

Om dit te ontdekken, hebben de onderzoekers een slim trucje gebruikt, genaamd contrastieve prompting.

Stel je voor dat je de AI vraagt om een verhaal te vertellen over twee collega's, Katherine en Alice.

Scenario A: Katherine helpt Alice graag (positief).
Scenario B: Katherine weigert Alice te helpen (negatief).

De AI schrijft beide verhalen. Maar terwijl ze schrijft, kijken de onderzoekers niet alleen naar de tekst, maar naar de elektrische impulsen in het brein van de AI. Ze nemen de "energie" van het positieve verhaal en trekken daar de "energie" van het negatieve verhaal vanaf. Het resultaat is een spiegelbeeld: een digitale vector die precies laat zien hoe de AI het concept "hulpvaardigheid" of "vertrouwen" voelt.

Ze deden dit voor 60 verschillende emoties en concepten (zoals "boosheid", "competentie", "risico").

De Grote Vergelijking: Welke theorie past het beste?

In de wereld van de psychologie en sociologie zijn er verschillende "blauwdrukken" (theorieën) over wat vertrouwen eigenlijk is. Denk aan deze theorieën als verschillende bouwpakketten voor een huis:

Het Marsh-pakket zegt: "Vertrouwen is puur gebaseerd op statistieken en eerdere ervaringen."
Het Mayer-pakket zegt: "Vertrouwen is bereidheid om risico te nemen, gebaseerd op vaardigheid en eerlijkheid."
Het Castelfranchi-pakket zegt: "Vertrouwen is een mentale staat: ik geloof dat jij je doel kunt bereiken en dat je dat ook wilt."

De onderzoekers vroegen zich af: Welke van deze blauwdrukken lijkt het meest op de manier waarop de AI het magazijn heeft ingericht?

Ze maten de afstand tussen het doosje "Vertrouwen" en alle andere doosjes in de theorieën. Als twee doosjes dicht bij elkaar liggen in het magazijn, betekent dat dat de AI ze als sterk verwant ziet.

De Resultaten: De AI denkt als een sociaal-cognitief mens

De uitkomsten waren verrassend en duidelijk:

De AI is geen simpele rekenmachine: De AI rangschikt "vertrouwen" niet alleen op basis van cijfers of statistieken (zoals het Marsh-pakket zou voorspellen).
De winnaar is Castelfranchi: De manier waarop de AI "vertrouwen" in zijn hoofd heeft opgeslagen, lijkt het meest op de Castelfranchi-theorie. Dit betekent dat de AI vertrouwen ziet als een complexe mix van:
- Kunnen: "Kan die persoon het?"
- Willen: "Wil die persoon het?"
- Voorspelbaarheid: "Zal die persoon het doen?"
- Commitment: "Is die persoon toegewijd?"

De AI heeft deze concepten in zijn "magazijn" zo dicht bij elkaar gezet dat ze bijna aan elkaar plakken. Het Marsh-model (statistieken) kwam op de tweede plaats, maar de AI denkt dus meer als een mens die nadenkt over intenties dan als een computer die alleen naar cijfers kijkt.

Een vreemde uitzondering: Het risico

Er was één ding dat de onderzoekers verbaasde. In de theorie van Mayer wordt "risico" gezien als iets positiefs: je kunt pas vertrouwen hebben als je bereid bent om risico te nemen. Maar in het magazijn van de AI lagen de doosjes "Vertrouwen" en "Risico" juist ver uit elkaar, bijna aan de andere kant van het magazijn.

Dit suggereert dat de AI, ondanks dat hij slim is, het concept "risico" nog steeds associeert met iets negatiefs of gevaarlijks, en niet als een noodzakelijk onderdeel van vertrouwen.

Waarom is dit belangrijk?

Dit onderzoek is als het ontdekken van de interne blauwdruk van een robot.

Betere samenwerking: Als we weten hoe een AI "vertrouwen" begrijpt, kunnen we betere systemen bouwen die samenwerken met mensen. We kunnen de AI bijvoorbeeld "sturen" door zijn interne doosjes een beetje te verschuiven, zodat hij zich betrouwbaarder gedraagt.
Veiligheid: Het helpt ons te begrijpen waar de AI fouten maakt (zoals met het risico-concept) en waar hij juist heel menselijk denkt.

Kortom: Deze AI is niet zomaar een tekstgenerator die woorden nabootst. Hij heeft een ingewikkeld, gestructureerd "mentaal magazijn" waarin hij sociale concepten zoals vertrouwen op een manier heeft opgeslagen die verrassend veel lijkt op hoe mensen over hen nadenken.

Evaluating LLM Alignment With Human Trust Models

Het Experiment: De "Spiegel" van de AI

De Grote Vergelijking: Welke theorie past het beste?

De Resultaten: De AI denkt als een sociaal-cognitief mens

Een vreemde uitzondering: Het risico

Waarom is dit belangrijk?

Titel: Evaluatie van de LLM-uitlijning met menselijke vertrouwensmodellen

1. Probleemstelling

2. Methodologie

A. Contrastive Prompting voor Vectorgeneratie

B. Bepaling van de Drempelwaarde (Similarity Threshold)

C. Kwantificering van Vertrouwensuitlijning

3. Belangrijkste Resultaten

4. Bijdragen en Significatie

Conclusie

Evaluating LLM Alignment With Human Trust Models

Het Experiment: De "Spiegel" van de AI

De Grote Vergelijking: Welke theorie past het beste?

De Resultaten: De AI denkt als een sociaal-cognitief mens

Een vreemde uitzondering: Het risico

Waarom is dit belangrijk?

Titel: Evaluatie van de LLM-uitlijning met menselijke vertrouwensmodellen

1. Probleemstelling

2. Methodologie

A. Contrastive Prompting voor Vectorgeneratie

B. Bepaling van de Drempelwaarde (Similarity Threshold)

C. Kwantificering van Vertrouwensuitlijning

3. Belangrijkste Resultaten

4. Bijdragen en Significatie

Conclusie

Meer zoals dit

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem