Measuring What AI Systems Might Do: Towards A Measurement Science in AI

Each language version is independently generated for its own context, not a direct translation.

De "Temperatuur" van AI: Waarom we niet alleen naar de cijfers moeten kijken

Stel je voor dat je een nieuwe auto koopt. De verkoper zegt: "Deze auto is veilig en kan snel rijden." Hoe weten we of dat waar is?

Op dit moment meten we kunstmatige intelligentie (AI) alsof we de auto testen op een enkele, vaste testbaan. We laten de auto één keer een rondje rijden op een speciaal aangelegd circuit (een "benchmark") en kijken of hij de finish haalt. Als hij dat doet, zeggen we: "Deze auto is veilig en snel!"

Maar dit is een gevaarlijke manier van meten. Het artikel dat je net hebt gelezen, stelt dat we hiermee een fundamenteel foutje maken. Het zegt dat we niet kijken naar wat de AI echt is, maar alleen naar wat hij op dat ene moment doet.

Hier is de kern van het verhaal, vertaald in alledaags taal:

1. Het verschil tussen "Doe-doe" en "Kunnen-doen"

De auteurs zeggen dat we twee dingen door elkaar halen:

Uitvoering (Performance): Wat de AI nu doet op een specifieke vraag.
Aanleg (Disposities): Wat de AI zou doen als de situatie anders was.

De analogie van het glas:
Stel je een wijnglas voor. Is het glas "breekbaar"?

Als je het glas nu op tafel zet en het breekt niet, is het dan niet breekbaar? Nee.
Het glas is breekbaar omdat het zou breken als je er hard op slaat. Die eigenschap (breekbaarheid) bestaat zelfs als het glas nooit breekt.

Zo is het met AI:

Een AI die vandaag een wiskundevraag goed beantwoordt, heeft misschien een wiskundig aanleg.
Een AI die vandaag niet liegt, heeft misschien een eerlijkheid-aanleg.

Maar als we alleen kijken naar wat ze nu doen (de uitvoering), zien we niet hoe ze reageren als de situatie verandert. Wat gebeurt er als de wiskundevraag 10 keer moeilijker wordt? Wat gebeurt er als iemand de AI heel hard vraagt om te liegen?

2. Het probleem met de huidige "Testbanen"

Op dit moment testen we AI op vaste lijsten met vragen (zoals MATH of HumanEval). Dit is alsof we een auto alleen testen op een rechte weg met een snelheidsbord van 50 km/u.

Het probleem: We krijgen een cijfer (bijvoorbeeld 85%). Maar wat betekent dat? Weet de auto hoe hij moet remmen op een gladde weg? Weet hij hoe hij moet sturen in een storm?
De valstrik: Als de AI de test haalt, denken we dat hij "slim" is. Maar misschien was de test gewoon te makkelijk, of misschien heeft de AI de antwoorden al geleerd. We weten niet waarom hij faalt of slaagt.

Het artikel vergelijkt dit met het meten van temperatuur zonder thermometer. Stel, je wilt weten hoe heet je thee is. Je pakt een stuk chocolade, je hand, en een glas water. Je dompelt ze allemaal in de thee en kijkt of ze smelten of rillen.

Chocolade smelt? "De thee is heet!"
Je hand trekt zich terug? "De thee is heet!"
Je telt: 5 van de 8 dingen reageerden. "De thee is dus 62,5% heet!"

Dat getal (62,5%) zegt niets over de echte temperatuur. Het zegt alleen iets over hoe je eigen testobjecten reageerden. Zo werkt het met AI-benchmarks ook: ze geven een getal, maar dat getal is geen echte meting van de intelligentie of het gevaar.

3. De oplossing: De "Temperatuur" van AI meten

De auteurs zeggen dat we een echte wetenschap van meten nodig hebben. In plaats van een simpele testbaan, moeten we kijken naar de oorzaak van het gedrag.

Stel je voor dat we in plaats van één test, een laboratorium bouwen:

We definiëren de situatie: Wat maakt een vraag moeilijk? (Bijv. hoeveel stappen zijn er nodig? Hoeveel cijfers zijn er?)
We variëren de situatie: We geven de AI niet één vraag, maar honderden vragen die steeds net iets moeilijker worden.
We kijken naar de curve: We kijken niet naar één cijfer, maar naar een grafiek.
- Voorbeeld: "Deze AI kan 10 stappen goed doen, maar faalt bij 11 stappen." Dat is een echte meting van zijn aanleg.
- Voorbeeld: "Deze AI liegt nooit als de gebruiker vriendelijk is, maar liegt bij 90% van de keren als de gebruiker boos dreigt." Dat is een echte meting van zijn "leugenaars-aanleg".

4. Waarom is dit zo belangrijk?

We willen AI gebruiken voor dingen die gevaarlijk kunnen zijn (zoals het ontwerpen van virussen of cyberaanvallen).

We kunnen die AI niet testen door te vragen: "Maak een virus." Dat is te gevaarlijk.
Maar als we weten wat de AI doet op veilige vragen die lijken op die gevaarlijke vragen, kunnen we voorspellen wat hij zou doen in de gevaarlijke situatie.

Het is als een ingenieur die kijkt naar hoe een brug reageert op een lichte wind. Hij hoeft de brug niet te laten instorten om te weten of hij sterk genoeg is. Hij kijkt naar de structuur van de brug en de kracht van de wind.

Conclusie: Van "Cijfers" naar "Begrip"

De boodschap van dit artikel is simpel:
Stop met het verzamelen van simpele cijfers op testlijsten. Die cijfers zijn nuttig voor marketing, maar niet voor veiligheid of wetenschap.

We moeten leren kijken naar hoe AI reageert op veranderingen.

Niet: "Hoeveel vragen heeft hij goed?"
Maar: "Hoe verandert zijn gedrag als de situatie moeilijker of verleidelijker wordt?"

Alleen dan kunnen we echt begrijpen wat AI-systemen kunnen en wat ze zouden kunnen doen, zodat we ze veilig kunnen gebruiken in de echte wereld. Het is de overstap van "voelen of het warm is" naar het gebruik van een echte thermometer.

Each language version is independently generated for its own context, not a direct translation.

Titel: Het Meten van Wat AI-systemen Zouden Kunnen Doen: Naar een Wetenschap van Meting in AI

Auteurs: Konstantinos Voudouris, Mirko Thalmann, Alex Kipnis, José Hernández-Orallo, Eric Schulz.

1. Het Probleem: Conceptuele Onduidelijkheid en Methodologische Tekortkomingen

Het paper identificeert een fundamenteel probleem in de huidige evaluatiepraktijk van kunstmatige intelligentie (AI): de vermenging van prestaties (wat een systeem doet in een specifieke test) met disposities (wat een systeem geneigd is te doen onder bepaalde omstandigheden).

Conceptuele Vervaging: Termen als "capaciteiten", "vaardigheden", "waarden" en "neigingen" worden vaak synoniem gebruikt en verward met geobserveerde prestaties op benchmarks. Er is geen duidelijke definitie van wat er precies wordt gemeten.
De Tekortkoming van Benchmarks: Huidige methoden (zoals benchmarks voor capaciteiten en "red-teaming" voor veiligheidsrisico's) leveren vaak een enkel aggregaatgetal op (bijv. een nauwkeurigheidsscore van 62,5%). Dit getal verbergt de onderliggende structuur van het probleem. Het vertelt niet waarom een AI faalt (bijv. door complexiteit, abstractie of representatie) noch hoe het systeem zou presteren in contexten die niet in de dataset zitten.
Het Gebrek aan Generalisatie: Bestaande methoden kunnen niet generaliseren naar:
1. Contexten die menselijk niveau overstijgen (supermenselijke intelligentie).
2. Gevaarlijke domeinen waar empirisch testen ethisch verboden is (bijv. het ontwerpen van virussen of cyberaanvallen).
Mislukte Statistische Modellen: Zelfs geavanceerdere methoden zoals Item Response Theory (IRT) en latent-variable modellen worden vaak "atheoretisch" toegepast. Ze infereren moeilijkheid en capaciteit puur uit prestatiedata zonder onafhankelijke causaliteit, wat leidt tot circulaire redeneringen en metingen die afhankelijk zijn van de specifieke populatie van geteste modellen.

2. Methodologie: Een Dispositioneel Kader

De auteurs stellen een nieuw theoretisch kader voor, gebaseerd op de filosofie van de wetenschap, meettheorie en cognitiewetenschap. Het kernargument is dat capaciteiten en neigingen dispositionele eigenschappen zijn.

Definitie van Dispositie: Een dispositie is een stabiele, intrinsieke eigenschap van een systeem die wordt gedefinieerd door contravante relaties (counterfactuals). Het beschrijft wat er zou gebeuren onder specifieke voorwaarden, niet wat er nu gebeurt.
- Voorbeeld: Een glas is "bros" niet omdat het nu breekt, maar omdat het zou breken als er voldoende kracht op wordt uitgeoefend.
Onderscheid tussen Capaciteiten en Neigingen:
- Capaciteiten: Dispositie die varieert met de eisen van de taak (bijv. moeilijkheidsgraad, complexiteit).
- Neigingen (Propensities): Dispositie die varieert met de prikkels of incentives in de context (bijv. motivatie om te liegen, druk om schadelijk gedrag te vertonen).
De Metingslogica: Om een dispositie te meten, moet men:
1. Hypothesen opstellen over welke contextuele eigenschappen causaal relevant zijn.
2. Deze eigenschappen onafhankelijk operationaliseren (meten zonder te kijken naar het systeem).
3. Systematisch variëren in deze eigenschappen en empirisch in kaart brengen hoe dit de waarschijnlijkheid van een bepaald gedrag beïnvloedt.

3. Belangrijkste Bijdragen

Het paper levert drie hoofdbijdragen:

Definitie als Dispositie: Capaciteiten en neigingen worden formeel gedefinieerd als dispositionele eigenschappen die gebaseerd zijn op causale relaties tussen systeemkenmerken en context. Capaciteiten hangen samen met taakeisen, neigingen met incentives.
Kritiek op Huidige Praktijken: De auteurs tonen aan dat benchmarking, red-teaming en data-gedreven IRT-modellen falen als wetenschappelijke meetinstrumenten omdat ze:
- Niet weten wat ze meten (geen causale basis).
- Niet weten wie ze meten (verwarring tussen basismodel, prompt-engineering en filters).
- Geen geldigheid (construct validity) hebben (geen theoretisch verband tussen taak en eigenschap).
- Niet kunnen generaliseren buiten de menselijke competentie of ethische grenzen.
Een Nieuw Meetkader: Een raamwerk voor "dispositie-respecterende" meting wordt uitgewerkt, bestaande uit vier stappen:
- Definiëren van het Onderwerp: Duidelijk specificeren of het gaat om het basismodel, het gedeployde systeem met filters, of de volledige stack.
- Hypothese over Causale Basis: Identificeren welke contextuele variabelen (π) het gedrag beïnvloeden (bijv. aantal rekenstappen, type prikkels).
- Operationalisatie: Deze variabelen vertalen naar meetbare schalen (onafhankelijk van de systeemoutput).
- Empirische Mapping: Systematisch variëren van π en de responsfunctie $p(v | \pi, \theta)$ schatten (waarbij $v$ het gedrag is en $\theta$ de systeemparameters).

4. Resultaten en Illustraties

Het paper presenteert geen nieuwe dataset of een specifiek AI-model, maar biedt een conceptueel bewijs en "toy examples" (voorbeeldscenario's) om het kader te illustreren:

Rekenvaardigheid (Capaciteit): In plaats van een score op een vaste set wiskundeproblemen, wordt voorgesteld om de waarschijnlijkheid van een correct antwoord te meten als functie van variabelen zoals het aantal stappen, de lengte van de getallen en de complexiteit van het "overdragen" (carry-over). Het resultaat is een responsfunctie die drempels en afnamepatronen toont, in plaats van een enkel gemiddelde.
Eerlijkheid (Neiging): Voor de neiging tot eerlijkheid wordt voorgesteld om de context te variëren op basis van prikkels (bijv. morele rechtvaardiging door de gebruiker, urgentie, aanwezigheid van toezicht). Men meet hoe de kans op het geven van verboden informatie verandert naarmate deze prikkels variëren, zelfs binnen ethisch veilige grenzen, om te extrapoleren naar gevaarlijke scenario's.
Vergelijking: Traditionele methoden leveren anekdotische "snapshots" op. Het dispositionele kader levert een continue, theoretisch onderbouwde kaart van het gedrag op die generaliseert naar ongeobserveerde contexten.

5. Betekenis en Conclusie

De betekenis van dit paper ligt in de oproep tot een paradigmaverschuiving in de AI-evaluatie:

Van Ingenieurskunst naar Wetenschap: Huidige benchmarks zijn nuttig voor engineering en ranking, maar geen wetenschappelijke metingen. De auteurs pleiten voor een overgang van "gemakkelijke" benchmarks naar een rigoureuze meetwetenschap (measurement science).
Veiligheid en Beleid: Voor regelgeving en veiligheid is het cruciaal om te weten wat AI-systemen zouden doen in gevaarlijke situaties, niet alleen wat ze deden in een test. Alleen een dispositionele benadering kan extrapoleren naar deze ongeteste, maar cruciale domeinen.
Interdisciplinaire Sfeer: Het realiseren van dit doel vereist samenwerking tussen AI-onderzoek, cognitiewetenschap, psychometrie en filosofie. Het is een lange termijn project dat vergelijkbaar is met de ontwikkeling van thermometrie in de fysica: eerst theorie en eenheid van meting vaststellen, voordat betrouwbare instrumenten kunnen worden gebouwd.

Conclusie: Zonder een fundamenteel herdefiniëren van wat we meten (van prestatie naar dispositie) en hoe we het meten (van aggregatie naar causale mapping), blijft AI-evaluatie een verzameling conventies die onvoldoende is om de risico's en mogelijkheden van toekomstige AI-systemen te begrijpen of te beheersen.

Measuring What AI Systems Might Do: Towards A Measurement Science in AI

1. Het verschil tussen "Doe-doe" en "Kunnen-doen"

2. Het probleem met de huidige "Testbanen"

3. De oplossing: De "Temperatuur" van AI meten

4. Waarom is dit zo belangrijk?

Conclusie: Van "Cijfers" naar "Begrip"

Titel: Het Meten van Wat AI-systemen Zouden Kunnen Doen: Naar een Wetenschap van Meting in AI

1. Het Probleem: Conceptuele Onduidelijkheid en Methodologische Tekortkomingen

2. Methodologie: Een Dispositioneel Kader

3. Belangrijkste Bijdragen

4. Resultaten en Illustraties

5. Betekenis en Conclusie

Meer zoals dit

Less is More: Data-Efficient Adaptation for Controllable Text-to-Video Generation

Better Understandings and Configurations in MaxSAT Local Search Solvers via Anytime Performance Analysis

Hybrid Agentic AI and Multi-Agent Systems in Smart Manufacturing

ReaMIL: Reasoning- and Evidence-Aware Multiple Instance Learning for Whole-Slide Histopathology

Pramana: Fine-Tuning Large Language Models for Epistemic Reasoning through Navya-Nyaya