Oorspronkelijke auteurs: Hiroyuki Kokubu

Gepubliceerd 2026-06-15

📖 4 min leestijd☕ Koffiepauze-leesvoer

Oorspronkelijke auteurs: Hiroyuki Kokubu

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Stel je voor dat je een team van vier deskundige redacteuren inhuurt om een reeks tien bedrijfsrapporten te beoordelen op hoe goed ze over hun milieu- en sociale doelen praten. Je wilt weten: Is het de moeite waard om extra te betalen voor de "super-slimme" redacteur die urenlang diep nadenkt voordat hij schrijft, of is een team van drie "standaard" redacteuren die sneller en goedkoper werken net zo goed?

Dit artikel, geschreven door Hiroyuki Kokubu, beantwoordt die vraag met behulp van een specif kind AI genaamd Large Language Models (LLM's). Hier is de onderverdeling in eenvoudige termen:

De Opstelling: De "Diepe Denker" vs. de "Standaard" Redacteurs

De onderzoekers zetten een wedstrijd op tussen vier AI-modellen:

De "Diepe Denker" (Reasoning-On): Eén model (OpenAI's gpt-5.5) werd ingesteld op zijn "reasoning" modus. Dit is als een redacteur die veel tijd neemt om elke zin te kauwen, een lange interne monoloog uitschrijft en zijn logica dubbelcheckt voordat hij een score geeft. Dit kost veel geld omdat de AI wordt gefactureerd voor al die extra "denktijd".
Het "Standaard Team" (Reasoning-Off): Drie andere modellen (van Anthropic, Google en DeepSeek) werden ingesteld op hun normale modus. Zij zijn als redacteuren die het rapport lezen en snel een score geven zonder de extra interne monoloog. Ze zijn veel goedkoper.

De Taak: Bedrijfsrapporten Beoordelen

De "rapporten" waren echte duurzaamheidsdocumenten van tien grote Japanse bedrijven. De AI moest ze beoordelen op een schaal van 1 tot 5 op basis van drie eenvoudige regels:

N1: Hebben ze specifieke cijfers gegeven voor hun doelen? (bijv. "We zullen de emissies met 50% verminderen tegen 2030.")
N2: Hebben ze een systeem om de voortgang bij te houden? (bijv. "Hier is onze datatabel.")
N3: Hebben ze externe standaarden genoemd? (bijv. "We volgen de TCFD-richtlijnen.")

De Resultaten: De "Diepe Denker" Heeft Niet Gewonnen

De onderzoekers vergeleken de scores gegeven door de dure "Diepe Denker" met de gemiddelde score van de drie goedkopere "Standaard" redacteuren.

De Scores Waren Bijna Identiek: Het verschil tussen het dure model en het goedkope team was minuscuul. Op een schaal van 1 tot 5 was het gemiddelde verschil minder dan een halve punt.
Geen Grote Verrassingen: In 98% van de gevallen lagen de scores binnen één punt van elkaar. Het dure model gaf nooit een score die twee of meer punten verschilde van het goedkope team.
De "Diepe Denker" Lostte Verwarring Niet Op: De onderzoekers hoopten dat als een bedrijfsrapport verwarrend was, de "Diepe Denker" dit beter zou begrijpen. Maar dat gebeurde niet. Wanneer de rapporten moeilijk te beoordelen waren, was het dure model net zo verward als de goedkere modellen.

De Kosten: Het Prijskaartje

Dit is waar het verschil enorm wordt.

De drie goedkope modellen die samenwerkten kostten ongeveer $0,15 per bedrijfsrapport.
Het enkele dure "Diepe Denker" model kostte ongeveer $0,85 per rapport.

De Analogie: Het is alsof je betaalt voor een enkele, hoogbetaalde filosoof om een essay van 10 pagina's te schrijven over een simpele wiskundige som, terwijl drie middelbare scholieren dezelfde som correct kunnen oplossen voor een fractie van de prijs. De filosoof gaf geen beter antwoord; hij besteedde alleen meer tijd en geld eraan.

De Conclusie: Wat Moet Je Doen?

Het artikel concludeert dat voor deze specifieke taak — het beoordelen van bedrijfsrapporten op basis van duidelijke, zichtbare feiten — het uitgeven van extra geld aan "reasoning-heavy" AI een verspilling is.

In plaats daarvan is de beste strategie:

Gebruik het "Standaard Team": Draai de taak door drie goedkopere modellen.
Neem het Gemiddelde: Als alle drie de modellen het eens zijn, heb je je antwoord.
Let op Meningsverschillen: Als de drie goedkope modellen zeer verschillende scores geven (hoge "dispersie"), dan weet je dat het rapport verwarrend is. Dat is de enige keer dat je een menselijke expert moet oproepen om het te controleren.

Kortom: Voor het controleren of een bedrijfsrapport specifieke cijfers en standaardverwijzingen bevat, heb je geen AI nodig die diep "denkt". Je hebt alleen een team van snelle, goedkope AI's nodig die het met elkaar eens zijn. Het extra "denken" maakt de beoordeling niet beter; het maakt alleen de rekening veel hoger.

Technische Samenvatting: Beperkt Marginaal Voordeel van de Inzet van Reasoning-Zware LLM's bij ESG-Narratieve Scoring

1. Probleemstelling

De geautomatiseerde scoring van Environmental, Social, and Governance (ESG) narratieve verklaringen met behulp van Large Language Models (LLM's) wordt steeds gebruikelijker om de omvang en heterogeniteit van bedrijfsverslagen over duurzaamheid te verwerken. Er blijft echter een cruciale operationele vraag onopgelost: bieden "reasoning-zware" frontier-modellen (die gebruikmaken van expliciete chain-of-thought computation budgets die apart van standaard tokens worden gefactureerd) waarde die evenredig is aan hun aanzienlijk hogere kosten?

De gangbare industriële praktijk neigt vaak naar deze reasoning-tiers voor niet-triviale taken, onder de veronderstelling dat verhoogde redenering uniform betere resultaten oplevert. Deze studie daagt die aanname uit voor taken met een extractieve bewijsvoerende structuur, zoals ESG-scoring tegen expliciete rubrieken. In dergelijke taken komt het antwoord doorgaans overeen met identificeerbare oppervlaktekenmerken (spans) binnen een document (bijv. de aanwezigheid van een kwantitatieve doelstelling of een specifieke raamwerkverwijzing), wat suggereert dat het marginale nut van extra reasoning-tokens verwaarloosbaar kan zijn in vergelijking met de operationele kosten.

2. Methodologie

2.1 Data en Reikwijdte

De studie maakt gebruik van een corpus van tien Japanse beursgenoteerde bedrijven, variërend van koolstofintensieve tot dienstverlenende sectoren. Voor elk bedrijf werden ESG-relevante tekstfragmenten (spans) geëxtraheerd uit geïntegreerde jaarverslagen, TCFD-gealigneerde aanvullende verklaringen en afzonderlijke duurzaamheidsverslagen. De dataset bestaat uit ongeveer 27,2 spans per bedrijf (gemiddelde), totaal 272 spans.

De scoring-taak wordt gedefinieerd door drie rubriek-assen afgeleid van het Substance–Narrative–Expectation (SNE) framework:

N1: Explicietheid van kwantitatieve emissiereductiedoelstellingen.
N2: Infrastructuur voor voortgangsbewaking (KPI's, actuele cijfers, externe verificatie).
N3: Afstemming met externe kaders (bijv. SBTi, ISSB, TCFD).
Scores worden toegekend op een schaal van 1–5.

2.2 Experimenteel Ontwerp: Vier-Modellen Consensus

De studie hanteert een vier-modellen consensusontwerp om de impact van reasoning te evalueren:

Reasoning-On Arm: OpenAI's gpt-5.5 geconfigureerd met reasoning_effort=full.
Reasoning-Off Arm: Drie tijdgenoten die draaien in standaardconfiguraties (zonder expliciet reasoning budget):
- Anthropic: claude-opus-4-7 (extended thinking uitgeschakeld).
- Google: gemini-3.1-pro-preview.
- DeepSeek: deepseek-v4-pro.

Alle modellen werden aangeroepen met identieke parameters (temperature=0, top_p=1.0, max output 16.000 tokens) en een uniforme prompt die een integer score en een lijst met bewijs-spans vereist.

2.3 Metrieken en Analyse

Scoring Vergelijking: De studie berekent de absolute afwijking ( $|\Delta|$ ) tussen het reasoning-on model en elk van de reasoning-off tegenhangers over 120 datapunten (10 bedrijven $\times$ 3 assen $\times$ 4 modellen).
Overeenkomst Statistieken: Cohen's quadratic-weighted $\kappa$ en Spearman's $\rho$ worden berekend om de inter-model overeenstemming en rangorde-consistentie te meten.
Kostenboekhouding: Tokenverbruik (prompt, completion en reasoning tokens) en dollarkosten werden geregistreerd voor de experimentele runs in april 2026. Kosten werden geëxtrapoleerd naar een hypothetische uitrol voor 199 bedrijven.

3. Belangrijkste Resultaten

3.1 Scoring Resultaten

Het reasoning-zware model produceerde geen materieel andere resultaten vergeleken met de consensus van de reasoning-off tegenhangers:

Afwijkingsgrootte: De gepoolde gemiddelde absolute afwijking tussen het reasoning-on model en de reasoning-off tegenhangers is 0,38 op een 5-puntsschaal.
Extreme Afwijkingen: Slechts 2% van de paarwijze vergelijkingen bereikte een afwijking van twee punten; geen enkele overschreed twee punten.
Dispersie Analyse: Bij het bedrijf met de hoogste inter-model dispersie (Seven & i Holdings) bleven de scores van het reasoning-on model binnen één punt van de reasoning-off mediaan. De primaire bron van dispersie werd geïdentificeerd als een systematische scoring-bias in één reasoning-off model (DeepSeek), en niet als een gebrek aan reasoning-capaciteit in de anderen.

3.2 Inter-Model Overeenstemming

Rubriek As Overeenstemming: De overeenstemming was het hoogst voor N3 (afstemming met externe standaarden, $\kappa=0,65$ ) en lager voor N1 en N2 ( $\kappa=0,36$ en $0,30$, respectievelijk), wat de moeilijkheid weerspiegelt bij het interpreteren van doelstelling-specificiteit en de toereikendheid van de infrastructuur.
Rangorde Consistentie: Ondanks de lagere punt-overeenstemming op N1 en N2, vertoonden modellen een hoge rangorde-consistentie (gemiddelde Spearman $\rho=0,71$ ), wat aangeeft dat hoewel de absolute kalibratie varieert, de relatieve rangorde van bedrijven stabiel is over de modellen heen.

3.3 Kostenanalyse

Het verschil in kosten is aanzienlijk:

Kosten per Bedrijf: De reasoning-on OpenAI arm kost ongeveer $0,849 per bedrijf. Het ensemble van drie reasoning-off providers kost ongeveer $0,151 per bedrijf.
Kostenratio: De reasoning-on arm alleen is ongeveer 5,6 keer duurder dan het drie-provider reasoning-off ensemble.
Tokengebruik: Het reasoning-on model verbruikte ongeveer 439 reasoning tokens per bedrijf bovenop de standaard prompt- en completion-tokens.

4. Bijdragen en Claims

4.1 Empirisch Bewijs

Het artikel levert empirisch bewijs dat in span-gebaseerde ESG-narratieve scoring, het marginale voordeel van het inzetten van een reasoning-zwaar frontier-model klein is. Het extra reasoning budget leidt niet systematisch tot verbeterde scoring-nauwkeurigheid of verminderde onzekerheid ten opzichte van een consensus van reasoning-off modellen.

4.2 Kosteneffectiviteitsanalyse

De studie toont een aanzienlijke kosten-kwaliteit trade-off aan. De operationele kosten van de reasoning-zware inzet zijn disproportioneel hoog (5,6 $\times$ ) voor resultaten die slechts binnen kleine marges verschillen (sub-punt afwijkingen in 98% van de gevallen).

4.3 Praktische Aanbeveling

De auteurs stellen een inzetstrategie voor voor ESG auto-scoring pipelines voor die prioriteit geeft aan reasoning-off ensembles gecombineerd met consensus-aggregatie.

Onzekerheidskwantificering: In plaats van te vertrouwen op een enkel duur reasoning-model, dient de inter-model dispersie ( $\bar{\sigma}_f$ ) van een reasoning-off ensemble als een goedkope, post-hoc onzekerheidssignaal.
Human-in-the-Loop: Bedrijven die een hoge dispersie vertonen (bijv. $\bar{\sigma}_f > 0,6$ ) moeten worden gemarkeerd voor selectieve menselijke beoordeling, waardoor de allocatie van deskundige middelen wordt geoptimaliseerd.

5. Betekenis en Beperkingen

Het artikel stelt dat voor taken waarbij de rubriek direct in kaart wordt gebracht naar identificeerbare oppervlaktekenmerken in een document, de "reasoning" tier weinig waarde toevoegt omdat de cognitieve belasting meer lijkt op classificatie dan op multi-step inferentie. De studie beperkt haar claims expliciet tot span-gebaseerde ESG-narratieve scoring en breidt deze niet uit naar taken die multi-document synthese, contrafeitelijke redenering of complexe kwantitatieve berekeningen vereisen.

Beperkingen die door de auteurs worden erkend zijn:

Cross-Model Proxy: De vergelijking is tussen verschillende providers (OpenAI versus anderen) in plaats van een binnen-model ablatie (hetzelfde model met/zonder reasoning), wat betekent dat verschillen in pretraining en alignment tussen providers het effect van reasoning kunnen verwarren.
Steekproefomvang: De studie is beperkt tot tien Japanse bedrijven; generalisatie naar andere jurisdicties of sectoren vereist verdere evaluatie.
Datagaten: De metadata van het gebruik van Google Gemini was incompleet, wat leidde tot een schatting van het aantal tokens.
Configuratie Granulariteit: Alleen de "full" reasoning instelling is getest; tussenliggende instellingen zijn niet geëvalueerd.

Concluderend betogen de auteurs dat voor toegepaste verantwoording settings zoals ESG-scoring, het marginale nut van een reasoning-zware inzet onvoldoende is om de operationele kosten te rechtvaardigen, en dat consensus-gebaseerde benaderingen met reasoning-off modellen een efficiënter en robuuster alternatief bieden.

Limited Marginal Benefit of Reasoning-Heavy LLM Deployment in ESG Narrative Scoring: A 4-Model Consensus Study on Japanese Listed Firms