Aggregate vs. Personalized Judges in Business Idea Evaluation: Evidence from Expert Disagreement

Dit onderzoek toont aan dat bij het beoordelen van zakelijke ideeën gepersonaliseerde AI-beoordelaars, die zijn afgestemd op de specifieke scorestijl van een expert, nauwkeuriger zijn dan algemene AI-beoordelaars die proberen een gemiddelde consensus te bereiken.

Oorspronkelijke auteurs: Wataru Hirota, Tomoki Taniguchi, Tomoko Ohkuma, Kosuke Takahashi, Takahiro Omi, Kosuke Arima, Takuto Asakura, Chung-Chi Chen, Tatsuya Ishigaki

Gepubliceerd 2026-04-27
📖 3 min leestijd☕ Koffiepauze-leesvoer

Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor: je bent een jury bij een talentenjacht zoals Holland's Got Talent. De ene jurylid vindt een zanger fantastisch omdat de emotie perfect is, terwijl de andere jurylid alleen maar let op de technische perfectie van de noten. Ze kijken naar precies hetzelfde optreden, maar hun cijfers liggen mijlenver uit elkaar.

Is dat een probleem? Is de jury "fout" omdat ze het niet eens zijn?

Dit wetenschappelijke onderzoek (over het beoordelen van zakelijke ideeën door AI) gaat precies over dit dilemma. Hier is de uitleg in begrijpelijke taal.

Het probleem: De "Gemiddelde" Jury is saai en onnauwkeurig

Wanneer bedrijven nieuwe productideeën bedenken (bijvoorbeeld: "Een AI die patenten leest om nieuwe medicijnen te vinden"), moeten experts die ideeën beoordelen. Sommige experts zijn technici, anderen zijn zakenmensen.

Tot nu toe probeerden we AI (zoals ChatGPT) te gebruiken als een "automatische rechter". De standaardmethode was: we pakken alle cijfers van alle experts, gooien ze op één grote hoop, berekenen het gemiddelde, en zeggen tegen de AI: "Leer dit gemiddelde cijfer aan en beoordeel voortaan alle nieuwe ideeën volgens dit gemiddelde."

De onderzoekers ontdekten dat dit een fout is.

Het gemiddelde van een technicus en een zakenman is een "grijs" cijfer dat eigenlijk niemand echt weerspiegelt. Het is alsof je een gerecht probeert te beschrijven door de smaak van een peperduur biefstukje en een vegetarische salade te middelen: je krijgt een soort lauwe pap waar niemand blij van wordt.

De ontdekking: Verschil is geen ruis, maar een stijl

De onderzoekers maakten een enorme dataset (PBIG-DATA) met duizenden scores van echte experts op verschillende vlakken (zoals: "Is dit technisch haalbaar?" of "Is er wel een markt voor?").

Ze zagen twee belangrijke dingen:

  1. De cijfers verschillen enorm: De experts zijn het bijna nooit eens over de exacte punten (een 3 of een 4).
  2. Maar de richting is hetzelfde: Hoewel de één een 2 geeft en de ander een 4, zijn ze het er vaak wel over eens dat een idee "goed" of "slecht" is.

Dit betekent dat experts niet zomaar wat aanmodderen (geen "ruis"), maar dat ze simpelweg een eigen bril op hebben. De een kijkt door een blauwe bril, de ander door een rode.

De oplossing: De "Gepersonaliseerde AI-Rechter"

In plaats van de AI te leren wat het gemiddelde is, testten de onderzoekers een nieuwe aanpak: de Gepersonaliseerde Rechter.

In plaats van te zeggen: "Beoordeel dit zoals de gemiddelde mens dat doet," zeggen ze tegen de AI: "Kijk naar de eerdere scores van Expert Jan. Jan is heel streng op techniek maar heel enthousiast over marketing. Beoordeel dit nieuwe idee nu precies zoals Jan dat zou doen."

Het resultaat?
De gepersonaliseerde AI was veel beter in het voorspellen van wat een specifieke expert zou zeggen. De AI leerde niet alleen de cijfers, maar ook de redenering (de "stijl") van de expert.

Wat betekent dit voor de echte wereld?

Stel je een groot bedrijf voor dat duizenden innovatieve ideeën krijgt. In plaats van één algemene AI die zegt: "Dit idee krijgt een 6, doei," kun je straks een systeem hebben dat zegt:

  • "De technische afdeling zal dit idee een 2 geven (te riskant), maar de marketingafdeling zal het een 9 geven (super trendy)."

De conclusie van het onderzoek: We moeten AI niet leren om de "wijze stem van het volk" te imiteren, maar juist om de verschillende, unieke perspectieven van experts te begrijpen. Pas dan krijg je een echt scherp beeld van de toekomst.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →