Aggregate vs. Personalized Judges in Business Idea Evaluation: Evidence from Expert Disagreement

Diese Arbeit untersucht, ob KI-basierte Beurteilungen von Geschäftsideen eher einen allgemeinen Expertenkonsens oder individuelle Expertenmeinungen widerspiegeln sollten, und zeigt auf, dass personalisierte KI-Richter bei der Bewertung komplexer, mehrdimensionaler Kriterien präziser auf einzelne Experten abgestimmt sind als aggregierte Modelle.

Ursprüngliche Autoren: Wataru Hirota, Tomoki Taniguchi, Tomoko Ohkuma, Kosuke Takahashi, Takahiro Omi, Kosuke Arima, Takuto Asakura, Chung-Chi Chen, Tatsuya Ishigaki

Veröffentlicht 2026-04-27
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst oder gebilligt. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Die „Geschmacksfrage“ bei Geschäftsideen

Stell dir vor, du bist ein Investor und hast eine riesige Liste mit 300 neuen Ideen für Start-ups vor dir liegen. Du fragst drei Experten: „Ist diese Idee gut?“

  • Experte A (der Techniker): „Die Technik ist brillant, aber der Markt ist zu klein.“
  • Experte B (der Marktschreier): „Der Markt ist riesig! Die Technik ist okay, aber wir müssen sofort starten!“
  • Experte C (der Vorsichtige): „Viel zu riskant. Das wird nie funktionieren.“

Sie benutzen alle das gleiche Bewertungsblatt, aber am Ende kommen völlig unterschiedliche Noten heraus. Das ist kein Fehler – es ist menschlich. Jeder hat seine eigene „Brille“, durch die er die Welt sieht.

Das Problem der KI: Bisher haben Forscher versucht, eine KI (einen „automatischen Richter“) so zu trainieren, dass sie den Durchschnitt aller Experten trifft. Man sagt der KI: „Hier sind die Noten von allen, lerne den Mittelwert.“

Die Forscher in diesem Papier haben sich gefragt: Ist das überhaupt sinnvoll? Wenn man den Durchschnitt aus drei völlig verschiedenen Meinungen bildet, bekommt man am Ende oft eine „verwässerte“ Meinung, die eigentlich niemandem wirklich entspricht.


Die Metapher: Der „Durchschnitts-Koch“ vs. der „Persönliche Koch“

Um das zu verstehen, nutzen wir eine Analogie aus der Küche:

  1. Der „Durchschnitts-Richter“ (Aggregate Judge):
    Stell dir vor, du fragst eine KI, wie ein Gericht schmeckt. Die KI hat aber nur die Durchschnittsnoten von einem Sternekoch (der es scharf mag), einer Oma (die es mild mag) und einem Fitness-Coach (der es gesund mag) gelesen. Wenn die KI nun ein Gericht bewertet, wird sie etwas „mittelmäßiges“ sagen: Nicht zu scharf, nicht zu fettig, nicht zu fad. Es ist ein Kompromiss, der aber weder den Koch noch die Oma wirklich glücklich macht.

  2. Der „Personalisierte Richter“ (Personalized Judge):
    Jetzt geben wir der KI etwas anderes. Wir sagen ihr: „Hier sind die bisherigen Bewertungen von nur der Oma.“ Die KI lernt nun genau, wie die Oma tickt. Wenn sie jetzt ein neues Gericht bewertet, wird sie sagen: „Das ist zu salzig für die Oma!“ Sie spiegelt die persönliche Meinung wider.


Was haben die Forscher herausgefunden?

Die Forscher haben einen riesigen Datensatz (PBIG-DATA) mit 3.000 Bewertungen von echten Experten zu Geschäftsideen erstellt. Dann haben sie die KI-Richter getestet.

Das Ergebnis war eindeutig:

  • Der Durchschnitt ist schwach: Wenn die KI versucht, den „Durchschnitt“ aller Experten zu imitieren, scheitert sie oft. Sie verliert die Nuancen und die Logik der einzelnen Experten.
  • Personalisierung gewinnt: Wenn man der KI sagt: „Verhalte dich wie Experte Müller“, dann wird sie viel präziser. Sie versteht nicht nur die Note, sondern auch die Begründung (das „Warum“), die dieser spezifische Experte nutzt.
  • Struktur statt Chaos: Die Experten sind sich zwar bei den genauen Noten (z. B. 3 oder 4 von 5) uneinig, aber sie sind sich meistens einig, welche Ideen grundsätzlich gut oder schlecht sind. Die KI kann diese „groben Muster“ viel besser erkennen, wenn sie auf eine bestimmte Person zugeschnitten ist.

Warum ist das wichtig für die Zukunft?

Wenn Firmen in Zukunft KI nutzen wollen, um Millionen von Ideen zu prüfen, sollten sie nicht versuchen, eine „Einheits-KI“ zu bauen, die versucht, alle gleichzeitig zufriedenzustellen. Das führt nur zu mittelmäßigen Ergebnissen.

Stattdessen sollten sie „digitale Zwillinge“ ihrer Experten bauen. Eine KI für den Techniker, eine KI für den Marketing-Experten und eine KI für den Finanzchef. So kann man die verschiedenen Perspektiven in einer Firma simulieren, anstatt sie in einem unbrauchbaren Durchschnitt zu begraben.

Kurz gesagt: In der Welt der Ideen gibt es keine einzige Wahrheit – es gibt nur verschiedene Perspektiven. Und eine gute KI muss lernen, diese Perspektiven zu respektieren, anstatt sie zu vermischen.

Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?

Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.

Digest testen →