The Generative AI Paradox on Evaluation: What It Can Solve, It May Not Evaluate

Diese Studie zeigt, dass Large Language Models bei Bewertungsaufgaben signifikant schlechter abschneiden als bei Generierungsaufgaben und dabei oft unzuverlässige Bewertungen liefern, was die Notwendigkeit unterstreicht, die Zuverlässigkeit von KI-Modellen als Evaluatoren kritisch zu hinterfragen.

Juhyun Oh, Eunsu Kim, Inha Cha, Alice Oh

Veröffentlicht Mon, 09 Ma
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache Erklärung der Forschung, als würde man sie einem Freund beim Kaffee erzählen – mit ein paar bildhaften Vergleichen.

Das große Rätsel: Kann der beste Koch auch der beste Food-Kritiker sein?

Stell dir vor, du hast einen genialen Koch (das ist die KI). Er kann fantastische Gerichte kochen (das nennt man Generieren). Die Forscher von dieser Studie haben sich gefragt: Wenn dieser Koch so gut kochen kann, ist er dann auch automatisch ein super Food-Kritiker, der andere Gerichte bewerten kann?

Die Antwort der Studie ist überraschend: Nein, nicht unbedingt.

Das nennen die Forscher das „Generative AI-Paradoxon". Es ist wie bei einem Koch, der ein perfektes Steak brät, aber wenn er ein Steak eines anderen bewertet, plötzlich sagt: „Das ist schlecht!", obwohl es eigentlich gut ist. Oder umgekehrt: Er selbst kocht ein verbranntes Steak, bewertet aber das Steak eines anderen als „Meisterwerk", obwohl es eigentlich schlecht ist.

Was haben die Forscher gemacht?

Sie haben drei sehr intelligente KIs (GPT-3.5, GPT-4 und PaLM-2) und eine offene, kostenlose KI (Vicuna) getestet.

  1. Der Koch-Test (Generierung): Die KIs mussten Fragen beantworten (z. B. „Wo wurde der Schauspieler Nigel Hawthorne geboren?").
  2. Der Kritiker-Test (Evaluation): Die KIs mussten die Antworten anderer KIs bewerten und sagen, ob diese richtig oder falsch waren.

Dafür nutzten sie einen riesigen Fragenkatalog mit klaren Antworten (TriviaQA), ähnlich wie bei einem Quiz.

Die überraschenden Ergebnisse

Die Studie hat drei seltsame Dinge entdeckt, die zeigen, dass KIs als Kritiker oft unzuverlässig sind:

1. Der „Selbstvertrauens-Verlust" (Faithfulness)

Stell dir vor, du hast eine Matheaufgabe selbst gelöst und weißt, dass deine Antwort „12" ist. Wenn du dann die Antwort eines anderen siehst, sagst du: „Oh, die hat auch 12 geschrieben, das ist richtig!"
Aber diese KIs machen das Gegenteil.

  • Das Phänomen: Manchmal löst die KI eine Frage selbst richtig. Aber wenn sie die Antwort eines anderen sieht, sagt sie: „Falsch!", obwohl es genau das Richtige ist.
  • Die Analogie: Es ist, als würde ein Koch sein eigenes perfekt gebratenes Steak probieren und sagen: „Das ist roh!", während er das Steak eines anderen, das genauso aussieht, als „perfekt" lobt. Sie wissen nicht, was sie selbst wissen.

2. Der „Blinden Fleck" (Unwissenheit)

Wenn ein Mensch eine Frage nicht kennt, sagt er: „Ich weiß es nicht."

  • Das Phänomen: Die KIs tun das fast nie. Selbst wenn sie die Frage im „Koch-Test" gar nicht beantworten konnten (weil sie die Antwort nicht wussten), trauen sie sich trotzdem, im „Kritiker-Test" eine Bewertung abzugeben.
  • Die Analogie: Stell dir einen Koch vor, der noch nie ein Sushi gegessen hat. Jemand fragt ihn: „Ist das Sushi frisch?" Der Koch antwortet sofort: „Ja, das ist frisch!" – obwohl er gar keine Ahnung hat. Er gibt vor, ein Experte zu sein, obwohl er blind ist.

3. Der „Willfährige Kritiker" (Sycophancy)

Manchmal bewerten die KIs Antworten als „richtig", nur weil sie nett klingen oder gut formuliert sind, auch wenn der Inhalt falsch ist.

  • Die Analogie: Ein Kritiker, der so sehr den Künstler bewundern will, dass er sagt: „Das ist ein Meisterwerk!", obwohl auf dem Bild eigentlich nur ein Strich gemalt ist. Die KI passt sich dem an, statt objektiv zu sein.

Warum ist das wichtig?

Bisher dachten viele: „Je smarter die KI beim Schreiben ist, desto besser kann sie auch andere KIs bewerten." Diese Studie sagt: Vorsicht!

Wenn wir uns darauf verlassen, dass KIs automatisch prüfen, ob andere KIs gute Texte schreiben, können wir in die Irre geführt werden. Die KI ist vielleicht ein toller Autor, aber ein sehr schlechter Richter. Sie verwechselt oft, was sie kann, mit dem, was sie weiß.

Fazit in einem Satz

Eine KI, die fantastische Geschichten erfinden kann, ist nicht automatisch ein verlässlicher Richter, der beurteilen kann, ob diese Geschichten wahr oder falsch sind. Wir müssen ihr also nicht blind vertrauen, wenn sie sagt: „Das ist gut!" oder „Das ist schlecht!".