Consensus is Not Verification: Why Crowd Wisdom Strategies Fail for LLM Truthfulness

Die Studie zeigt, dass sich die Wahrheitstreue von Sprachmodellen in nicht verifizierbaren Domänen durch Abstimmungsmethoden oder die Skalierung der Inferenz nicht verbessern lässt, da die Fehler der Modelle stark korreliert sind und Aggregation stattdessen gemeinsame Missverständnisse verstärkt.

Yegor Denisov-Blanch, Joshua Kazdan, Jessica Chudnovsky, Rylan Schaeffer, Sheng Guan, Soji Adeshina, Sanmi Koyejo

Veröffentlicht 2026-03-10
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast eine schwierige Frage, die niemand im Raum eindeutig beantworten kann. Zum Beispiel: „Wer wird in 10 Jahren der beliebteste Sänger sein?" oder „Ist diese medizinische Diagnose korrekt, aber es gibt keine Laborergebnisse, um sie zu prüfen?"

Dein erster Gedanke ist vielleicht: „Lass uns viele Leute fragen! Wenn wir 100 Personen befragen und die Mehrheitsmeinung nehmen, müssen wir ja recht haben. Das ist das Prinzip der ‚Weisheit der Vielen'."

Genau das haben die Autoren dieses Papiers untersucht, aber mit Künstlicher Intelligenz (KI) statt mit Menschen. Ihre überraschende Entdeckung? Bei KI funktioniert das nicht. Mehr KI-Modelle zu fragen, macht die Antwort nicht wahrer, sondern oft nur selbstbewusster in ihrer Falschheit.

Hier ist die Erklärung, wie ein einfaches Märchen:

1. Der falsche Freund: Die „Weisheit der Vielen"

In der echten Welt funktioniert die Weisheit der Vielen, weil jeder Mensch andere Erfahrungen hat. Wenn einer einen Fehler macht, macht ein anderer einen anderen Fehler. Wenn man alle Antworten zusammenzählt, heben sich die Fehler gegenseitig auf, und die Wahrheit bleibt übrig.

Aber KI-Modelle sind keine verschiedenen Menschen.
Stell dir vor, du hast fünf Schüler, die alle exakt dasselbe Lehrbuch gelesen haben, denselben Lehrer hatten und denselben Test geschrieben haben. Wenn einer von ihnen eine falsche Formel auswendig gelernt hat, werden die anderen vier wahrscheinlich denselben Fehler machen.

Die Autoren zeigen: Moderne KI-Modelle sind wie diese Schüler. Sie wurden mit ähnlichen Daten trainiert und lernen ähnliche Muster. Wenn eine KI eine falsche Antwort gibt, geben die anderen KIs fast immer dieselbe falsche Antwort.

2. Der Echo-Keller-Effekt

Stell dir vor, du stehst in einem leeren Raum und rufst: „Der Himmel ist grün!"
Wenn du nur einmal rufst, klingt es verrückt.
Aber wenn du 100 Mikrofone aufstellst und 100 KI-Modelle (die alle denselben Fehler im „Gehirn" haben) denselben Satz rufen lassen, hallt es laut zurück: „Der Himmel ist grün! Der Himmel ist grün!"

Das Ergebnis? Du hast jetzt eine überzeugende Mehrheit. Die KI ist sich zu 100 % sicher, dass der Himmel grün ist. Aber sie ist trotzdem falsch.
Das ist das Kernproblem der Studie: Konsens ist keine Verifizierung. Nur weil alle zustimmen, heißt das nicht, dass sie recht haben. Es heißt nur, dass sie denselben Fehler teilen.

3. Der Test mit den Zufallsbuchstaben

Um zu beweisen, dass es nicht nur an „falschem Wissen" liegt, führten die Forscher einen genialen Test durch.
Sie gaben den KI-Modellen völlig sinnlose, zufällige Buchstabenketten (wie gP%!mdq4k!) und fragten: „Welche Option ist richtig: A, B, C oder D?"

Es gab hier keine richtige Antwort. Es gab kein Wissen, das geteilt werden konnte.
Aber was passierte? Die KIs stimmten sich immer noch untereinander ab! Sie wählten oft dieselben falschen Buchstaben.
Warum? Weil ihre „Gehirnstrukturen" (die Architektur und das Training) so ähnlich sind, dass sie bei Unsicherheit automatisch in dieselben Fallen tappen. Es ist wie ein Schachcomputer, der immer denselben Zug macht, wenn er in eine Sackgasse gerät – egal, ob er gegen einen anderen Computer oder gegen sich selbst spielt.

4. Das Problem mit dem Selbstvertrauen

Man könnte denken: „Okay, aber die KI sagt doch selbst, wie sicher sie ist. Wenn sie zu 99 % sicher ist, muss sie ja recht haben, oder?"
Die Studie zeigt: Nein.
Wenn die KI eine falsche Antwort gibt, ist sie oft noch sicherer davon überzeugt, dass sie recht hat, als wenn sie eine richtige Antwort gibt. Das liegt daran, dass KI-Modelle oft darauf trainiert wurden, „typisch" und „überzeugend" zu klingen, nicht unbedingt wahr. Sie lernen, was die Masse erwartet, nicht was die Wahrheit ist.

Die große Lektion

Die Autoren kommen zu einem klaren Fazit:

  • Wenn es einen Prüfer gibt (z. B. bei Matheaufgaben, wo man das Ergebnis nachrechnen kann, oder beim Programmieren, wo der Code ausgeführt wird): Dann hilft es, viele KI-Antworten zu generieren und die falschen herauszufiltern. Das funktioniert super.
  • Wenn es keinen Prüfer gibt (z. B. bei Fakten, Meinungen oder Vorhersagen): Dann bringt es nichts, einfach mehr Rechenleistung zu verschwenden und 100 Antworten zu generieren. Du bekommst nur eine lautere Version desselben Fehlers.

Zusammengefasst:
Wenn du wissen willst, ob eine KI recht hat, kannst du nicht einfach fragen: „Was denkt die Mehrheit der KIs?"
Du brauchst einen externen Prüfer (einen Menschen, ein Werkzeug, eine Datenbank), der die Antwort verifiziert. Ohne diesen Prüfer ist die „Weisheit der KI-Menge" nur ein Echo-Keller, der Lügen laut und überzeugend wiederholt.

Die Moral der Geschichte: Mehr Rechenleistung allein macht die KI nicht wahrheitsfähiger. Um die Wahrheit zu finden, brauchen wir nicht mehr Stimmen, sondern bessere Werkzeuge zur Überprüfung.