Consensus is Not Verification: Why Crowd Wisdom Strategies Fail for LLM Truthfulness

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast eine schwierige Frage, die niemand im Raum eindeutig beantworten kann. Zum Beispiel: „Wer wird in 10 Jahren der beliebteste Sänger sein?" oder „Ist diese medizinische Diagnose korrekt, aber es gibt keine Laborergebnisse, um sie zu prüfen?"

Dein erster Gedanke ist vielleicht: „Lass uns viele Leute fragen! Wenn wir 100 Personen befragen und die Mehrheitsmeinung nehmen, müssen wir ja recht haben. Das ist das Prinzip der ‚Weisheit der Vielen'."

Genau das haben die Autoren dieses Papiers untersucht, aber mit Künstlicher Intelligenz (KI) statt mit Menschen. Ihre überraschende Entdeckung? Bei KI funktioniert das nicht. Mehr KI-Modelle zu fragen, macht die Antwort nicht wahrer, sondern oft nur selbstbewusster in ihrer Falschheit.

Hier ist die Erklärung, wie ein einfaches Märchen:

1. Der falsche Freund: Die „Weisheit der Vielen"

In der echten Welt funktioniert die Weisheit der Vielen, weil jeder Mensch andere Erfahrungen hat. Wenn einer einen Fehler macht, macht ein anderer einen anderen Fehler. Wenn man alle Antworten zusammenzählt, heben sich die Fehler gegenseitig auf, und die Wahrheit bleibt übrig.

Aber KI-Modelle sind keine verschiedenen Menschen.
Stell dir vor, du hast fünf Schüler, die alle exakt dasselbe Lehrbuch gelesen haben, denselben Lehrer hatten und denselben Test geschrieben haben. Wenn einer von ihnen eine falsche Formel auswendig gelernt hat, werden die anderen vier wahrscheinlich denselben Fehler machen.

Die Autoren zeigen: Moderne KI-Modelle sind wie diese Schüler. Sie wurden mit ähnlichen Daten trainiert und lernen ähnliche Muster. Wenn eine KI eine falsche Antwort gibt, geben die anderen KIs fast immer dieselbe falsche Antwort.

2. Der Echo-Keller-Effekt

Stell dir vor, du stehst in einem leeren Raum und rufst: „Der Himmel ist grün!"
Wenn du nur einmal rufst, klingt es verrückt.
Aber wenn du 100 Mikrofone aufstellst und 100 KI-Modelle (die alle denselben Fehler im „Gehirn" haben) denselben Satz rufen lassen, hallt es laut zurück: „Der Himmel ist grün! Der Himmel ist grün!"

Das Ergebnis? Du hast jetzt eine überzeugende Mehrheit. Die KI ist sich zu 100 % sicher, dass der Himmel grün ist. Aber sie ist trotzdem falsch.
Das ist das Kernproblem der Studie: Konsens ist keine Verifizierung. Nur weil alle zustimmen, heißt das nicht, dass sie recht haben. Es heißt nur, dass sie denselben Fehler teilen.

3. Der Test mit den Zufallsbuchstaben

Um zu beweisen, dass es nicht nur an „falschem Wissen" liegt, führten die Forscher einen genialen Test durch.
Sie gaben den KI-Modellen völlig sinnlose, zufällige Buchstabenketten (wie gP%!mdq4k!) und fragten: „Welche Option ist richtig: A, B, C oder D?"

Es gab hier keine richtige Antwort. Es gab kein Wissen, das geteilt werden konnte.
Aber was passierte? Die KIs stimmten sich immer noch untereinander ab! Sie wählten oft dieselben falschen Buchstaben.
Warum? Weil ihre „Gehirnstrukturen" (die Architektur und das Training) so ähnlich sind, dass sie bei Unsicherheit automatisch in dieselben Fallen tappen. Es ist wie ein Schachcomputer, der immer denselben Zug macht, wenn er in eine Sackgasse gerät – egal, ob er gegen einen anderen Computer oder gegen sich selbst spielt.

4. Das Problem mit dem Selbstvertrauen

Man könnte denken: „Okay, aber die KI sagt doch selbst, wie sicher sie ist. Wenn sie zu 99 % sicher ist, muss sie ja recht haben, oder?"
Die Studie zeigt: Nein.
Wenn die KI eine falsche Antwort gibt, ist sie oft noch sicherer davon überzeugt, dass sie recht hat, als wenn sie eine richtige Antwort gibt. Das liegt daran, dass KI-Modelle oft darauf trainiert wurden, „typisch" und „überzeugend" zu klingen, nicht unbedingt wahr. Sie lernen, was die Masse erwartet, nicht was die Wahrheit ist.

Die große Lektion

Die Autoren kommen zu einem klaren Fazit:

Wenn es einen Prüfer gibt (z. B. bei Matheaufgaben, wo man das Ergebnis nachrechnen kann, oder beim Programmieren, wo der Code ausgeführt wird): Dann hilft es, viele KI-Antworten zu generieren und die falschen herauszufiltern. Das funktioniert super.
Wenn es keinen Prüfer gibt (z. B. bei Fakten, Meinungen oder Vorhersagen): Dann bringt es nichts, einfach mehr Rechenleistung zu verschwenden und 100 Antworten zu generieren. Du bekommst nur eine lautere Version desselben Fehlers.

Zusammengefasst:
Wenn du wissen willst, ob eine KI recht hat, kannst du nicht einfach fragen: „Was denkt die Mehrheit der KIs?"
Du brauchst einen externen Prüfer (einen Menschen, ein Werkzeug, eine Datenbank), der die Antwort verifiziert. Ohne diesen Prüfer ist die „Weisheit der KI-Menge" nur ein Echo-Keller, der Lügen laut und überzeugend wiederholt.

Die Moral der Geschichte: Mehr Rechenleistung allein macht die KI nicht wahrheitsfähiger. Um die Wahrheit zu finden, brauchen wir nicht mehr Stimmen, sondern bessere Werkzeuge zur Überprüfung.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das Paper adressiert die Frage, ob die Skalierung von Rechenleistung zur Inferenzzeit (Inference-time scaling) – insbesondere durch das Generieren mehrerer Antworten und deren Aggregation („Crowd Wisdom") – die Wahrhaftigkeit (Truthfulness) von Large Language Models (LLMs) in Domänen verbessern kann, die keine externen Verifizierer besitzen (z. B. Mathematik oder Code, wo Antworten automatisch überprüfbar sind).

Während Methoden wie Self-Consistency (Mehrheitsvoting) in verifizierbaren Domänen erfolgreich sind, basiert die intuitive Annahme für nicht-verifizierbare Domänen auf dem Prinzip der „Weisheit der Menge": Die Annahme, dass die Aggregation vieler unvollkommener Urteile die Wahrheit wiederherstellen kann, selbst wenn Einzelpersonen Fehler machen. Die Autoren untersuchen, ob diese Annahme auf LLMs übertragbar ist.

2. Methodik

Die Autoren führten umfassende Experimente durch, um verschiedene Aggregationsstrategien und deren Wirksamkeit zu testen:

Benchmarks: Es wurden fünf Benchmarks verwendet, die keine externen Verifizierer besitzen:
- Com2Sense: Common-Sense-Reasoning.
- Humanity's Last Exam (HLE): Expertenfragen.
- BoolQ: Faktenbasierte Fragen.
- Predict-the-Future: Prognosefragen zu Ereignissen nach dem Wissensstand der Modelle (Ground Truth war verfügbar, aber für das Modell unbekannt).
Modelle: Fünf verschiedene, instruction-tuned Open-Source-Modelle (Gemma, GPT-oss, Qwen) mit Parametern zwischen 4B und 235B.
Sampling-Protokoll: Für jede Frage wurden 25 unabhängige Proben pro Modell bei Temperaturen $T \in \{0.7, 1.0\}$ generiert. Dies entspricht einem 25-fachen Inferenzkosten-Faktor im Vergleich zum naiven Sampling.
Aggregationsmethoden: Es wurden fünf interne Signal-basierte Strategien getestet:
1. Mehrheitsvoting (Majority Vote).
2. Höchste Konfidenz (Highest Confidence).
3. Konfidenz-gewichtetes Voting.
4. Vorhersage-gewichtetes Voting (basierend auf vorhergesagter Popularität).
5. „Surprisingly Popular" (SP) Algorithmus (wählt die Antwort, deren tatsächliche Unterstützung höher ist als die vorhergesagte).
Kontroll-Experiment (Negative Control): Um zu prüfen, ob Korrelationen nur auf geteiltem Wissen beruhen, wurden Modelle aufgefordert, auf zufälligen ASCII-Strings (ohne jegliche Ground-Truth-Information) eine Multiple-Choice-Antwort zu geben.

3. Wichtige Beiträge und Erkenntnisse

A. Aggregation verbessert die Wahrheit nicht

Entgegen der Erwartung führte keine der getesteten Aggregationsmethoden zu einer konsistenten Verbesserung der Genauigkeit im Vergleich zu einem einzelnen Sample-Baseline.

Selbst bei 25-fachen Inferenzkosten blieb die Genauigkeit flach oder verschlechterte sich.
Auf dem Prognose-Benchmark (Predict-the-Future) performten alle Methoden auf Zufallsniveau (Chance), da die Modelle keine echten Vorhersagen treffen konnten.

B. Korrelierte Fehler als strukturelle Ursache

Der Kern des Scheiterns liegt in stark korrelierten Fehlern.

Die „Weisheit der Menge" setzt voraus, dass Fehler unabhängig oder nur schwach korreliert sind. LLMs verletzen diese Annahme jedoch massiv.
Modelle, die auf überlappenden Korpora trainiert und für ähnliche Ziele optimiert wurden, teilen sich gemeinsame Priors und Blinde Flecken. Wenn ein Modell einen falschen, aber plausiblen Fehler macht, machen es andere Modelle oft genauso.
Ergebnis: Aggregation verstärkt diese gemeinsamen Misskonzepte („Shared Misconceptions") anstatt sie auszugleichen. Mehr Konsens bedeutet nicht mehr Richtigkeit.

C. Trennung von sozialer Vorhersage und Wahrheit

Die Studie zeigt eine fundamentale Trennung zwischen zwei Fähigkeiten:

Soziale Vorhersage: Modelle sind hervorragend darin vorherzusagen, was andere Modelle sagen werden (Konsens).
Wahrheitsverifikation: Modelle sind schlecht darin, die tatsächliche Wahrheit zu identifizieren.

Metriken wie Selbstberichtete Konfidenz oder der Surprisingly-Popular-Signal verfolgen eher den erwarteten Konsens als die epistemische Gewissheit. Konfidenz steigt oft schneller als die Genauigkeit und ist kein zuverlässiger Indikator für Richtigkeit.

D. Der „No-Signal"-Beweis

Selbst im Kontroll-Experiment mit zufälligen Strings (wo keine Wahrheit existiert) zeigten verschiedene Modelle eine signifikante positive Korrelation in ihren Antworten (bis zu 0,35).

Dies beweist, dass die Korrelation nicht nur auf geteiltem Faktenwissen beruht, sondern auf strukturellen Induktionsbias und architektonischen Ähnlichkeiten in den Modellgewichten.

4. Ergebnisse im Detail

Fehlerkorrelation: In verifizierbaren Domänen (wie Mathematik) hilft Aggregation nur, weil externe Verifizierer falsche Antworten filtern können. Ohne Verifizierer konvergieren Modelle oft auf denselben falschen Antwort („Plurality-Wrong"-Fälle).
Surprisingly Popular (SP) Algorithmus: Dieser Algorithmus versagt, da die notwendige Struktur einer „Expert-Minderheit", die die Wahrheit kennt und den Fehler der Mehrheit antizipiert, bei LLM-Populationen nicht stabil vorhanden ist. Das Signal ist oft sogar anti-korreliert mit der Wahrheit.
Temperatur-Sampling: Das Erhöhen der Temperatur (von 0,7 auf 1,0) erzeugt nur oberflächliche Variation, aber keine echte Unabhängigkeit der Hypothesen.

5. Bedeutung und Schlussfolgerung

Das Paper definiert eine klare Grenze für das Inference-time Scaling:

Mit Verifizierer: Zusätzliche Samples liefern mehr Kandidaten, die gefiltert werden können -> Genauigkeit steigt.
Ohne Verifizierer: Zusätzliche Samples verstärken nur gemeinsame Fehler -> Genauigkeit bleibt gleich oder sinkt.

Implikationen:

Kein Ersatz für Verifikation: Konsens ist kein Ersatz für Verifikation. Das bloße „Werfen von Rechenleistung" auf das Problem reicht nicht aus, um die Wahrheit in nicht-verifizierbaren Domänen zu skalieren.
Notwendigkeit externer Grounding: Um die Wahrheitsskalierung zu erreichen, sind externe Grounding-Mechanismen (RAG, Tool-Use, menschliches Feedback) oder echte epistemische Diversität (disjunkte Trainingsziele) erforderlich, um die Fehlerkorrelation zu brechen.
Neue Perspektive auf Aggregation: Anstatt Aggregation zur Antwortauswahl zu nutzen, sollte sie genutzt werden, um Risiken zu identifizieren. Hoher Konsens bei niedriger Korrektheit kann als Warnsignal für gemeinsame Fehlermodi dienen.

Zusammenfassend widerlegt das Paper die naive Hoffnung, dass LLMs durch bloße Mehrheitsbildung oder interne Selbstkorrektur zuverlässig wahrheitsfähig werden, und fordert stattdessen Ansätze, die externe Validierung oder echte Unabhängigkeit der Fehlerquellen integrieren.