HypoSpace: Evaluating LLM Creativity as Set-Valued Hypothesis Generators under Underdetermination

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du bist ein Detektiv, der einen mysteriösen Fall lösen muss. Du hast nur ein paar Hinweise (die Beobachtungen). Das Problem ist: Es gibt nicht eine Lösung, sondern Dutzende, vielleicht sogar Hunderte von verschiedenen Täterprofilen, die alle perfekt zu deinen Hinweisen passen.

In der Wissenschaft nennen wir das Unterdeterminiertheit: Die Beweise reichen aus, um viele verschiedene Theorien zu stützen, aber nicht aus, um nur eine davon als die einzig wahre zu bestätigen.

Das Papier "HypoSpace" untersucht, wie gut moderne künstliche Intelligenzen (KI) – speziell sogenannte Large Language Models (LLMs) – in solchen Situationen abschneiden. Hier ist die Erklärung in einfachen Worten:

1. Das Problem: Der "Ein-Antwort"-Fehler

Bisher haben wir KI-Modelle meist so getestet, als gäbe es nur eine richtige Antwort. Wenn die KI diese eine Antwort fand, bekam sie einen Punkt. Aber in der echten Wissenschaft ist das oft falsch. Ein guter Wissenschaftler sollte nicht nur eine plausible Erklärung finden, sondern den gesamten Raum möglicher Erklärungen erkunden.

Die Forscher haben ein neues Testfeld namens HypoSpace entwickelt. Sie behandeln die KI nicht als Antwortmaschine, sondern als einen Sammler von Ideen. Die KI soll nicht nur eine, sondern viele verschiedene, korrekte Theorien auf einmal produzieren.

2. Der Test: Drei neue Messlatten

Statt nur zu fragen "Ist die Antwort richtig?", misst HypoSpace drei Dinge:

Richtigkeit (Validity): Sind die Ideen, die die KI liefert, überhaupt möglich? (Wie ein Detektiv, der keine völlig verrückten Theorien aufstellt).
Einzigartigkeit (Uniqueness): Findet die KI wirklich verschiedene Ideen oder wiederholt sie nur immer wieder dasselbe? (Wie ein Detektiv, der nicht nur "Der Butler" sagt, sondern auch "Die Haushälterin", "Der Gärtner" und "Der Neffe" als Verdächtige nennt).
Wiederfindungsrate (Recovery): Wie viel vom gesamten Pool an möglichen Lösungen hat die KI tatsächlich gefunden? (Hat der Detektiv 10 % der Verdächtigen gefunden oder 90 %?).

3. Die drei Spielwiesen

Um das zu testen, haben die Forscher drei verschiedene "Spiele" gebaut, bei denen man genau weiß, wie viele Lösungen es gibt:

Kausalität: Wer hat wen beeinflusst? (Wie ein Netzwerk aus Dominosteinen).
3D-Rekonstruktion: Wie sieht ein Objekt von oben aus, wenn man nur den Schatten sieht? (Wie ein Puzzle, bei dem man den Schatten eines Stapels Kisten sieht und erraten muss, wie die Kisten gestapelt sind).
Genetik: Welche Kombination von Genen führt zu welchem Ergebnis? (Wie ein Rezept, bei dem man die Zutaten und das Ergebnis kennt, aber das genaue Kochrezept erraten muss).

4. Die schockierende Entdeckung: Der "Mode Collapse"

Das Ergebnis ist beunruhigend, aber wichtig:
Die besten KI-Modelle sind super gut darin, eine richtige Antwort zu finden (hohe Richtigkeit). Aber sobald die Anzahl der möglichen Lösungen wächst, werden sie faul.

Stell dir vor, die KI ist wie ein Tourist in einer riesigen Stadt mit tausenden Parks.

Das Problem: Die KI findet immer denselben kleinen Park, der ihr am besten gefällt. Sie sagt: "Hier ist ein Park! Und hier ist noch einer!" – aber es ist immer derselbe Park, nur mit leicht anderen Worten beschrieben.
Der Effekt: Sie ignoriert die anderen 999 Parks komplett. In der Fachsprache nennt man das Mode Collapse (Zusammenbruch der Vielfalt). Die KI "versteift" sich auf ein paar wenige, einfache Lösungen und erkundet den Rest des Raums nicht.

5. Warum passiert das?

Die KI ist wie ein Mensch, der immer den einfachsten Weg geht. Wenn es 100 Lösungen gibt, sind 90 davon kompliziert und 10 einfach. Die KI mag die einfachen. Sie denkt: "Warum sollte ich mich anstrengen und die komplizierten Lösungen suchen, wenn die einfachen auch passen?"

Die Forscher zeigen mathematisch, dass selbst wenn man die KI 1000 Mal fragt, sie wahrscheinlich immer wieder dieselben 10 einfachen Lösungen ausspuckt, weil ihre "Wahrscheinlichkeit" für die komplizierten Lösungen zu gering ist.

6. Die Lösung: "Komplexitäts-Stratifizierung"

Gibt es einen Ausweg? Ja! Die Forscher haben eine einfache Methode getestet: Stratifizierte Decodierung.

Statt der KI einfach zu sagen: "Finde Lösungen!", sagen sie ihr:

"Finde mir 3 einfache Lösungen."
"Finde mir 3 mittelschwere Lösungen."
"Finde mir 3 sehr komplexe Lösungen."

Das zwingt die KI, aus ihrer Komfortzone herauszukommen. Es ist, als würdest du dem Touristen sagen: "Du darfst nicht in den ersten Park gehen, den du siehst. Du musst zuerst den Park am anderen Ende der Stadt besuchen."
Das Ergebnis: Die KI findet plötzlich viel mehr verschiedene Lösungen und deckt den gesamten Raum besser ab.

Fazit für den Alltag

Dieses Papier sagt uns: KIs sind großartige "Erfinder", aber schlechte "Erkunder". Wenn wir sie in der Wissenschaft einsetzen wollen, um neue Entdeckungen zu machen, dürfen wir nicht erwarten, dass sie von allein alle Möglichkeiten durchgehen. Wir müssen sie aktiv dazu anleiten, auch die komplizierten und unkonventionellen Wege zu suchen.

HypoSpace ist also wie ein Diagnose-Tool für die Kreativität der KI. Es zeigt uns, wo die KI aufhört, kreativ zu sein, und wo wir ihr helfen müssen, den Horizont zu erweitern.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „HypoSpace: A Diagnostic Benchmark for Set-Valued Hypothesis Generation under Underdetermination and Sublinear Coverage Bounds" auf Deutsch:

1. Problemstellung: Das Problem der Unterbestimmtheit

Viele wissenschaftliche Inferenzprobleme sind unterbestimmt (underdetermined). Das bedeutet, dass dieselben Beobachtungen mit mehreren, mechanistisch unterschiedlichen Hypothesen konsistent sein können. Ein klassisches Beispiel ist die EEG-Quellenbildgebung, bei der unendlich viele neuronale Quellenverteilungen identische Kopfpotentiale erzeugen können.

Das zentrale Problem besteht darin, dass aktuelle Benchmarks für Large Language Models (LLMs) oft nur die Korrektheit einer einzelnen Antwort bewerten. Dies lässt die Frage offen, ob Modelle in der Lage sind, den Raum aller zulässigen Hypothesen systematisch zu explorieren, anstatt nur eine einzige gültige Erklärung zu finden. LLMs neigen dazu, bei wachsender Hypothesenmenge in einen „Mode Collapse" zu verfallen: Sie generieren zwar korrekte Antworten, aber diese sind stark redundant und decken nur einen kleinen Teil des zulässigen Raums ab.

2. Methodik: Das HypoSpace-Framework

Die Autoren stellen HypoSpace vor, ein diagnostisches Benchmark-Set, das LLMs als Sampler über endliche Hypothesenräume behandelt. Im Gegensatz zu herkömmlichen Benchmarks verfügt HypoSpace über deterministische Validatoren und exakt aufzählbare Lösungsräume, was eine objektive Messung ohne subjektive Bewertung durch das Modell selbst („LLM-as-a-judge") ermöglicht.

Die drei Evaluierungsmetriken

Das Framework bewertet Modelle anhand dreier komplementärer Metriken:

Validity (VR - Gültigkeit): Misst den Anteil der generierten Hypothesen, die mit den Beobachtungen konsistent sind (Präzision).
Uniqueness (NR - Einzigartigkeit): Quantifiziert die Originalität, indem redundante oder semantisch äquivalente Vorschläge innerhalb der generierten Menge herausgefiltert werden.
Recovery (RR - Wiederherstellungsrate/Abdeckung): Misst den Anteil der tatsächlich gefundenen, gültigen und einzigartigen Hypothesen im Verhältnis zur gesamten, exakt aufgezählten Menge zulässiger Hypothesen ( $H_O$ ). Dies ist der Schlüsselindikator für die Fähigkeit, den Lösungsraum umfassend zu erkunden.

Die drei Domänen

HypoSpace testet Modelle in drei strukturierten Domänen, die wissenschaftliche Inferenz nachbilden:

Kausale Inferenz: Inferenz aller Directed Acyclic Graphs (DAGs), die konsistent mit Einzelknoten-Interventionsdaten sind.
3D-Voxel-Rekonstruktion unter Schwerkraft: Rekonstruktion von 3D-Voxel-Strukturen aus 2D-Projektionen unter Einhaltung physikalischer Schwerkraft-Constraints.
Boolesche genetische Interaktionen: Vorschlag von Booleschen Ausdrücken, die Phänotyp-Beobachtungen mit zugrundeliegenden Programmen verknüpfen.

In allen Domänen kann die Größe des zulässigen Hypothesenraums $|H_O|$ durch Parameter (z. B. Knotenzahl, Gittergröße, Operatorendepth) kontrolliert und erhöht werden.

3. Theoretische Analyse: Warum Coverage-Collapse auftritt

Das Paper liefert eine theoretische Begründung für das Phänomen des „Coverage Collapse" (Zusammenbruch der Abdeckung).

Spitze Verteilungen: LLMs erzeugen Hypothesen gemäß einer Wahrscheinlichkeitsverteilung, die oft stark „gespitzt" (peaked) ist. Das bedeutet, dass ein kleiner Teil der Hypothesen („Head") eine sehr hohe Wahrscheinlichkeit hat, während der Rest („Tail") extrem unwahrscheinlich ist.
Exponentieller Aufwand: Um auch nur einen Bruchteil der unwahrscheinlichen Hypothesen im „Tail" zu finden, wäre ein exponentiell wachsender Stichprobenumfang ( $N$ ) notwendig.
Folge: Selbst wenn die Validität (VR) hoch bleibt (da die häufigen Hypothesen korrekt sind), sinkt die Recovery-Rate (RR) drastisch, sobald der Hypothesenraum wächst. Das Modell „kreist" um eine kleine Teilmenge korrekter Antworten, statt den gesamten Raum zu erkunden.

4. Wichtige Beiträge

Theoretische Formulierung: Erste systematische Rahmensetzung zur Bewertung der Fähigkeit von LLMs, multiple Hypothesen unter Unterbestimmtheit zu inferieren, unter Trennung von Korrektheit und Explorationsfähigkeit.
Kontrolliertes diagnostisches Suite: Drei strukturierte Aufgaben mit exakt aufgezählten Lösungsräumen, die deterministische Validierung und objektive Abdeckungsmessung ermöglichen.
Empirische Erkenntnisse: Nachweis, dass selbst fortschrittliche „Reasoning"-Modelle (wie GPT-5, Claude-Opus, DeepSeek-R1) bei wachsendem Hypothesenraum einen deutlichen Mode-Collapse zeigen (hohe VR, aber sinkende NR und RR).
Methodischer Beitrag: Einführung einer komplexitätsstratifizierten Decodierung (Complexity-Stratified Decoding) als trainingsfreie Baseline, um die Exploration zu verbessern.

5. Ergebnisse

Die Experimente umfassten eine Vielzahl von Modellen (GPT-5, Gemini-2.5-Pro, Claude-Opus-4, DeepSeek-R1, Grok-4, GPT-4o, LLaMA-3.3).

Konsistentes Versagen bei Skalierung: Während Modelle in einfachen Szenarien oft nahe an 100% Recovery liegen, bricht die Recovery-Rate (RR) und die Einzigartigkeit (NR) bei komplexeren Aufgaben (größeres $|H_O|$ ) signifikant ein.
Reasoning vs. Non-Reasoning: Reasoning-Modelle (die explizite Zwischenschritte generieren) schneiden bei mittleren und schwierigen Aufgaben besser ab als reine Instruktionstuned-Modelle, zeigen aber dennoch den gleichen Trend des Mode Collapses.
Boolesche Interaktionen als Diskriminator: Diese Aufgabe war am schwierigsten; hier zeigten selbst die besten Modelle starke Einbußen in der Abdeckung, da der Raum der Booleschen Ausdrücke sehr groß ist und viele syntaktisch verschiedene, aber semantisch äquivalente Ausdrücke existieren.
Realwelt-Validierung: In einer Studie mit echten Hefedaten (Vesikel-Transport) zeigte sich, dass auch hier über 100 gültige Hypothesen existieren. Starke Modelle konnten diese teilweise abdecken, schwächere Modelle generierten zwar diverse, aber ungültige Hypothesen.

6. Lösungsvorschlag: Komplexitätsstratifizierte Decodierung

Um den Bias gegen komplexe Hypothesen zu mildern, schlugen die Autoren eine komplexitätsstratifizierte Decodierung vor:

Anstatt aus der unbeschränkten Verteilung des Modells zu sampeln, wird der Generierungsprozess nach der strukturellen Komplexität der Hypothesen (z. B. Anzahl der Kanten, Operatoren) stratifiziert.
Das Modell wird aufgefordert, Hypothesen für jede Komplexitätsstufe $c$ zu generieren.
Ergebnis: Diese Methode konnte die Recovery-Rate für komplexe Hypothesen bei mehreren Modellen signifikant steigern (z. B. bei Grok-4 von 0% auf 17,2%), auch wenn sie bei sehr starken Baseline-Modellen manchmal zu Lasten der einfachen Hypothesen ging.

7. Bedeutung und Fazit

HypoSpace ist kein klassisches „Leaderboard" zur Optimierung von Scores, sondern ein diagnostisches Werkzeug. Es zeigt auf, dass die Fähigkeit von LLMs, wissenschaftliche Räume unter Unterbestimmtheit zu erkunden, fundamental begrenzt ist, solange sie auf Wahrscheinlichkeitsverteilungen basieren, die stark auf wenige Modi konzentriert sind.

Die Studie unterstreicht, dass das bloße Erhöhen der Stichprobengröße (Sampling Budget) nicht ausreicht, um den Mode Collapse zu beheben. Stattdessen ist eine Neugestaltung der Sampling-Verteilung (z. B. durch Stratifikation oder explizite Diversifizierungsstrategien) notwendig, um LLMs zu effektiven Werkzeugen für die wissenschaftliche Entdeckung zu machen, bei der das Finden aller möglichen Erklärungen ebenso wichtig ist wie das Finden einer korrekten Erklärung.