Ursprüngliche Autoren: Manuel Haußmann, Ramon Winterhalder, Maria Ubiali

Veröffentlicht 2026-05-12

📖 7 Min. Lesezeit🧠 Tiefgang

Ursprüngliche Autoren: Manuel Haußmann, Ramon Winterhalder, Maria Ubiali

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst oder gebilligt. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Das große Ganze: Warum Raten nicht ausreicht

Stellen Sie sich vor, Sie sind ein Physiker, der versucht, ein neues Teilchen zu entdecken, oder ein Arzt, der eine KI zur Diagnose einer Krankheit einsetzt. In beiden Fällen ist es wichtig, die richtige Antwort zu erhalten, aber noch kritischer ist es zu wissen, wie sicher Sie sich bei dieser Antwort sind.

Wenn eine KI sagt: „Es besteht eine 99-prozentige Wahrscheinlichkeit, dass dies ein Tumor ist", es sich aber tatsächlich nur um einen Schatten handelt, ist das gefährlich. Wenn ein Physiker sagt: „Wir haben ein neues Teilchen gefunden", seine Mathematik aber die „Unschärfe" seiner Daten nicht berücksichtigt, könnte er falsch liegen.

Dieses Papier ist ein Leitfaden für Wissenschaftler und KI-Forscher. Es argumentiert, dass wir eine gemeinsame Sprache benötigen, um über Unsicherheit (die „Unschärfe" oder „Zweifel" bei Vorhersagen) zu sprechen, und strenge Regeln, um zu überprüfen, ob diese Unsicherheit ehrlich berichtet wird.

1. Das Wörterbuch des Zweifels (Taxonomie)

Das Papier beginnt damit, darauf hinzuweisen, dass Physiker und KI-Experten oft verschiedene Wörter für dieselben Dinge verwenden, was zu Verwirrung führt. Sie schlagen ein klares „Wörterbuch" mit zwei Hauptachsen vor, um Unsicherheit zu ordnen:

Achse A: Woher kommt der Zweifel? (Quelle)

Statistische Unsicherheit (Das „Rauschen"): Stellen Sie sich vor, Sie versuchen, die durchschnittliche Körpergröße der Menschen in einem Raum zu erraten, indem Sie nur drei Personen messen. Ihre Schätzung könnte nur deshalb danebenliegen, weil Sie nicht genug Menschen gemessen haben. Dies ist Statistisch. Wenn Sie 1.000 Personen messen, verschwindet dieser Zweifel.
Systematische Unsicherheit (Das „kaputte Lineal"): Stellen Sie sich vor, Sie messen 1.000 Personen, aber Ihr Lineal ist tatsächlich einen Zoll zu kurz. Egal wie viele Personen Sie messen, Ihre Antwort wird immer falsch sein. Dies ist Systematisch. Sie rührt von schlechten Werkzeugen oder falschen Annahmen her, nicht von einem Mangel an Daten.

Achse B: Können wir es beheben? (Natur)

Aleatorische Unsicherheit (Der „Wurf des Würfels"): Dies ist Zufälligkeit, die in der Natur selbst verankert ist. Denken Sie an das Werfen einer Münze. Selbst wenn Sie alles über die Münze und den Werfer wissen, können Sie den nächsten Wurf nicht vorhersagen. Dies ist unreduzierbar. Sie können dies nicht durch mehr Daten beheben; es ist einfach so, wie die Welt funktioniert.
Epistemische Unsicherheit (Das „fehlende Puzzleteil"): Dies ist Zweifel, der durch mangelndes Wissen verursacht wird. Stellen Sie sich vor, Sie versuchen, ein Puzzle zu lösen, aber Ihnen fehlt die Hälfte der Teile. Wenn Sie mehr Teile bekommen (mehr Daten) oder ein besseres Bild davon, wie das Puzzle aussieht (bessere Theorie), verschwindet dieser Zweifel. Dies ist reduzierbar.

Die Kernaussage des Papiers: Diese Kategorien überschneiden sich. Ein „kaputtes Lineal" (Systematisch) könnte beispielsweise ein „fehlendes Puzzleteil" (Epistemisch) sein, wenn wir einfach noch nicht wissen, dass das Lineal kaputt ist. Das Papier bietet eine Grafik an, um diese zu sortieren, damit Wissenschaftler sie nicht verwechseln.

2. Zwei Denkweisen (Frequentistisch vs. Bayesianisch)

Das Papier erklärt, dass es zwei Hauptschulen des Denkens gibt, wie mit diesen Zweifeln umgegangen werden soll:

Der Frequentist (Der „Langzeit-Glücksspieler"): Dieser Ansatz fragt: „Wenn ich dieses Experiment 1.000 Mal wiederhole, wie oft würde meine Antwort richtig sein?" Sie konzentrieren sich auf Abdeckung. Wenn sie sagen: „Ich bin zu 95 % zuversichtlich", meinen sie, dass in 95 von 100 wiederholten Experimenten die wahre Antwort innerhalb ihres Bereichs liegen wird.
Der Bayesianer (Der „Glaubens-Aktualisierer"): Dieser Ansatz fragt: „Angesichts dessen, was ich vorher wusste, und dessen, was ich gerade gesehen habe, wie wahrscheinlich ist meine Antwort?" Sie beginnen mit einem „Prior-Glauben" (eine Schätzung basierend auf früheren Erfahrungen) und aktualisieren ihn mit neuen Daten, um einen „Posterior" (den neuen, aktualisierten Glauben) zu erstellen.

Das Papier stellt fest, dass die Teilchenphysik den frequentistischen Ansatz bevorzugt, während die Kosmologie oft den bayesianischen Ansatz bevorzugt. Beide sind gültig, sprechen aber unterschiedliche Sprachen.

3. Der Belastungstest (Validierung)

Der wichtigste Teil des Papiers betrifft die Validierung. Nur weil eine KI sagt, sie sei zu 95 % zuversichtlich, bedeutet das nicht, dass sie tatsächlich zu 95 % zuversichtlich ist. Das Papier schlägt drei Möglichkeiten vor, diese KI-Vorhersagen einem „Belastungstest" zu unterziehen:

Abdeckungstests (Das „Sicherheitsnetz"): Wenn eine KI ein Sicherheitsnetz (ein Vorhersageintervall) zeichnet und sagt, es werde die wahre Antwort 95 % der Zeit fangen, überprüfen Sie das Netz. Wenn Sie 100 Bälle fallen lassen und das Netz nur 80 fängt, lügt die KI (sie ist zu zuversichtlich). Wenn es 99 fängt, ist sie zu vorsichtig.
Verzerrungstests (Der „Schwerpunkt"): Ist die beste Schätzung der KI konstant nach links oder rechts verschoben? Stellen Sie sich ein Dartbrett vor. Wenn die Darts der KI alle eng gruppiert sind, aber 2 Zoll links vom Bullseye liegen, hat sie eine Verzerrung. Sie ist präzise, aber nicht genau.
Bewertungsregeln (Das „Zeugnis"): Anstatt nur zu prüfen, ob die KI richtig oder falsch lag, gibt diese Regel der KI eine Punktzahl basierend darauf, wie gut ihre gesamte Wahrscheinlichkeitskarte mit der Realität übereinstimmt. Sie belohnt die KI dafür, ehrlich über ihre Unsicherheit zu sein. Wenn die KI sagt: „Ich bin zu 50/50 zuversichtlich" und es tatsächlich 50/50 ist, erhält sie eine gute Punktzahl. Wenn sie sagt: „Ich bin zu 100 % sicher" und liegt falsch, erhält sie eine schreckliche Punktzahl.

4. Die „Spielzeug"-Beispiele (Was passiert in der realen Welt?)

Die Autoren testeten diese Ideen an einfachen mathematischen Problemen (Regression und Klassifizierung), um zu sehen, wie sich verschiedene KI-Methoden verhalten.

Die „Sicherheitszone" (Interpolation): Wenn die KI aufgefordert wird, etwas vorherzusagen, das dem ähnelt, was sie zuvor gesehen hat (wie die Vorhersage des Wetters im Juli basierend auf Juli-Daten), funktionieren fast alle Methoden gut. Sie geben alle ähnliche Antworten und ähnliche Zuversichtsniveaus.
Die „Gefahrenzone" (Extrapolation): Wenn die KI aufgefordert wird, etwas vorherzusagen, das sie niemals gesehen hat (wie die Vorhersage des Wetters im Juli basierend nur auf Januar-Daten), wird es chaotisch.
- Die Lehre: In der Gefahrenzone basiert das Vertrauen der KI nicht mehr auf Daten; es basiert auf Annahmen.
- Die Analogie: Stellen Sie sich eine Stadtkarte vor. Wenn Sie die KI bitten, Ihnen den Straßennamen eines Hauses zu nennen, das Sie noch nie gesehen haben, es sich aber auf einer Straße befindet, die Sie kennen, kann sie raten. Aber wenn Sie sie bitten, Ihnen den Straßennamen eines Hauses in einem völlig anderen Land zu nennen, muss sie raten, basierend auf dem, was sie glaubt, wie Städte aussehen.
- Das Ergebnis: Das Papier fand heraus, dass in diesen „unbekannten" Zonen verschiedene KI-Methoden völlig unterschiedliche Antworten und Zuversichtsniveaus liefern. Keine von ihnen war perfekt zuverlässig. Die Unsicherheit, die sie berichteten, war größtenteils ein Spiegelbild ihrer inneren „Persönlichkeit" (ihrer mathematischen Annahmen) und nicht tatsächlichen Wissens.

Zusammenfassung

Dieses Papier ist ein Aufruf zu Klarheit und Ehrlichkeit in der Wissenschaft.

Hören Sie auf, Wörter zu vermischen: Seien Sie klar darüber, ob Ihr Zweifel vom Rauschen (Zufälligkeit) oder von Unwissenheit (Mangel an Daten) herrührt.
Überprüfen Sie Ihre Arbeit: Vertrauen Sie nicht einfach der Zahl der KI. Verwenden Sie „Abdeckungstests" und „Verzerrungstests", um zu sehen, ob die KI tatsächlich die Wahrheit über ihr Vertrauen sagt.
Hüten Sie sich vor dem Unbekannten: Wenn die KI aufgefordert wird, über Dinge zu raten, die sie nicht gesehen hat, ist ihr Vertrauen eine Schätzung, keine Tatsache. Wissenschaftler müssen diese „Extrapolations"-Ergebnisse mit äußerster Vorsicht behandeln.

Das ultimative Ziel ist es sicherzustellen, dass wir genau wissen, wie sehr wir dem Ergebnis vertrauen können, wenn die KI hilft, wissenschaftliche Entdeckungen zu machen.

Technische Zusammenfassung: Unsicherheit in Physik und KI: Taxonomie, Quantifizierung und Validierung

Problemstellung

Die Integration von maschinellem Lernen (ML) in die Physik erfordert eine zuverlässige Quantifizierung von Unsicherheiten (UQ), um sicherzustellen, dass wissenschaftliche Schlussfolgerungen statistisch valide sind. Während Unsicherheitsschätzungen in der Physik unverzichtbar sind, um die Glaubwürdigkeit von Messungen zu bestimmen, Ergebnisse zu kombinieren und Entdeckungsschwellen festzulegen, fehlt ihrer Anwendung im ML oft eine einheitliche statistische Interpretation. Die Terminologie ist zwischen den Gemeinschaften inkonsistent: Physiker unterscheiden traditionell zwischen statistischen und systematischen Unsicherheiten, während die Literatur zu Statistik und ML häufig die Unterscheidung zwischen aleatorischen (Daten-) und epistemischen (Modell-)Unsicherheiten verwendet. Diese Vokabulare überschneiden sich, sind jedoch nicht synonym, was zu potenzieller Verwirrung hinsichtlich der Reduzierbarkeit und der Quelle von Unsicherheiten führt. Darüber hinaus variieren moderne ML-Methoden zur UQ stark in ihrer theoretischen Fundierung, von solchen mit Garantien für endliche Stichproben (z. B. konforme Vorhersage) bis hin zu solchen, die auf empirischer Validierung beruhen (z. B. Deep Ensembles). Es besteht ein dringender Bedarf an einem strukturierten Rahmenwerk, um diese Konzepte zu klären, zwischen Inferenz- und Vorhersageunsicherheit zu unterscheiden und prinzipielle Werkzeuge für die Validierung bereitzustellen.

Methodik

Die Arbeit stellt einen strukturierten Überblick über UQ durch drei methodische Hauptpfeiler bereit:

Taxonomischer Rahmen: Die Autoren schlagen eine einheitliche Taxonomie vor, die auf drei Dimensionen basiert:
- Quelle: Statistisch (Fluktuationen endlicher Daten) vs. Systematisch (unvollkommene Modellierung/Annahmen).
- Natur: Aleatorisch (unreduzierbare Zufälligkeit bei der Datengenerierung) vs. Epistemisch (Unsicherheit aufgrund mangelnden Wissens, reduzierbar durch mehr Daten oder bessere Modelle).
- Objekt: Inferenzunsicherheit (über Parameter $\theta$ ) vs. Vorhersageunsicherheit (über zukünftige Observable $y^*$ ).
  Die Arbeit klärt, dass statistisch/systematisch Quellen klassifizieren, während aleatorisch/epistemisch die Natur klassifizieren. Sie zerlegt die epistemische Unsicherheit explizit in Trainingsvariabilität, Datenvariabilität, Modellbias und Domänenverschiebung.
Statistische Perspektiven: Die Arbeit kontrastiert frequentistische und bayessche Rahmenwerke.
- Frequentistisch: Fokus auf Garantien für den Langzeitverlauf (z. B. Konfidenzintervalle, konforme Vorhersage), wobei Daten zufällig und Parameter fest sind.
- Bayessch: Fokus auf probabilistische Modellierung von Parametern (Posterior-Verteilungen) und Vorhersageverteilungen durch Marginalisierung.
- Der Text diskutiert Brücken zwischen diesen, wie den Bernstein-von-Mises-Satz und generalisierte/post-bayessche Ansätze (z. B. Generalized Variational Inference), die Inferenzziele von strengen Likelihood-Annahmen entkoppeln.
Validierung und Diagnostik: Die Autoren erläutern spezifische statistische Werkzeuge zur Validierung von UQ:
- Abdeckungstests: Prüfung, ob prädiktive Regionen wahre Ergebnisse mit der beworbenen Häufigkeit enthalten (marginal vs. bedingt).
- Kalibrierung: Messung der Übereinstimmung zwischen vorhergesagten Wahrscheinlichkeiten und beobachteten Häufigkeiten (z. B. Expected Calibration Error, Zuverlässigkeitsdiagramme).
- Bias-Tests: Diagnose systematischer Verschiebungen in zentralen Schätzungen mittels Pull-Verteilungen und normalisierter Residuen.
- Geeignete Bewertungsscores: Bewertung der gesamten Zuverlässigkeit von Vorhersageverteilungen (z. B. Brier-Score, negativer Log-Likelihood), um ehrliche probabilistische Vorhersagen zu incentivieren.
Empirische Illustrationen: Die Arbeit implementiert und vergleicht fünf UQ-Methoden auf kontrollierten Regressions- und Klassifikationsaufgaben:
- Methoden: Gaußsche Prozesse (GP), Konforme Vorhersage (CP), Bayessche Neuronale Netze (BNN) via Variational Inference (VI) und Hamiltonian Monte Carlo (HMC), Repulsive Ensembles (RE) und Evidential Deep Learning (EDL).
- Aufgaben: Ein 1D-Regressionsproblem (Testen von Interpolation vs. Extrapolation) und ein binäres Klassifikationsproblem (Two-Moons-Datensatz mit entferntem zentralem Quadrat).

Hauptbeiträge

Einheitliche Taxonomie: Die Arbeit bietet eine klare, mehrdimensionale Klassifizierung von Unsicherheit, die die Sprache „statistisch/systematisch" der Physik mit der Sprache „aleatorisch/epistemisch" des ML in Einklang bringt und ihre Schnittstellen explizit abbildet (z. B. Tabelle 1).
Unterscheidung von Objekten: Sie trennt rigoros Inferenzunsicherheit (Parameter) von Vorhersageunsicherheit (Observable) und klärt, dass Validierungskriterien (wie Abdeckung) zwischen beiden erheblich variieren.
Validierungswerkzeugkasten: Sie konsolidiert eine Reihe prinzipieller Diagnosewerkzeuge (Abdeckung, Kalibrierung, Bias, Bewertungsscores), die notwendig sind, um zu beurteilen, ob auf ML basierende Unsicherheitsaussagen in wissenschaftlichen Workflows vertrauenswürdig sind.
Methodischer Vergleich: Durch durchgerechnete Beispiele demonstriert die Arbeit, wie unterschiedliche Modellannahmen (induktive Bias) zu divergierenden Unsicherheitsschätzungen führen, insbesondere in Extrapolationsregimen, in denen Daten knapp sind.

Ergebnisse

Die empirischen Beispiele liefern mehrere kritische Erkenntnisse:

Interpolation vs. Extrapolation: In datenreichen Interpolationsregionen produzieren verschiedene UQ-Methoden (GP, BNN, Ensembles, CP) vergleichbare Genauigkeit und Unsicherheitsbänder. In Extrapolationsregionen (außerhalb des Trainingsbereichs) weichen die Methoden jedoch erheblich voneinander ab. Ihr Verhalten wird durch induktive Bias (z. B. Kernel-Wahl bei GPs, Architektur bei NNs) und nicht durch Datenbeschränkungen bestimmt.
Versagen der Kalibrierung bei Extrapolation: Validierungsdiagnostik (Kalibrierungskurven und Pull-Verteilungen) zeigt, dass Methoden zwar innerhalb des Trainingsbereichs gut kalibriert sein können, aber keine nominale Abdeckung oder Pull-Verteilungen mit Einheitsbreite beibehalten, wenn sie zur Extrapolation gezwungen werden. Unsicherheitsschätzungen in diesen Regionen spiegeln Prior-Annahmen wider und nicht statistische Beschränkungen.
Klassifikationsleistung: Bei der binären Klassifikationsaufgabe schneiden Methoden, die Posterior-Inferenz durchführen (HMC, VI, Ensembles), bei der Kalibrierung im Allgemeinen besser ab als deterministische Baselines (niedrigerer Brier-Score und ECE). Repulsive Ensembles zeigten eine verbesserte Kalibrierung gegenüber naiven Ensembles durch eine bessere Abdeckung des Posteriors.
Approximationsgrenzen: Während HMC als „Goldstandard" dient, können Mean-Field-VI und andere Approximationen in einfachen, unimodalen Szenarien vergleichbar abschneiden. Die Arbeit stellt jedoch fest, dass für komplexe Posteriors (multimodal, schwerfällig) die Wahl der Approximation kritisch wird.

Bedeutung und Behauptungen

Die Arbeit positioniert sich als grundlegender Beitrag zur VERaiPHY-Initiative, die darauf abzielt, Verifikations- und Validierungsstandards für ML in der Physik zu etablieren. Ihre Bedeutung liegt in:

Konzeptionelle Klarheit: Sie überbrückt terminologische Lücken zwischen den Gemeinschaften Physik, Statistik und ML und bietet eine gemeinsame Sprache zur Diskussion von Unsicherheit.
Praktische Anleitung: Sie betont, dass die Gültigkeit von UQ nicht durch die formale Herleitung einer Methode garantiert wird, sondern mittels spezifischer Diagnostik empirisch validiert werden muss.
Realistische Erwartungen: Die Autoren beanspruchen bescheiden, dass zwar skalierbare UQ-Methoden existieren, die kritischste offene Frage jedoch ihre Robustheit unter nicht-idealen Annahmen (Modellfehlspezifikation, Verteilungsverschiebung) ist. Sie argumentieren, dass in Extrapolationsregimen Unsicherheit grundlegend von Modellannahmen abhängt und eine sorgfältige Interpretation erfordert, anstatt blindes Vertrauen in algorithmische Ausgaben.
Pipeline-Integration: Die Arbeit behauptet, dass robuste UQ kein optionales Add-On, sondern eine strukturelle Komponente der gesamten wissenschaftlichen Inferenzpipeline ist, die für nachgelagerte Aufgaben wie Entfaltung, Parameterschätzung und globale Fits unerlässlich ist.

Die Arbeit schließt, dass ein vertrauenswürdiger wissenschaftlicher Einsatz von ML erfordert, Modellannahmen, Inferenzverfahren und Validierungsdiagnostik in jedem Stadium der Pipeline explizit und testbar zu machen.

Uncertainty in Physics and AI: Taxonomy, Quantification, and Validation