Do Machines Fail Like Humans? A Human-Centred Out-of-Distribution Spectrum for Mapping Error Alignment

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie und ein Roboter stehen vor einem riesigen, verwackelten Fotoalbum. Auf manchen Bildern sind die Gesichter klar zu erkennen, auf anderen sind sie so stark verzerrt, dass man nur noch undeutliche Flecken sieht.

Die große Frage dieses Forschungsprojekts lautet: Wenn wir beide bei diesen verwackelten Bildern einen Fehler machen, machen wir dann den gleichen Fehler?

Oder anders gesagt: Wenn der Roboter denkt, das sei ein Hund, obwohl es eine Katze ist – tut er das aus demselben Grund wie Sie, oder hat er einfach nur eine völlig andere Art zu "sehen"?

Hier ist die Geschichte der Studie, einfach erklärt:

1. Das Problem: Der falsche Maßstab

Bisher haben Forscher oft so getan, als wären alle schwierigen Bilder gleich schwer. Sie haben gesagt: "Schauen wir uns alle Bilder an, die wir mit einem bestimmten Filter (z. B. 'Gauß-Weichzeichner') bearbeitet haben."

Das ist aber wie beim Messen von Hitze: Man könnte fragen, wie heiß es ist, wenn man 10 Grad Celsius hinzufügt. Aber 10 Grad in einem eiskalten Winter sind etwas ganz anderes als 10 Grad in einem schwülen Sommer.

Das Problem: Ein Bild mit einem leichten Filter ist für einen Menschen vielleicht immer noch ganz einfach zu erkennen. Ein anderes Bild mit einem anderen Filter könnte für uns schon völlig unerkennbar sein. Wenn man diese Bilder einfach zusammenwirft, vergleicht man Äpfel mit Orangen. Man weiß nicht, ob der Roboter und der Mensch sich ähnlich verhalten, weil sie wirklich ähnlich denken, oder einfach nur, weil die Aufgabe für beide zu leicht oder zu schwer war.

2. Die Lösung: Die "Menschliche Skala"

Die Forscher (von der Universität Fudan und UCL) haben eine geniale Idee gehabt: Vergessen wir die technischen Filter. Messen wir stattdessen, wie schwer es für uns Menschen ist.

Stellen Sie sich eine Leiter vor, die nicht nach technischen Parametern (wie "Filterstärke 5") beschriftet ist, sondern nach menschlicher Verwirrung:

Unten (Referenz): Alles klar, wir sehen alles perfekt.
Mitte (Nahe OOD): Es wird etwas unklar, wir müssen uns konzentrieren, machen aber noch wenige Fehler.
Weiter oben (Ferne OOD): Es wird sehr schwierig, wir raten oft, aber wir haben noch eine Ahnung.
Ganz oben (Extrem): Wir sehen gar nichts mehr. Es ist reines Rauschen. Hier ist es sinnlos, einen Roboter zu testen, denn wir selbst können auch nichts mehr erkennen.

Sie haben diese Leiter aus Tausenden von menschlichen Testergebnissen gebaut. Jetzt können sie Roboter und Menschen auf derselben Stufe der Leiter vergleichen.

3. Was sie herausfanden: Die "Fingerabdrücke" der Fehler

Als sie die Roboter auf dieser menschlichen Leiter testeten, passierten drei spannende Dinge:

A. Nicht alle Roboter sind gleich

Man dachte vielleicht, alle modernen KI-Modelle wären gleich gut. Aber sie haben unterschiedliche "Fingerabdrücke":

CNNs (die alten, bewährten Roboter): Sie sind sehr gut darin, Texturen zu erkennen (wie Fell oder Haut). In der "mittleren" Schwierigkeitsstufe (nahe OOD) machen sie Fehler, die uns Menschen sehr ähnlich sind. Aber wenn es sehr schwierig wird (ferne OOD), brechen sie komplett zusammen. Sie verlieren den Bezug.
ViTs (die neuen, aufmerksamen Roboter): Diese Modelle schauen sich das Bild eher als Ganzes an. In der mittleren Schwierigkeit machen sie Fehler, die uns weniger ähnlich sind. Aber wenn es sehr schwierig wird, sind sie überraschend robust und verhalten sich dann wieder mehr wie Menschen.
VLMs (die Sprach-KI-Roboter): Diese sind die Gewinner. Sie kombinieren Bilder mit Sprache (wie ein Mensch, der ein Bild sieht und denkt: "Das sieht aus wie ein Hund"). Sie verhalten sich in allen Schwierigkeitsstufen am ähnlichsten zu uns Menschen. Sie nutzen ihr "Wissen", um auch bei schlechten Bildern die richtige Intuition zu haben.

B. Fehler sind wie ein Tanz

Stellen Sie sich vor, Sie und Ihr Freund schauen auf ein verschwommenes Bild.

Wenn ihr beide sagt: "Das ist ein Hund", aber es ist eine Katze – das ist ein Fehler.
Die Studie fand heraus: In leichten Schwierigkeiten machen Menschen oft die gleichen Fehler (wir sehen beide den Hund). Roboter machen oft andere Fehler.
Aber in extremen Schwierigkeiten (ferne OOD) ändern sich die Strategien. Die Roboter, die am besten mit uns "tanzen" (Fehler machen), sind diejenigen, die nicht nur auf Pixel schauen, sondern auf Bedeutung (wie die Sprach-KI).

4. Warum ist das wichtig?

Stellen Sie sich vor, Sie bauen ein autonomes Auto.

Wenn das Auto bei Regen (einem schwierigen Bild) einen Fehler macht, wollen Sie, dass es einen menschlichen Fehler macht.
Ein menschlicher Fehler ist vorhersehbar: "Oh, ich dachte, das wäre ein Schatten, aber es war ein Stein." Das können wir verstehen und darauf reagieren.
Ein "Roboter-Fehler" ist oft unvorhersehbar und bizarr: "Ich dachte, das wäre eine Banane, weil das Licht so stand." Das ist gefährlich.

Das Fazit der Studie:
Um wirklich zu verstehen, ob eine KI "denkt" wie ein Mensch, müssen wir sie nicht nur auf klaren Bildern testen. Wir müssen sie auf einer Skala testen, die an unserer menschlichen Wahrnehmungsschwelle gemessen wird. Und dabei zeigt sich: Die besten KIs sind nicht die, die am meisten auswendig gelernt haben, sondern die, die wie wir mit Unschärfe und Unsicherheit umgehen können – oft mit Hilfe von "Wissen" und Sprache, nicht nur durch reines Sehen.

Kurz gesagt: Wir haben eine neue Landkarte gebaut, um zu sehen, wo Roboter und Menschen auf dem Weg ins Ungewisse zusammenlaufen – und wo sie sich trennen. Und die Gewinner sind die, die nicht nur sehen, sondern auch verstehen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Bewertung von KI-Systemen konzentriert sich oft auf die Genauigkeit (Accuracy) bei Standardaufgaben. Ein hohes Genauigkeitsniveau garantiert jedoch nicht, dass die zugrunde liegenden Entscheidungsstrategien mit der menschlichen Informationsverarbeitung übereinstimmen. Systeme können bei korrekten Eingaben ähnlich gut abschneiden, aber bei Störungen (Distortionen) völlig unterschiedliche Fehlermuster aufweisen.

Bestehende Ansätze zur Analyse von „Out-of-Distribution" (OOD) Daten, also Daten, die von der Trainingsverteilung abweichen, leiden unter vier wesentlichen methodischen Mängeln:

Mensch-zentrierte Definition fehlt: OOD wird meist relativ zu den Trainingsdaten eines Modells definiert, nicht relativ zur menschlichen Wahrnehmung. Menschen haben keine kontrollierte „Trainingsverteilung", sondern lernen durch lebenslange Erfahrung.
Willkürliche Parameter: Die Schwere von Verzerrungen (z. B. Filterparameter) ist oft willkürlich gewählt und nicht mit der menschlichen wahrgenommenen Schwierigkeit vergleichbar. Ein Parameterwert von 5 bei einem Low-Pass-Filter ist nicht äquivalent zu einem Wert von 1 bei einem High-Pass-Filter.
Fehlende Selektion relevanter Bedingungen: Extreme Verzerrungen, bei denen Menschen die Bilder gar nicht mehr erkennen können (Zufallsniveau), sind für den Vergleich von Fehlern ungeeignet, werden aber oft miteinbezogen.
Fehlende Baseline: Ohne einen Referenzwert (z. B. wie stark Menschen untereinander übereinstimmen) sind absolute Werte der Modell-Mensch-Übereinstimmung irreführend.

2. Methodik

Die Autoren schlagen ein mensch-zentriertes Framework vor, das OOD als Spektrum der menschlichen Wahrnehmungsschwierigkeit neu definiert.

Datensatz: Nutzung des modelvshuman-Datensatzes, der menschliche Objekterkennungsleistung bei 14 verschiedenen systematisch verzerrten Bildtypen (z. B. Rauschen, Filter, Eidolon-Varianten) enthält.
Konstruktion des OOD-Spektrums:
- Statt roher Parameter wird eine OOD-Score-Metrik eingeführt, basierend auf dem Effektmaß Glass's $\Delta$ .
- Dieser Score misst die Abweichung der menschlichen Leistung (nach Logit-Transformation der Genauigkeit) von einer ungestörten Referenzverteilung.
- Durch Anpassung eines Gaussian Mixture Models (GMM) an diese OOD-Scores werden vier qualitative Regime identifiziert:
  1. Reference: Unverzerrt oder leicht verzerrt.
  2. Near-OOD: Moderate Genauigkeitsreduktion.
  3. Far-OOD: Übergangszone mit stark abnehmender Leistung.
  4. Extreme-OOD: Leistung auf Zufallsniveau (wird für die Analyse ausgeschlossen, da keine sinnvollen Fehlermuster mehr vorliegen).
Fehler-Metriken:
- Error Consistency (EC): Misst, ob zwei Systeme (oder Personen) dieselben Bilder falsch klassifizieren.
- Misclassification Agreement (MA): Misst, ob bei gemeinsamen Fehlern dieselbe falsche Klasse vorhergesagt wird.
- Class-Level Error Divergence (CLED): Misst die Ähnlichkeit von Fehlerprofilen über verschiedene Bedingungen hinweg, um zu prüfen, ob die Schwierigkeitsstufe (OOD-Level) oder der Verzerrungstyp dominanter ist.

3. Wichtige Beiträge

Human-Centred OOD Spectrum: Ein neues Framework, das Verzerrungen nicht nach technischen Parametern, sondern nach der quantifizierten menschlichen Wahrnehmungsschwierigkeit gruppiert. Dies ermöglicht einen fairen Vergleich über verschiedene Verzerrungstypen hinweg.
Identifikation von Regimen: Die Evidenz, dass menschliche Fehlermuster stark vom OOD-Level (Schwierigkeit) abhängen und weniger vom spezifischen Verzerrungstyp. Dies widerlegt die Annahme, dass alle Verzerrungen eines Typs als monolithische Bedingung behandelt werden können.
Architekturspezifische Fehlerprofile: Eine detaillierte Analyse, wie verschiedene Modellfamilien (CNNs, Vision Transformers (ViTs), Vision-Language Models (VLMs)) in den verschiedenen OOD-Regimen mit menschlichen Fehlern übereinstimmen.

4. Ergebnisse

Die Analyse 31 verschiedener Modelle (CNNs, ViTs, VLMs) ergab folgende Erkenntnisse:

Struktur menschlicher Fehler: Der OOD-Level hat einen stärkeren Einfluss auf die Struktur menschlicher Fehlerprofile als der Verzerrungstyp. Im Near-OOD-Bereich sind menschliche Fehler konsistent und stimuli-getrieben (alle machen ähnliche Fehler). Im Far-OOD-Bereich werden Fehler individueller und weniger systematisch.
Architektur-Vergleich:
- VLMs (Vision-Language Models): Zeigen die konsistenteste Übereinstimmung mit menschlichen Fehlern über das gesamte Spektrum (Near- und Far-OOD). Ihre semantische Wissensbasis scheint robust zu sein.
- CNNs vs. ViTs (Near-OOD): CNNs stimmen im Near-OOD-Bereich besser mit Menschen überein als ViTs. Dies könnte daran liegen, dass CNNs Textur-Informationen nutzen, die in moderat verzerrten Bildern noch mit menschlichen Merkmalen korrelieren.
- CNNs vs. ViTs (Far-OOD): Im Far-OOD-Bereich kehrt sich das Verhältnis um. ViTs stimmen besser mit Menschen überein als CNNs. CNNs versagen katastrophal (Fehlerkorrelation gegen Null), während ViTs aufgrund ihrer geringeren Abhängigkeit von hochfrequenten Texturdetails menschliche Fehlermuster auch bei starken Verzerrungen besser nachahmen.
Fehlende Obergrenze: Kein Modell erreicht die Übereinstimmung, die zwischen verschiedenen Menschen besteht (Human-Human-Alignment). Dies zeigt, dass die Informationsverarbeitung im menschlichen visuellen System und in aktuellen KI-Modellen fundamental unterschiedlich bleibt.

5. Bedeutung und Implikationen

Vertrauenswürdige KI: Modelle, die menschliche Fehlermuster nachahmen, sind vorhersehbarer und interpretierbarer. Ein Modell, das „menschlich" fehlschlägt, ist in der Anwendung oft vertrauenswürdiger als eines, das unberechenbare, nicht-intuitive Fehler macht.
Robustheitsbewertung: Die Arbeit zeigt, dass eine hohe Genauigkeit unter Standardbedingungen keine Garantie für Robustheit ist. Die Bewertung muss differenziert nach Schwierigkeitsgraden (Regimen) erfolgen.
Methodischer Fortschritt: Das vorgestellte Framework bietet einen standardisierten Weg, um die „Induktionsverzerrungen" (Inductive Biases) von Modellen zu charakterisieren und zu vergleichen, indem es die menschliche Wahrnehmung als Goldstandard für die Definition von OOD nutzt.

Zusammenfassend demonstriert das Paper, dass die Frage „Versagen Maschinen wie Menschen?" nur beantwortet werden kann, wenn man die Schwierigkeit der Aufgabe an der menschlichen Wahrnehmung ausrichtet und nicht an technischen Parametern. Die Ergebnisse unterstreichen, dass VLMs derzeit die menschlichste Fehlerstruktur aufweisen, während CNNs und ViTs je nach Schweregrad der Verzerrung unterschiedliche Stärken und Schwächen zeigen.

Do Machines Fail Like Humans? A Human-Centred Out-of-Distribution Spectrum for Mapping Error Alignment

1. Das Problem: Der falsche Maßstab

2. Die Lösung: Die "Menschliche Skala"

3. Was sie herausfanden: Die "Fingerabdrücke" der Fehler

A. Nicht alle Roboter sind gleich

B. Fehler sind wie ein Tanz

4. Warum ist das wichtig?

1. Problemstellung

2. Methodik

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Implikationen

Mehr davon

On the security of 2-key triple DES

Security issues in a group key establishment protocol

The impact of quantum computing on real-world security: A 5G case study

Yet another insecure group key distribution scheme using secret sharing

How not to secure wireless sensor networks: A plethora of insecure polynomial-based key pre-distribution schemes