Criteria-first, semantics-later: reproducible structure discovery in image-based sciences

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Wenn wir versuchen, Bilder zu lesen, bevor wir sie verstehen

Stellen Sie sich vor, Sie sind ein Archäologe, der gerade eine neue, unbekannte Ruinenstadt ausgegraben hat.

Der alte Weg („Semantik zuerst"):
Sie nehmen sofort ein Buch mit einer Liste von Wörtern zur Hand: „Das ist ein Tempel", „Das ist ein Haus", „Das ist ein Stall". Sie schauen auf einen Steinhaufen und versuchen verzweifelt, ihn in diese Kategorien zu zwängen.

Das Problem: Was passiert, wenn die Steinhaufen anders aussehen als in Ihrem Buch? Oder wenn Sie in eine andere Stadt kommen, wo die Menschen „Tempel" anders definieren? Oder wenn Sie in 50 Jahren wieder da sind und die Wörterbücher sich geändert haben? Dann sind Ihre alten Karten wertlos. Sie haben die Struktur des Haufens ignoriert, nur um ihm schnell einen Namen zu geben.

Der neue Weg („Kriterien zuerst, Bedeutung später"):
Der Autor Jan Bumberger schlägt vor: Hören Sie auf, sofort zu benennen.
Schauen Sie sich stattdessen erst an, wie die Steine tatsächlich zusammenhängen.

Welche Steine liegen fest aufeinander?
Wo gibt es klare Risse?
Welche Formen wiederholen sich?

Erst wenn Sie diese stabile Struktur verstanden haben, können Sie ihr einen Namen geben. Und das Beste: Sie können diesen Namen später ändern, ohne die Steine neu zu sortieren.

Die große Analogie: Der Bau eines Hauses

Stellen Sie sich vor, Sie wollen ein Haus bauen und es vermessen.

Die „Semantik-zuerst"-Methode (Der alte Fehler):
Sie gehen mit einem Maßband auf die Baustelle und rufen sofort: „Das hier ist das Wohnzimmer!" „Das ist die Küche!"
- Was passiert, wenn sich die Bauvorschriften ändern? Wenn morgen das Gesetz sagt, dass „Küchen" jetzt größer sein müssen, müssen Sie das ganze Haus neu vermessen und die Wände verschieben, nur weil sich das Wort geändert hat. Das ist ineffizient und instabil.
Die „Kriterien-zuerst"-Methode (Der neue Ansatz):
Sie ignorieren zuerst die Wörter „Küche" oder „Wohnzimmer".
Stattdessen nutzen Sie klare, objektive Regeln (Kriterien):
- „Wo ist eine gerade Linie?"
- „Wo ändert sich das Material?"
- „Wo ist eine stabile Ecke?"
Sie zeichnen diese Linien und Ecken auf. Das ist Ihre Struktur. Sie ist objektiv, messbar und bleibt gleich, egal wie man die Räume nennt.
- Der Vorteil: Wenn sich die Definition von „Küche" ändert, müssen Sie nur das Schild an der Tür austauschen. Die Wände (die Struktur) bleiben stabil. Sie können das Haus auch in 50 Jahren wieder vermessen, und die Linien sind immer noch da.

Warum ist das für die Wissenschaft so wichtig?

In der Wissenschaft (z. B. bei Satellitenbildern der Erde, medizinischen Röntgenaufnahmen oder Mikroskopie) passiert genau das „Semantik-zuerst"-Problem:

Die Wörter wandern: Was heute als „Krankheit A" gilt, kann morgen als „Symptom B" bezeichnet werden.
Die Sensoren wandern: Ein neues Kamera-Modell sieht Farben anders.
Die Entdeckungen wandern: Wir finden Dinge, für die es noch gar kein Wort gibt.

Wenn wir KI-Modelle nur darauf trainieren, diese Wörter zu erraten, brechen sie zusammen, sobald sich die Welt ein wenig ändert.

Die Lösung des Papers:
Wir sollten KI-Modelle so bauen, dass sie erst Muster erkennen (z. B. „hier ist ein klarer Rand", „hier ist ein zusammenhängendes Objekt"). Diese Muster sind wie die Wände im Haus. Sie sind stabil.
Erst danach (später, „semantics-later") können wir diese Muster mit den aktuellen Begriffen unserer Wissenschaft verbinden.

Die Vorteile auf einen Blick

Stabilität: Die „Struktur" (die Wände) bleibt gleich, auch wenn sich die „Namen" (die Schilder) ändern.
Wiederverwendbarkeit: Ein einmal erkanntes Muster kann von verschiedenen Wissenschaftlern unterschiedlich genutzt werden. Der eine nennt es „Wald", der andere „Ökosystem". Beide nutzen dieselbe stabile Basis.
Entdeckung: Wir können Dinge finden, für die wir noch kein Wort haben. Das Muster ist da, auch wenn wir es noch nicht benennen können.
Fairness & Transparenz: Jeder kann genau sehen, nach welchen Regeln (Kriterien) die Muster gefunden wurden. Es ist kein „Zauberkasten" mehr, der nur auf bestimmte Wörter trainiert wurde.

Zusammenfassung in einem Satz

Statt zu versuchen, ein Bild sofort in ein festes Wörterbuch zu stecken, sollten wir zuerst die stabilen Muster und Strukturen im Bild finden (die „Wände"), und erst danach entscheiden, wie wir diese Muster nennen (die „Schilder"). So bleibt unsere Wissenschaft auch dann noch brauchbar, wenn sich die Sprache und die Werkzeuge der Zukunft ändern.

Each language version is independently generated for its own context, not a direct translation.

Titel und Kernthese

Titel: Criteria-first, semantics-later: reproducible structure discovery in image-based sciences (Kriterien-zuerst, Semantik-später: reproduzierbare Strukturerkennung in bildbasierten Wissenschaften)
Kernthese: Der aktuelle Standard in der bildbasierten Wissenschaft (z. B. Fernerkundung, Medizin, Mikroskopie) folgt einem „Semantik-zuerst"-Paradigma, bei dem Daten direkt auf vordefinierte Domänen-Ontologien (Klassen, Labels) abgebildet werden. Das Paper argumentiert, dass dieses Paradigma bei offenen wissenschaftlichen Entdeckungen, Domänenverschiebungen (Domain Shift) und langfristigem Monitoring versagt. Stattdessen wird ein deduktiver Umkehrschluss vorgeschlagen: Die Analyse muss zuerst eine semantikfreie Struktur basierend auf expliziten, überprüfbaren Kriterien extrahieren („Criteria-first"), bevor diese Struktur downstream in eine Domänen-Ontologie übersetzt wird („Semantics-later").

1. Das Problem: Die Limitierung des „Semantics-First"-Ansatzes

In vielen natur- und lebenswissenschaftlichen Disziplinen sind Bilder die primäre Messgröße. Der dominante analytische Ansatz ist jedoch ontozentrisch:

Mechanismus: Messungen werden direkt auf vordefinierte Labels (z. B. Landnutzungsklassen, Zelltypen, Organ-Teile) trainiert und evaluiert.
Versagensursachen:
- Ontologie-Drift: Semantische Kategorien sind nicht statisch; sie ändern sich kulturell, institutionell und ökologisch über die Zeit (z. B. durch neue Taxonomien oder politische Richtlinien).
- Mangelnde Übertragbarkeit: Modelle, die auf spezifischen Labels trainiert wurden, scheitern bei Sensorwechseln, unterschiedlichen Beleuchtungsbedingungen oder neuen Standorten (Domain Shift).
- Offene Entdeckung: Neue Phänomene, die nicht im Trainings-Label-Space existieren, können nicht erkannt werden.
Folge: Die analytische Schicht wird zur „Geisel" spezifischer Ontologien, was Reproduzierbarkeit und langfristige Vergleichbarkeit untergräbt. Semantik wird fälschlicherweise als Eigenschaft des Bildes behandelt, ist aber eigentlich eine Eigenschaft des interpretierenden Systems.

2. Methodik: Der „Criteria-first, Semantics-later"-Rahmen

Das Paper schlägt eine formale Trennung der Analyse in zwei Schichten vor:

A. Upstream: Kriterien-basierte Strukturerkennung (Semantik-frei)

Ziel: Extraktion eines strukturellen Produkts ( $S$ ) aus den Rohdaten ( $X$ ) basierend ausschließlich auf expliziten Optimierungs- und Stabilitätskriterien ( $C$ ).
Formale Definition:
- Messfeld: $X: \Omega \to \mathbb{R}^k$ (z. B. Pixel, Voxel, Punktwolken).
- Kriterium: $C$ (z. B. Homogenität, Skalenkohärenz, Stabilität unter Störungen, Komprimierbarkeit).
- Operator: $S = S_C(X)$ , wobei $S_C$ ein vollständig spezifizierter, überprüfbarer Operator ist (z. B. Energie-Minimierung, Graph-Cut, Scale-Space).
Ergebnis: Ein semantikfreies strukturelles Produkt, das als Partition, Graph, Hierarchie oder Strukturfeld vorliegen kann. Dieses Produkt ist reproduzierbar und domänenunabhängig, da es nicht von Labels abhängt.

B. Downstream: Semantische Abbildung

Ziel: Abbildung des strukturellen Produkts $S$ auf eine spezifische Domänen-Ontologie $O_i$ .
Mechanismus: $M_i: S \to O_i$ .
Vorteil: Diese Abbildung ist kontextabhängig, kann sich ändern (Ontologie-Drift) und mehrere Interpretationen können parallel existieren (Pluralismus), ohne dass die zugrundeliegende Strukturerkennung neu berechnet werden muss.

Theoretische Fundierung

Der Ansatz stützt sich auf:

Kybernetik & Beobachtung: Beobachtung ist das Ziehen von Unterscheidungen; Semantik ist die Interpretation dieser Unterscheidungen.
Informationstheorie: Trennung von Information (Struktur) und Bedeutung (Semantik).
Least-Commitment-Prinzip: Irreversible semantische Verpflichtungen werden so lange wie möglich hinausgezögert.

3. Schlüsselbeiträge

Konzeptueller Rahmen: Einführung einer einheitlichen Architektur, die die Strukturerkennung von der semantischen Interpretation entkoppelt.
Formale Postulate: Definition von vier Postulaten für eine reproduzierbare strukturelle Schicht:
- Explizitheit: Kriterien müssen vollständig spezifiziert sein (Parameter, Software-Version).
- Determiniertheit: Gleiche Eingabe + gleiche Kriterien = gleiches strukturelles Produkt.
- Stabilität: Das Produkt muss unter definierten Störungen (Rauschen, Skalierung) stabil bleiben.
- Mapping-Pluralismus: Mehrere semantische Abbildungen können auf dasselbe strukturelle Produkt angewendet werden.
Neue Validierungsmetriken: Statt reiner Klassifikationsgenauigkeit (Accuracy) werden fünf Evidenzklassen für die Validierung vorgeschlagen:
- Robustheit (gegenüber Störungen).
- Skalenkohärenz (Konsistenz über Auflösungsstufen).
- Komplexitätskontrolle (Komprimierbarkeit).
- Globale Optimalität.
- Fähigkeit zur Unterstützung multipler semantischer Abbildungen.
FAIR & Digitale Zwillinge: Positionierung struktureller Produkte als FAIR Digital Objects (Findable, Accessible, Interoperable, Reusable). Sie dienen als stabile „State Variables" für digitale Zwillinge, die über lange Zeiträume vergleichbar bleiben, auch wenn sich die semantischen Labels ändern.

4. Ergebnisse und Evidenz

Das Paper liefert keine neuen experimentellen Daten, sondern eine querschnittliche Analyse bestehender Praktiken in verschiedenen Disziplinen, die zeigt, dass der „Criteria-first"-Ansatz bereits implizit oder hybrid existiert, wenn Labels fehlen oder instabil sind:

Erdsystembeobachtung: Nutzung von „Analysis-Ready Data" und objektbasierten Analysen vor der Klassifikation.
Medizinische Bildgebung: Extraktion von Grenzen und Regionen basierend auf Intensität/Textur vor der diagnostischen Zuordnung.
Mikroskopie: Unüberwachte Segmentierung von Zellen/Organelle basierend auf morphologischen Kriterien vor der biologischen Benennung.
Seismologie: Extraktion von Reflektoren und Störungen basierend auf Signal-Kohärenz vor der geologischen Interpretation.
Astronomie: Nutzung von Clustering und Selbstüberwachung, um neue Objekte zu finden, die nicht in bestehenden Katalogen passen.
Robotik (SLAM): Geometrische Konsistenz (Loop-Closure) als primäres Kriterium für Karten, bevor semantische Labels hinzugefügt werden.

In allen Fällen wird gezeigt, dass die Trennung von Struktur und Semantik die Robustheit gegenüber Domänenverschiebungen erhöht.

5. Bedeutung und Ausblick

Reproduzierbarkeit: Wissenschaftliche Ergebnisse werden durch die Spezifikation der Kriterien ( $C$ ) und des Operators ( $S_C$ ) reproduzierbar, nicht durch die oft flüchtige Übereinstimmung mit Labels.
Langzeit-Monitoring: Ermöglicht den Vergleich von Daten über Jahrzehnte hinweg, selbst wenn sich die Definitionen von Kategorien (z. B. „Wald" vs. „Buschland") ändern. Die strukturelle Basis bleibt stabil.
KI-Readiness: Strukturierte Produkte können als standardisierte Eingaben für Foundation Models dienen. Sie ermöglichen es, KI-Systeme auf stabilen, überprüfbaren Strukturen aufzubauen, anstatt auf verrauschten oder verzerrten Labels.
Forschungsagenda: Das Paper fordert die Entwicklung von Benchmarks für strukturelle Stabilität, die Standardisierung von Schemas für strukturelle Produkte und die explizite Dokumentation semantischer Abbildungen als separate Artefakte.

Fazit: Der Wechsel von „Semantics-first" zu „Criteria-first" ist keine Aufgabe der Theorie, sondern eine bessere Platzierung derselben. Theorie sollte als explizites, überprüfbares Kriterium in die Strukturerkennung einfließen, während Semantik als flexible, nachgelagerte Interpretation behandelt wird. Dies ist essenziell für robuste, skalierbare und langfristig vergleichbare bildbasierte Wissenschaften.