A Boundary-Metric Evaluation Protocol for Whiteboard Stroke Segmentation Under Extreme Imbalance

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Die Suche nach dem Nadel im Heuhaufen

Stell dir vor, du hast ein riesiges, weißes Blatt Papier (eine Tafel), auf dem jemand mit einem sehr dünnen Stift eine Nachricht geschrieben hat. Aber hier ist das Problem: Der Stift ist so dünn, dass die Tinte nur 1,79 % des gesamten Bildes ausmacht. Der Rest ist einfach nur weißer Hintergrund.

Das ist wie der Versuch, eine einzige Nadel in einem riesigen Heuhaufen zu finden. Wenn du einen Computer lernst, das Bild zu analysieren, und ihm sagst: "Mach das Bild so gut wie möglich", wird der Computer faul werden. Er denkt sich: "Einfach alles weiß lassen! Dann habe ich in 98 % der Fälle recht!" Das nennt man Klassenungleichgewicht. Der Computer ignoriert die feinen Linien, weil sie so winzig sind.

Die Lösung: Ein neuer Bewertungsmaßstab

Der Autor dieses Papers, Nicholas, hat sich gedacht: "So geht das nicht." Er hat ein neues Regelwerk für das Training dieser Computer entwickelt. Statt nur zu fragen "Wie viel Tinte hast du erkannt?", fragt er auch: "Wie genau sind die Ränder der Linien?"

Er nutzt dafür drei clevere Tricks:

1. Der "Kleider-Test" (Die Metrik)

Stell dir vor, du musst ein Kleidungsstück nähen.

Der alte Test (Region-Metriken): Er zählt nur, wie viel Stoff du insgesamt verwendet hast. Wenn du das ganze Kleid aus Stoff machst, aber die Ärmel fehlen, zählt das immer noch als "viel Stoff". Das täuscht den Computer.
Der neue Test (Boundary-Metriken): Nicholas schaut sich nur die Nähte an. Wenn die Nähte (die Ränder der Schrift) unsauber sind oder fehlen, zählt das als Fehler, auch wenn der Rest des Kleides perfekt ist. Das zwingt den Computer, sich um die feinen Linien zu kümmern.

2. Der "Fairness-Check" (Core vs. Thin)

Nicholas hat die Bilder in zwei Gruppen geteilt:

Dicke Striche: Wie mit einem dicken Marker geschrieben.
Dünne Striche: Wie mit einem feinen Kugelschreiber.

Früher haben Computer die dicken Striche gut erkannt, aber die dünnen komplett ignoriert. Nicholas hat einen "Gerechtigkeits-Test" eingeführt. Er schaut: "Wie viel Leistung verlierst du, wenn die Striche dünner werden?" Seine neuen Methoden sorgen dafür, dass der Computer auch bei den dünnsten Linien nicht aufgibt.

3. Der "Zufalls-Test" (Robustheit)

Manchmal ist ein Computer gut, aber nur bei bestem Wetter. Nicholas trainiert den Computer dreimal mit leicht unterschiedlichen Startbedingungen (wie drei verschiedene Schüler, die denselben Stoff lernen).

Klassische Methoden (wie Sauvola): Diese sind wie ein Schüler, der bei einer Prüfung extrem gut abschneidet, wenn die Fragen leicht sind, aber bei einer einzigen schwierigen Frage komplett durchfällt.
Die neuen KI-Modelle: Diese sind wie ein Schüler, der nicht immer die 100 % erreicht, aber niemals unter eine 4 fällt. Sie sind verlässlicher.

Das Ergebnis: Was hat sich bewährt?

Nicholas hat verschiedene "Lern-Strategien" (sogenannte Loss Functions) getestet.

Die alte Strategie (Cross-Entropy): Wie oben erwähnt, macht der Computer hier fast gar nichts mit den dünnen Linien. Er ignoriert sie.
Die neuen Strategien (Dice, Tversky): Diese Strategien sagen dem Computer: "Vergiss den weißen Hintergrund, konzentriere dich nur auf die Tinte!"
- Ergebnis: Die neuen Strategien haben die Erkennungsrate um über 20 Punkte verbessert! Das ist ein riesiger Sprung.

Der große Trade-off: Durchschnitt vs. Sicherheit

Das ist der spannendste Teil der Geschichte:

Klassische Methoden (ohne KI) haben im Durchschnitt die besten Ergebnisse. Sie sind schnell und brauchen keinen Computer.
Aber: Wenn das Licht schlecht ist oder die Tafel schmutzig, versagen sie katastrophal.
Die KI-Modelle haben im Durchschnitt etwas schlechtere Zahlen, ABER: Sie fallen nie unter ein bestimmtes Sicherheitsniveau. Sie sind wie ein Sicherheitsgurt: Im Durchschnitt fühlst du dich vielleicht etwas eingeschnürt, aber im Crash (bei schlechten Bedingungen) rettet er dir das Leben.

Fazit in einem Satz

Nicholas hat bewiesen, dass man, um feine Linien auf einer Tafel zu erkennen, nicht nur den Computer besser machen muss, sondern auch die Art und Weise ändern muss, wie man ihm sagt, ob er eine gute Arbeit geleistet hat. Man muss ihn zwingen, auf die Ränder zu achten und ihm beibringen, auch bei schwierigen Bedingungen verlässlich zu bleiben, statt nur im Durchschnitt gut zu sein.

Die praktische Anwendung: Wenn du eine App entwickelst, die Fotos von Tafeln in digitale Notizen umwandelt, solltest du diese neuen Methoden nutzen. Sie sorgen dafür, dass deine App auch dann funktioniert, wenn das Licht im Klasszimmer schlecht ist oder jemand mit einem sehr dünnen Stift schreibt.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das Papier adressiert die Herausforderung der binären Segmentierung von Whiteboard-Schriftzügen (Strokes) unter Bedingungen extremer Klassenungleichgewichte (Extreme Class Imbalance).

Extreme Imbalance: Die Vordergrund-Pixel (die Schriftzüge) machen im Durchschnitt nur 1,79 % der Bildfläche aus. In einem Subset mit besonders dünnen Strichen liegt dieser Anteil sogar nur bei 1,14 %.
Fehleranfälligkeit: Herkömmliche Metriken wie F1-Score oder IoU (Intersection over Union) täuschen oft über das Scheitern bei dünnen Strukturen hinweg, da der riesige Hintergrundanteil die Scores dominiert. Ein trivialer Klassifikator, der alle Pixel als Hintergrund vorhersagt, erreicht bereits >98 % Genauigkeit.
Dünne Strukturen: Standard-Loss-Funktionen (wie Cross-Entropy) gewichten jeden Pixel gleich. Da der Hintergrund überwiegt, lernen Modelle, dünne Striche zu ignorieren (Under-prediction), um die Gesamtgenauigkeit zu maximieren. Downsampling während des Trainings verschlimmert dies, da feine Details verloren gehen.

2. Methodik

Die Studie entwickelt ein rigoroses Evaluierungsprotokoll und vergleicht verschiedene Ansätze auf einem festen Datensatz.

Datensatz: 34 echte Whiteboard-Fotos (Smartphone-Aufnahmen) mit manueller Ground-Truth-Markierung. Der Datensatz wurde durch Offline- und Online-Augmentierung auf 374 Trainingsbeispiele erweitert.
Architektur: Es wird ein DeepLabV3-Modell mit einem MobileNetV3-Large-Backbone verwendet. Dies wurde gewählt, um den Einfluss der Loss-Funktion von architektonischen Unterschieden zu isolieren und eine leichte Architektur für den Einsatz auf Consumer-GPUs zu simulieren.
Vergleichene Loss-Funktionen:
1. Cross-Entropy (CE)
2. Focal Loss
3. Dice Loss
4. Dice + Focal (Kombination)
5. Tversky Loss (mit Bias zugunsten des Recall)
Evaluierungs-Protokoll:
- Multi-Seed-Training: Jeder Konfiguration wurde dreimal mit verschiedenen Seeds trainiert, um statistische Signifikanz zu prüfen.
- Metriken: Neben regionbasierten Metriken (F1, IoU) werden grenzorientierte Metriken (Boundary F1 - BF1, Boundary IoU - B-IoU) verwendet, die nur einen schmalen Streifen um die Konturen bewerten.
- Subsets: Der Testdatensatz (12 Bilder) wurde in „Core" (dickere Striche) und „Thin" (sehr dünne Striche) unterteilt, um die Leistungsgerechtigkeit zu analysieren.
- Statistik: Nicht-parametrische Tests (Wilcoxon-Vorzeichen-Rang-Test) mit Bonferroni-Korrektur sowie Analyse von Robustheitsstatistiken (Median, IQR, Worst-Case).
Benchmarks: Vergleich mit klassischen, nicht-lernenden Baselines (Adaptive Thresholding, Otsu, Sauvola-Binarisierung) bei nativer Auflösung.

3. Wichtige Beiträge

Evaluierungsprotokoll: Ein neues, reproduzierbares Protokoll, das Region-Metriken, Boundary-Metriken und eine Equity-Analyse zwischen Kern- und dünnen Strichen kombiniert.
Statistische Robustheit: Nutzung von Multi-Seed-Training und nicht-parametrischen Tests, um nicht nur die mittlere Leistung, sondern auch die Stabilität und Zuverlässigkeit zu quantifizieren.
Equity-Analyse: Eine Diagnose, die zeigt, wie unterschiedlich Loss-Funktionen mit feinen vs. dicken Strukturen umgehen.
Trade-off-Analyse: Untersuchung des Kompromisses zwischen „Konsistenz" (Worst-Case-Leistung) und „Genauigkeit" (Durchschnittsleistung) zwischen gelernten Modellen und klassischen Baselines.

4. Ergebnisse

Überlegenheit von Overlap-basierten Loss-Funktionen:
- Loss-Funktionen, die auf Überlappung basieren (Dice, Tversky), übertreffen Cross-Entropy und Focal Loss massiv.
- Der F1-Score stieg von 0,438 (CE) auf 0,663 (Tversky) – eine Verbesserung von über 20 Prozentpunkten ( $p < 0.001$ ).
- Innerhalb der Dice-Familie gab es keine signifikanten Unterschiede, was darauf hindeutet, dass der Wechsel von einer verteilungsbasierten zu einer überlappungsbasierten Zielfunktion der entscheidende Faktor ist.
Verbesserung bei dünnen Strichen:
- Der Leistungsabfall zwischen „Core"- und „Thin"-Subset wurde bei Dice-Familien-Losses halbiert (Gap von ~0,10 auf ~0,06 reduziert). Tversky zeigte hier die beste Balance.
Grenzorientierte Metriken:
- BF1 und B-IoU zeigten subtile Unterschiede zwischen den Dice-Varianten auf, die reine Region-Metriken verdeckt hätten.
Auflösungsstudie:
- Eine Verdopplung der Eingabeauflösung (von 1024x768 auf 1536x1152) erhöhte den F1-Score um weitere 12,7 Punkte und den BF1 um 18,5 Punkte.
Konsistenz vs. Genauigkeit (Deep Learning vs. Klassisch):
- Die klassische Sauvola-Binarisierung erzielte den höchsten durchschnittlichen F1-Score (0,787), hatte aber eine sehr schlechte Worst-Case-Leistung (F1 = 0,452) und eine hohe Varianz.
- Das gelernte Modell (Tversky) hatte einen niedrigeren Durchschnitt, aber eine deutlich bessere Worst-Case-Leistung (F1 = 0,565) und eine viel engere Interquartilsrange (IQR).
- Fazit: Klassische Methoden sind bei einfachen, hochkontrastierenden Bildern besser, versagen aber katastrophal bei schwierigen Bedingungen. Gelernte Modelle bieten eine konsistentere Zuverlässigkeit.

5. Bedeutung und Schlussfolgerung

Das Paper zeigt, dass für die Segmentierung extrem dünner Strukturen unter starker Klassenungleichgewichtung herkömmliche Loss-Funktionen (Cross-Entropy) unzureichend sind.

Praktische Implikation: Für Anwendungen, die eine konsistente Qualität über alle Bilder hinweg erfordern (z. B. Echtzeit-Erfassung von Notizen), sind überlappungsbasierte Loss-Funktionen (Dice, Tversky) in Kombination mit höheren Eingabeauflösungen unverzichtbar.
Methodischer Fortschritt: Die Autoren betonen, dass Boundary-Metriken und Robustheitsanalysen (Worst-Case, IQR) essenziell sind, um die wahre Leistung von Segmentierungsmodellen zu bewerten, insbesondere wenn dünne Strukturen im Vordergrund stehen.
Reproduzierbarkeit: Der gesamte Code, die Daten und die Evaluierungsskripte sind öffentlich verfügbar, was den Vergleich und die Weiterentwicklung in diesem Bereich erleichtert.

Zusammenfassend liefert das Paper nicht nur eine neue Loss-Funktion, sondern ein umfassendes Framework, um die Zuverlässigkeit und Fairness von Segmentierungsmodellen in extrem schwierigen Szenarien zu bewerten und zu verbessern.