Leveraging GenAI for Segmenting and Labeling Centuries-old Technical Documents

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen riesigen, staubigen Schatzkeller voller alter, vergilbter Bücher aus dem 16. und 17. Jahrhundert. Diese Bücher sind keine gewöhnlichen Romane, sondern handgezeichnete Baupläne für riesige Segelschiffe – die „Technik-Handbücher" der Entdeckerzeit. Das Problem: Die Zeichnungen sind so detailliert und die Sprache so alt, dass selbst Experten Schwierigkeiten haben, genau zu sagen, was auf jedem Bild zu sehen ist.

Die Autoren dieses Papers, Carlos und Benjamin, haben eine moderne Lösung gefunden: Sie nutzen die neueste Künstliche Intelligenz (KI), um diese alten Schätze zu „entschlüsseln". Hier ist die Erklärung ihrer Arbeit, übersetzt in eine einfache Geschichte mit ein paar kreativen Vergleichen.

1. Das Problem: Der „Blinde Fleck" der KI

Stellen Sie sich vor, Sie geben einer modernen KI (wie einem sehr klugen, aber jungen Assistenten) ein Foto von einem modernen Wohnzimmer. Sie sagt sofort: „Da ist ein Tisch, ein Stuhl, eine Pflanze." Das funktioniert super, weil die KI Millionen von Fotos von modernen Häusern gesehen hat.

Aber wenn Sie ihr ein Bild aus einem 400 Jahre alten Schiffsbau-Handbuch zeigen, wird sie verwirrt. Sie sieht vielleicht nur „ein paar Linien" oder „einen Haufen Holz". Warum? Weil sie diese speziellen, alten Bilder noch nie gesehen hat und die Begriffe (wie „Kiel" oder „Rider Frame") nicht kennt. Es ist, als würde man jemandem, der nur moderne Autos kennt, einen Baukasten für eine Dampflokomotive zeigen und erwarten, dass er sofort weiß, wie alles heißt.

2. Die Lösung: Ein Team aus drei Spezialisten

Die Forscher haben ein Team aus drei KI-Tools zusammengestellt, die wie ein gut eingespieltes Archäologenteam arbeiten:

Der „Augen"-Spezialist (SAM2):
Stellen Sie sich SAM2 wie einen sehr präzisen Maler vor, der mit einem leuchtenden Marker über ein Bild fährt. Er sagt nicht nur: „Da ist ein Schiff." Er sagt: „Da ist dieser Teil des Schiffes, und da ist jener Teil." Er schneidet das Bild in viele kleine, farbige Puzzleteile auf. Er findet sogar winzige Details wie einen kleinen Haken oder eine Textzeile, die andere übersehen würden.
- Vergleich: Während ein normales Foto-Programm vielleicht nur das ganze Schiff als einen großen Kasten markiert, zerlegt SAM2 das Schiff in seine Einzelteile (Ruder, Mast, Rumpf), genau wie ein Mechaniker, der einen Motor auseinanderschraubt, um jedes Schraube zu sehen.
Der „Wörterbuch"-Spezialist (ChatGPT & Florence2):
Sobald SAM2 die Teile gefunden hat, müssen sie benannt werden. Hier kommt die KI ins Spiel, die wie ein supergebildeter Bibliothekar ist. Aber statt einfach zu raten, nutzt sie ein spezielles „Wörterbuch" (einen Glossar) und eine „Wissensdatenbank" (eine Ontologie), die von echten Schiffsexperten erstellt wurden.
- Das Problem: Wenn man die KI einfach fragt: „Was ist das?", antwortet sie manchmal falsch. Sie könnte einen Schiffsteil mit einem Fahrradteil verwechseln, weil das Wort in beiden Kontexten vorkommt.
- Die Lösung: Die Forscher geben der KI den Kontext: „Du bist ein Experte für alte Schiffe." Sie nutzen die speziellen Begriffe aus dem Wörterbuch, damit die KI nicht „Fahrradgestell" sagt, sondern den korrekten Schiffsbegriff.
Der „Kleber" (GroundingDINO):
Dieser Teil nimmt die Namen, die der Bibliothekar gefunden hat, und klebt sie genau auf die richtigen Puzzleteile, die der Maler (SAM2) ausgeschnitten hat. So entsteht ein Bild, bei dem jeder Teil des Schiffes korrekt beschriftet ist.

3. Warum das wichtig ist: Der digitale Schatz

Warum machen sie das? Stellen Sie sich vor, ein Historiker will wissen, wie ein bestimmtes Schiffsteil im Jahr 1600 aussah. Ohne diese Technik müsste er stundenlang durch Tausende von Bildern blättern und raten.

Mit dieser neuen Methode wird die Suche zum Kinderspiel. Man kann einfach nach „Ruder" suchen, und die KI zeigt sofort alle Bilder, auf denen ein Ruder zu sehen ist – und zwar genau dort, wo es ist. Es ist, als würde man eine riesige Bibliothek, in der alle Bücher unsortiert und ohne Titel sind, plötzlich in eine digitale Datenbank verwandeln, in der man mit einem Klick genau das findet, was man sucht.

4. Die Herausforderung: KI braucht Anleitung

Die Forscher haben herausgefunden, dass die KI nicht perfekt ist. Manchmal „halluziniert" sie (sie erfindet Dinge) oder verwechselt Begriffe.

Ein Beispiel: Wenn die KI ein Bild sieht, auf dem ein Seil zu sehen ist, könnte sie denken, es sei ein „Schlitten" (weil sie das Wort in anderen Kontexten kennt).
Die Korrektur: Durch die Nutzung des speziellen Schiffswörterbuchs (glosShip) und der Wissensdatenbank (ontoShip) zwingen sie die KI, im „Kontext des Schiffes" zu denken. Es ist wie bei einem Schüler: Wenn man ihm sagt „Denk an Mathe", wird er Matheaufgaben lösen. Sagt man ihm „Denk an Geschichte", wird er historische Daten liefern. Die Forscher geben der KI die richtige „Denkrichtung".

Fazit

Zusammengefasst: Die Autoren haben einen Weg gefunden, wie man moderne KI-Technologien wie einen „digitalen Lupen-Vergrößerer" und einen „spezialisierten Übersetzer" nutzt, um alte, technische Zeichnungen zu verstehen. Sie machen diese unsichtbaren Schätze der Geschichte für jeden sichtbar und durchsuchbar. Es ist, als würde man einem alten, verschlafenen Bibliothekar eine Brille aufsetzen und ihm ein modernes Wörterbuch in die Hand drücken, damit er endlich wieder richtig arbeiten kann.

Das Ziel ist es, das Wissen über unsere maritime Vergangenheit nicht nur zu bewahren, sondern es für alle Menschen – Forscher und Laien gleichermaßen – lebendig und zugänglich zu machen.

Leveraging GenAI for Segmenting and Labeling Centuries-old Technical Documents

1. Das Problem: Der „Blinde Fleck" der KI

2. Die Lösung: Ein Team aus drei Spezialisten

3. Warum das wichtig ist: Der digitale Schatz

4. Die Herausforderung: KI braucht Anleitung

Fazit

Technische Zusammenfassung: Nutzung von GenAI zur Segmentierung und Kennzeichnung jahrhundertealter technischer Dokumente

Mehr davon

X-OPD: Cross-Modal On-Policy Distillation for Capability Alignment in Speech LLMs

A Learnable SIM Paradigm: Fundamentals, Training Techniques, and Applications

FED-HARGPT: A Hybrid Centralized-Federated Approach of a Transformer-based Architecture for Human Context Recognition

MuViS: Multimodal Virtual Sensing Benchmark

Coronary artery calcification assessment in National Lung Screening Trial CT images (DeepCAC2)