Each language version is independently generated for its own context, not a direct translation.
Stellen Sie sich vor, Sie haben einen alten, vergilbten Brief aus dem 19. Jahrhundert gefunden. Der Tinte ist verblasst, das Papier ist fleckig, und die Schrift ist schwer zu lesen. Sie wollen diesen Brief für die Forschung nutzen, aber ein Computer kann die Buchstaben nicht direkt verstehen.
Hier kommt die OCR-Technologie (Optical Character Recognition) ins Spiel. Sie ist wie ein sehr schneller, aber etwas müder Übersetzer, der versucht, das alte Bild in lesbaren Text umzuwandeln. Das Problem: Dieser Übersetzer macht Fehler. Aus einem alten „s" wird vielleicht ein „f", aus „M" wird „rn", und ganze Wörter werden durcheinandergewürfelt.
Normalerweise nehmen Forscher diese fehlerhaften Texte und „reparieren" sie. Sie nutzen Software oder Menschen, um die Fehler zu korrigieren. Aber hier liegt das große Problem, das diese Forscher (Haoze Guo und Ziqi Wei) aufzeigen: Wenn man den Text einfach nur korrigiert und den Originaltext überschreibt, ist die Geschichte des Fehlers verloren.
Es ist, als würde man einen alten, zerkratzten Film restaurieren, alle Kratzer wegretuschieren und dann behaupten: „Das war immer schon so sauber." Niemand weiß mehr, wo der Kratzer war, wer ihn entfernt hat oder ob die Reparatur vielleicht sogar etwas Wichtiges verändert hat.
Die Lösung: Ein „Kochbuch" für Textkorrekturen
Die Autoren schlagen vor, dass wir nicht nur das fertige Gericht (den korrigierten Text) servieren, sondern auch das Kochbuch (die Provenienz) mitliefern.
Stellen Sie sich den Text wie ein Gericht vor:
- Der rohe OCR-Text ist der rohe, ungewaschene Fisch.
- Die Korrektur ist das Schneiden, Würzen und Braten.
- Die Provenienz ist eine detaillierte Liste, die sagt:
- Welches Stück Fisch wurde geschnitten? (Span-Level)
- Wer hat es geschnitten? (Ein Computer-Algorithmus oder ein Mensch?)
- Wie sicher war der Koch? (Hat er zu 90 % geglaubt, dass es ein Fisch ist, oder nur zu 50 %?)
- Warum wurde es geändert? (War es ein offensichtlicher Fehler oder eine stilistische Entscheidung?)
Was haben die Forscher gemacht?
Sie haben einen kleinen Testlauf (eine „Pilotstudie") mit historischen Texten gemacht. Sie haben drei Versionen erstellt:
- Die rohe Version: Der Computer hat den Text so gelesen, wie er war (mit allen Fehlern).
- Die „Alles-ist-perfekt"-Version: Alle gefundenen Fehler wurden automatisch korrigiert.
- Die „Vorsichtige"-Version: Nur die Korrekturen wurden übernommen, bei denen der Computer oder der Mensch sehr sicher war (basierend auf den Daten aus dem „Kochbuch").
Dann haben sie einen Computer-Algorithmus (einen „Entitäten-Extraktor") eingesetzt, der versucht, Namen von Personen, Orten und Daten aus diesen Texten zu finden.
Die überraschenden Ergebnisse
Das Ergebnis war aufschlussreich:
- Die „Alles-ist-perfekt"-Version fand zwar mehr Namen, aber sie war auch sehr instabil. Der Computer fand plötzlich ganz andere Namen oder veränderte die Bedeutung von Sätzen, weil eine kleine, unsichere Korrektur im Hintergrund passiert war.
- Die „Vorsichtige"-Version fand fast genauso viele Namen, war aber viel stabiler. Da sie nur die Korrekturen nutzte, bei denen man sich sicher war, waren die Ergebnisse verlässlicher.
Die wichtigste Erkenntnis: Wenn man nicht weiß, wie ein Text korrigiert wurde, kann man nicht wissen, ob die gefundenen Namen wirklich im Original standen oder nur vom Computer „erfunden" wurden, weil er einen Fehler repariert hat.
Warum ist das wichtig für die Geschichte?
In den Geisteswissenschaften (Digital Humanities) geht es oft um Interpretation. Wenn ein Historiker sagt: „In diesem Jahr gab es viele Treffen in Paris", muss er sicher sein, dass das Wort „Paris" wirklich dort stand und nicht aus einem Fehler wie „Pari" korrigiert wurde.
Mit dem neuen Ansatz können Forscher sagen:
- „Wir haben diesen Namen gefunden, aber er beruht auf einer unsicheren Korrektur. Wir sollten das in unserer Studie erwähnen."
- „Dieser Name wurde von einem Menschen geprüft, also können wir uns darauf verlassen."
Zusammenfassung in einer Metapher
Stellen Sie sich vor, Sie lesen eine Nachricht von einem Freund, die durch einen verrückten Bot verzerrt wurde.
- Der alte Weg: Jemand korrigiert die Nachricht, löscht die Verzerrung und sagt: „Hier ist die Nachricht." Sie wissen nicht, ob der Bot das Wort „Liebe" in „Liebe" geändert hat oder ob es „Liebe" war.
- Der neue Weg (Provenienz): Jemand gibt Ihnen die korrigierte Nachricht und ein kleines Zettelchen dazu: „Das Wort 'Liebe' wurde vom Bot mit 70 % Sicherheit geändert. Das Wort 'Freund' wurde von einem Menschen bestätigt."
Dadurch können Sie entscheiden, wie sehr Sie der Nachricht trauen. Sie behalten die Kontrolle über die Unsicherheit, anstatt sie zu ignorieren.
Fazit: Die Forscher wollen, dass wir in der digitalen Forschung nicht nur das Endergebnis sehen, sondern auch die „Fingerabdrücke" der Entscheidungen, die dorthin geführt haben. So wird die Wissenschaft transparenter, nachvollziehbarer und ehrlicher.