DohaScript: A Large-Scale Multi-Writer Dataset for Continuous Handwritten Hindi Text

Die Arbeit stellt DohaScript vor, einen groß angelegten, mehrschreiberigen Datensatz mit kontinuierlichem handschriftlichem Hindi-Text von 531 Autoren, der als standardisierter Benchmark dient, um die bisherige Unterrepräsentation von Devanagari-Schrift in der Forschung zu überwinden und Aufgaben wie Handschrifterkennung sowie Stilanalyse zu ermöglichen.

Kunwar Arpit Singh, Ankush Prakash, Haroon R Lone

Veröffentlicht 2026-02-23
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest das Geheimnis der menschlichen Handschrift entschlüsseln. Aber nicht nur bei einer Sprache, sondern speziell bei Hindi, das in der Schrift Devanagari geschrieben wird.

Das Problem bisher war: Es gab kaum große, öffentliche Sammlungen von echter, durchgehender Handschrift in Hindi. Die vorhandenen Daten waren wie einzelne Puzzleteile (einzelne Buchstaben oder kurze Wörter), aber keine ganzen Sätze oder Geschichten. Das ist, als würdest du versuchen, ein Auto zu verstehen, indem du nur Räder und Türen einzeln betrachtest, aber nie das ganze Fahrzeug siehst.

Hier kommt DohaScript ins Spiel.

Was ist DohaScript?

Stell dir DohaScript wie eine riesige, organisierte Schreibwettbewerb-Arena vor.

  • Die Teilnehmer: 531 verschiedene Menschen aus ganz Indien haben teilgenommen.
  • Die Aufgabe: Jeder musste exakt dasselbe schreiben. Nicht irgendeinen Text, sondern sechs traditionelle Hindi-Gedichte, sogenannte „Dohas" (zweizeilige Reime).
  • Das Ergebnis: 531 Blätter Papier, auf denen jeder genau dieselben 89 Wörter geschrieben hat, aber jeder mit seinem ganz eigenen, persönlichen Stil.

Warum ist das so besonders? (Die Analogie des „Kochwettbewerbs")

Stell dir vor, 531 Köche bekommen exakt dieselben Zutaten (die Wörter der Dohas) und denselben Kochauftrag.

  • Der eine Koch schneidet die Zwiebeln fein, der andere grob.
  • Der eine würzt stark, der andere mild.
  • Der eine schreibt die Zutatenliste in einer kritzligen Handschrift, der andere in einer sauberen.

Früher hatten Forscher nur wenige dieser Kochbücher. Mit DohaScript haben sie nun alle 531 Versionen. Das erlaubt ihnen zu sehen: Was macht diesen Koch einzigartig? Wie verändert sich der Stil, wenn der Koch älter wird oder aus einer anderen Region kommt?

Die drei großen Herausforderungen, die gelöst wurden

1. Das Problem der „verwobenen Buchstaben"
In lateinischen Sprachen (wie Deutsch oder Englisch) sind die Buchstaben oft wie einzelne Perlen auf einer Schnur. In Hindi (Devanagari) sind sie wie ein Knotenwerk. Alle Buchstaben eines Wortes sind oben durch eine horizontale Linie verbunden (die sogenannte Shirorekha). Das macht es für Computer extrem schwer, zu erkennen, wo ein Wort endet und das nächste beginnt. DohaScript zeigt dem Computer genau diese komplexen Knoten in ihrer natürlichen Form.

2. Die Qualitäts-Filterung (Der „Schärfen-Test")
Nicht jeder Teilnehmer hat perfekt geschrieben oder fotografiert. Manche Bilder waren unscharf, wie ein Foto, das man aus Versehen verwackelt hat.
Die Forscher haben einen cleveren KI-Filter entwickelt. Stell dir das wie einen strengen Fotografen vor, der prüft: „Ist das Bild scharf genug, um die Tintenspuren zu sehen?"

  • Sie haben die Bilder in Kategorien eingeteilt: Von „Etwas unscharf" bis „Kristallklar".
  • Das Tolle: Sie haben nicht nur die perfekten Bilder behalten, sondern auch die schwierigen, unscharfen. Warum? Weil das der Realität entspricht. Ein Computer, der nur auf perfekten Bildern trainiert, scheitert im echten Leben. DohaScript trainiert die KI also auch für den „schmutzigen" Alltag.

3. Die „Linienschwierigkeit"
Manchmal schreiben Menschen so eng, dass die Zeilen ineinander überlaufen, oder sie halten sich nicht an die Linien.
Die Forscher haben eine Art Schwierigkeitsgrad für jede Seite eingeführt:

  • Leicht: Die Zeilen sind klar getrennt.
  • Mittel: Es gibt kleine Unregelmäßigkeiten.
  • Komplex: Die Zeilen sind ein Chaos, die Buchstaben überlappen sich.
    Das hilft Forschern zu testen: „Kann meine Software auch dann lesen, wenn die Zeilen durcheinander sind?"

Was bringt uns das?

DohaScript ist wie ein neues Werkzeugkasten-Set für Forscher und Entwickler:

  • Für die OCR (Texterkennung): Damit können Computer handschriftliche Hindi-Notizen, Schulhefte oder Behördendokumente endlich richtig lesen.
  • Für die Forensik: Man kann herausfinden, wer ein Dokument geschrieben hat, nur anhand des Stils (wie bei einer Handschrift-Untersuchung).
  • Für die KI-Kreativität: Man kann KI-Modelle trainieren, die neue Texte in verschiedenen menschlichen Stilen „schreiben" können.

Fazit

Kurz gesagt: DohaScript ist die erste große, öffentliche Bibliothek, die zeigt, wie 531 verschiedene Menschen dasselbe Hindi-Gedicht schreiben. Es füllt eine riesige Lücke, die bisher verhinderte, dass Computer Hindi-Handschrift so gut verstehen wie englische oder deutsche. Es ist ein Schritt, um die digitale Welt für Hunderte von Millionen Hindi-Sprechern zugänglicher zu machen.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →