ScribeTokens: Fixed-Vocabulary Tokenization of Digital Ink
Die Arbeit stellt ScribeTokens vor, eine Tokenisierung digitaler Tinte mit einem festen 10-Token-Wortschatz, die durch aggressive BPE-Kompression und ein selbstüberwachtes Vortraining sowohl bei der Generierung als auch bei der Erkennung von Handschrift die Leistungsfähigkeit bestehender Vektor- und Token-basierter Ansätze übertrifft.