ScribeTokens: Fixed-Vocabulary Tokenization of Digital Ink
O artigo apresenta o ScribeTokens, um método de tokenização de tinta digital baseado em um vocabulário fixo de 10 tokens que, combinado com uma estratégia de pré-treinamento por previsão de próximo token, supera as representações vetoriais tradicionais tanto na geração quanto no reconhecimento de texto manuscrito.