ScribeTokens: Fixed-Vocabulary Tokenization of Digital Ink

El artículo presenta ScribeTokens, un método de tokenización de tinta digital basado en un vocabulario fijo de 10 símbolos que, combinado con una estrategia de preentrenamiento auto-supervisado, supera a las representaciones vectoriales en tareas de generación y reconocimiento de escritura manuscrita.

Douglass Wang

Publicado 2026-03-04
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que quieres enseñarle a una computadora a entender tu escritura a mano, no como una foto estática, sino como el movimiento en tiempo real de tu pluma sobre la pantalla. A esto los expertos le llaman "tinta digital".

El problema es que las computadoras son muy literales. Si les das una lista interminable de coordenadas exactas (como "moverse 0.001 cm a la derecha, luego 0.002 cm arriba..."), se aburren, se confunden y cometen muchos errores. Si intentas usar "palabras" para describir esos movimientos, a veces se quedan sin palabras para describir un trazo nuevo (el problema de las palabras desconocidas).

Aquí es donde entra ScribeTokens, la solución propuesta en este paper. Vamos a explicarlo con una analogía sencilla: El juego de "Sigue el punto".

1. El problema: Escribir con coordenadas vs. Escribir con pasos

Imagina que tienes que dibujar una línea recta en una cuadrícula gigante.

  • El método antiguo (Vectores): Le dices a la computadora: "Empieza en el punto (10, 20) y termina en el (50, 60)". La computadora tiene que calcular matemáticamente cómo llegar allí. Es como darle una receta de cocina con fórmulas químicas: funciona, pero es lento y propenso a errores si la receta es muy larga.
  • El problema de los "tokens" anteriores: Otros intentaron dividir el dibujo en "palabras" (como "arriba", "derecha", "diagonal"). Pero si tu dibujo era muy grande o tenía un ángulo raro, se quedaban sin "palabras" en su diccionario y decían "no sé qué hacer". Además, sus diccionarios eran enormes (miles de palabras), lo que hace que la computadora sea lenta.

2. La solución: ScribeTokens (El alfabeto de 10 letras)

Los autores crearon un nuevo sistema llamado ScribeTokens. Imagina que en lugar de dar coordenadas, le das a la computadora un alfabeto muy pequeño y simple para describir cualquier dibujo.

  • La idea maestra: Imagina que tu pluma solo puede moverse de un cuadrito a otro en una cuadrícula, como un rey en el ajedrez pero solo un paso a la vez.
  • El alfabeto de 10 letras: Solo necesitan 10 símbolos para describir cualquier trazo en el mundo:
    1. 8 flechas: Arriba, abajo, izquierda, derecha y las 4 diagonales (↗, ↘, etc.).
    2. 2 estados: "Pluma abajo" (estoy dibujando) y "Pluma arriba" (levanto la pluma para saltar al siguiente trazo).

La magia: No importa si escribes una "A" gigante o una "a" pequeña. El sistema convierte tu escritura en una secuencia de estos 10 pasos básicos. Es como traducir una novela compleja a un código de Morse simple.

3. ¿Por qué es tan bueno?

  • Nunca se queda sin palabras: Como solo usas 10 símbolos básicos, nunca hay un trazo que la computadora no pueda entender. Siempre puedes construirlo paso a paso.
  • Compresión inteligente: Aunque la secuencia de pasos puede ser larga, usan una técnica llamada BPE (como un compresor de archivos ZIP). Si ves que la computadora siempre hace "derecha, derecha, derecha", lo comprime en un solo símbolo "derecha x3". Esto hace que la computadora procese la información muchísimo más rápido.
  • Independencia del tamaño: No importa si escribiste rápido (muchos puntos) o lento (pocos puntos). El sistema siempre ve el mismo camino de pasos. Es como ver el rastro de una hormiga: no importa si la hormiga caminó rápido o lento, el camino es el mismo.

4. Los resultados: ¿Qué aprendió la computadora?

Los investigadores probaron esto en dos tareas:

  1. Reconocer lo que escribiste (Lectura): La computadora lee tu garabato y te dice qué dice.
    • Resultado: ScribeTokens fue el único sistema que superó a los métodos antiguos sin necesidad de "entrenamiento previo". Con entrenamiento, fue el mejor de todos.
  2. Generar escritura (Dibujo): La computadora recibe una palabra (ej. "Hola") y tiene que dibujarla.
    • Resultado: ¡Aquí fue donde brilló! Los métodos antiguos fallaban estrepitosamente (70% de errores), creando garabatos ilegibles. ScribeTokens logró un 17% de errores, dibujando letras mucho más claras y naturales.

5. El secreto extra: "Adivina el siguiente paso"

Para entrenar a la computadora, usaron una estrategia genial: le mostraron miles de ejemplos de escritura y le dijeron: "Aquí hay un trazo, ¿qué paso viene después?".

  • Esto es como enseñarle a un niño a caminar mostrándole miles de fotos de pies moviéndose, para que aprenda la lógica del movimiento antes de intentar escribir una palabra.
  • Gracias a esto, la computadora aprendió a "pensar" en movimientos de pluma en lugar de memorizar coordenadas frías. Esto aceleró el aprendizaje hasta 83 veces más rápido en algunos casos.

En resumen

ScribeTokens es como inventar un nuevo idioma para las computadoras donde, en lugar de hablar con coordenadas matemáticas complejas, hablan con pasos simples de una cuadrícula.

  • Antes: "Mueve 3.452 cm a la derecha, luego 1.201 cm arriba..." (Lento, confuso, propenso a errores).
  • Ahora (ScribeTokens): "Derecha, derecha, arriba, diagonal..." (Rápido, claro, infalible).

Gracias a este método, las computadoras ahora pueden leer tu escritura a mano mucho mejor y, lo más impresionante, pueden dibujar como si fueran humanos, algo que antes les costaba muchísimo. Es un gran paso para que la tecnología entienda realmente cómo nos movemos al escribir.