Contrastive-to-Self-Supervised: A Two-Stage Framework for Script Similarity Learning

Este artículo propone un marco de dos etapas que combina aprendizaje contrastivo supervisado en alfabetos inventados con destilación de conocimiento no supervisada para aprender métricas de similitud entre sistemas de escritura históricos sin depender de relaciones evolutivas verificadas.

Claire Roman, Philippe Meyer

Publicado 2026-03-09
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

Imagina que eres un detective de la historia, pero en lugar de buscar huellas dactilares, estás tratando de entender cómo se relacionan entre sí los antiguos sistemas de escritura del mundo. El problema es que, a veces, tenemos las respuestas claras (como en alfabetos inventados por escritores de ciencia ficción), pero otras veces, la historia es borrosa, debatida y llena de incógnitas (como en los antiguos sistemas de escritura reales).

Este paper propone una solución inteligente, como un entrenador deportivo de dos etapas, para enseñar a una computadora a entender estas similitudes sin cometer errores históricos.

Aquí tienes la explicación sencilla:

1. El Problema: La "Supervisión Desigual"

Imagina que quieres enseñarle a un niño a reconocer letras.

  • Escenario A (Fácil): Le muestras letras de un alfabeto inventado (como el de Futurama). Sabes con certeza que la "A" es diferente de la "B". No hay dudas.
  • Escenario B (Difícil): Le muestras letras del griego antiguo y del latín. ¿Son iguales? ¿Se copiaron? ¿Tienen un ancestro común? Los historiadores discuten esto desde hace siglos. Si le dices al niño "¡Estas dos son totalmente diferentes!" y resulta que en realidad están relacionadas, le estás enseñando una mentira.

El desafío es: ¿Cómo entrenamos a la IA para que sea buena reconociendo letras individuales, pero que no se invente relaciones falsas entre sistemas de escritura antiguos?

2. La Solución: El Entrenador y el Aprendiz (Dos Etapas)

Los autores proponen un método de dos pasos, como si fuera un sistema de "Mentoría":

Etapa 1: El Entrenador Maestro (Aprendizaje Supervisado)

Primero, entrenan a un modelo de IA (llamado el Profesor) usando solo alfabetos inventados y modernos donde las respuestas son 100% correctas.

  • La analogía: Es como un profesor de gimnasia que entrena a un atleta en una pista de obstáculos perfecta y controlada. El atleta aprende a distinguir perfectamente una "A" de una "B" y a no confundirlas.
  • El resultado: El Profesor tiene una visión muy clara y nítida de cómo se ven las letras por separado. Sabe exactamente dónde termina una y empieza otra.

Etapa 2: El Aprendiz Explorador (Aprendizaje No Supervisado)

Ahora, toman ese Profesor y lo usan para entrenar a un Estudiante con letras de sistemas de escritura reales y antiguos (donde no sabemos las respuestas exactas).

  • La analogía: El Profesor le dice al Estudiante: "Mira, estas dos formas de escribir se parecen mucho, probablemente tengan algo en común". Pero, a diferencia de un examen tradicional, el Profesor no le prohíbe al Estudiante encontrar similitudes entre letras que él (el Profesor) pensaba que eran diferentes.
  • El truco: El Estudiante tiene la "base" del Profesor (sabe distinguir formas), pero tiene libertad para reorganizar su mente. Si ve que dos letras antiguas se parecen más de lo que el Profesor pensaba, el Estudiante puede decir: "¡Espera! Estas dos están más cerca de lo que creíamos".
  • Sin "Enemigos": En la mayoría de los entrenamientos de IA, se les dice "esto es un gato, eso es un perro, ¡no son iguales!". Aquí, como no sabemos si dos sistemas antiguos son "enemigos" o "primos", el sistema no les dice qué NO es igual. Solo les deja explorar las similitudes.

3. ¿Qué logra esto?

Al final, el sistema logra un equilibrio perfecto:

  1. Reconoce letras individuales: Sigue siendo muy bueno distinguiendo una letra de otra (como el Profesor).
  2. Descubre conexiones ocultas: Al no tener prohibido buscar similitudes, el sistema descubre que, por ejemplo, el alfabeto griego y el latino están "más cerca" en su mente que el chino y el latino, reflejando la historia real.

4. Los Resultados (La Prueba de Fuego)

Los autores probaron esto con miles de letras de todo el mundo (desde el Omniglot hasta el Unicode).

  • El resultado: Su método funcionó mejor que otros sistemas de inteligencia artificial modernos para agrupar sistemas de escritura de manera histórica.
  • La metáfora final: Imagina que el Profesor es un mapa muy preciso de una ciudad conocida. El Estudiante usa ese mapa para explorar una ciudad antigua y misteriosa. No solo sigue las calles conocidas, sino que descubre nuevos atajos y conexiones entre barrios que el mapa original no tenía, creando un mapa más completo y fiel a la realidad histórica.

En resumen:
Este paper nos dice que para estudiar la historia de la escritura, no debemos forzar a la computadora a tomar decisiones binarias (igual/diferente) cuando la historia es gris. En su lugar, debemos darle una base sólida de conocimiento y luego dejarla explorar libremente para descubrir las verdaderas conexiones que los humanos aún debatimos.