Contrastive-to-Self-Supervised: A Two-Stage Framework for Script Similarity Learning

Each language version is independently generated for its own context, not a direct translation.

Imagina que eres un detective de la historia, pero en lugar de buscar huellas dactilares, estás tratando de entender cómo se relacionan entre sí los antiguos sistemas de escritura del mundo. El problema es que, a veces, tenemos las respuestas claras (como en alfabetos inventados por escritores de ciencia ficción), pero otras veces, la historia es borrosa, debatida y llena de incógnitas (como en los antiguos sistemas de escritura reales).

Este paper propone una solución inteligente, como un entrenador deportivo de dos etapas, para enseñar a una computadora a entender estas similitudes sin cometer errores históricos.

Aquí tienes la explicación sencilla:

1. El Problema: La "Supervisión Desigual"

Imagina que quieres enseñarle a un niño a reconocer letras.

Escenario A (Fácil): Le muestras letras de un alfabeto inventado (como el de Futurama). Sabes con certeza que la "A" es diferente de la "B". No hay dudas.
Escenario B (Difícil): Le muestras letras del griego antiguo y del latín. ¿Son iguales? ¿Se copiaron? ¿Tienen un ancestro común? Los historiadores discuten esto desde hace siglos. Si le dices al niño "¡Estas dos son totalmente diferentes!" y resulta que en realidad están relacionadas, le estás enseñando una mentira.

El desafío es: ¿Cómo entrenamos a la IA para que sea buena reconociendo letras individuales, pero que no se invente relaciones falsas entre sistemas de escritura antiguos?

2. La Solución: El Entrenador y el Aprendiz (Dos Etapas)

Los autores proponen un método de dos pasos, como si fuera un sistema de "Mentoría":

Etapa 1: El Entrenador Maestro (Aprendizaje Supervisado)

Primero, entrenan a un modelo de IA (llamado el Profesor) usando solo alfabetos inventados y modernos donde las respuestas son 100% correctas.

La analogía: Es como un profesor de gimnasia que entrena a un atleta en una pista de obstáculos perfecta y controlada. El atleta aprende a distinguir perfectamente una "A" de una "B" y a no confundirlas.
El resultado: El Profesor tiene una visión muy clara y nítida de cómo se ven las letras por separado. Sabe exactamente dónde termina una y empieza otra.

Etapa 2: El Aprendiz Explorador (Aprendizaje No Supervisado)

Ahora, toman ese Profesor y lo usan para entrenar a un Estudiante con letras de sistemas de escritura reales y antiguos (donde no sabemos las respuestas exactas).

La analogía: El Profesor le dice al Estudiante: "Mira, estas dos formas de escribir se parecen mucho, probablemente tengan algo en común". Pero, a diferencia de un examen tradicional, el Profesor no le prohíbe al Estudiante encontrar similitudes entre letras que él (el Profesor) pensaba que eran diferentes.
El truco: El Estudiante tiene la "base" del Profesor (sabe distinguir formas), pero tiene libertad para reorganizar su mente. Si ve que dos letras antiguas se parecen más de lo que el Profesor pensaba, el Estudiante puede decir: "¡Espera! Estas dos están más cerca de lo que creíamos".
Sin "Enemigos": En la mayoría de los entrenamientos de IA, se les dice "esto es un gato, eso es un perro, ¡no son iguales!". Aquí, como no sabemos si dos sistemas antiguos son "enemigos" o "primos", el sistema no les dice qué NO es igual. Solo les deja explorar las similitudes.

3. ¿Qué logra esto?

Al final, el sistema logra un equilibrio perfecto:

Reconoce letras individuales: Sigue siendo muy bueno distinguiendo una letra de otra (como el Profesor).
Descubre conexiones ocultas: Al no tener prohibido buscar similitudes, el sistema descubre que, por ejemplo, el alfabeto griego y el latino están "más cerca" en su mente que el chino y el latino, reflejando la historia real.

4. Los Resultados (La Prueba de Fuego)

Los autores probaron esto con miles de letras de todo el mundo (desde el Omniglot hasta el Unicode).

El resultado: Su método funcionó mejor que otros sistemas de inteligencia artificial modernos para agrupar sistemas de escritura de manera histórica.
La metáfora final: Imagina que el Profesor es un mapa muy preciso de una ciudad conocida. El Estudiante usa ese mapa para explorar una ciudad antigua y misteriosa. No solo sigue las calles conocidas, sino que descubre nuevos atajos y conexiones entre barrios que el mapa original no tenía, creando un mapa más completo y fiel a la realidad histórica.

En resumen:
Este paper nos dice que para estudiar la historia de la escritura, no debemos forzar a la computadora a tomar decisiones binarias (igual/diferente) cuando la historia es gris. En su lugar, debemos darle una base sólida de conocimiento y luego dejarla explorar libremente para descubrir las verdaderas conexiones que los humanos aún debatimos.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: Contraste a Auto-supervisión para el Aprendizaje de Similitud de Escrituras

1. El Problema: Asimetría en la Supervisión

El aprendizaje de métricas de similitud para glifos y sistemas de escritura enfrenta un desafío fundamental: la supervisión asimétrica.

A nivel de glifo: Es posible etiquetar con confianza instancias de un mismo carácter (incluso en alfabetos inventados o modernos), permitiendo tratar diferentes renderizados como positivos y aprender representaciones invariantes a deformaciones.
A nivel de escritura (script): Las relaciones históricas entre diferentes sistemas de escritura (por ejemplo, si el griego influyó en el cirílico) a menudo son inciertas, debatidas o incompletas.
El obstáculo: Los métodos de aprendizaje contrastivo estándar asumen que todas las clases distintas son "negativas" (diferentes). Aplicar esta lógica a escrituras históricas implica asumir que dos caracteres de sistemas diferentes son necesariamente disímiles, lo cual introduce suposiciones lingüísticas o arqueológicas no verificables y puede ocultar influencias históricas reales.

2. Metodología: Marco de Dos Etapas

Los autores proponen un marco híbrido que separa lo que puede supervisarse (identidad de caracteres en alfabetos inventados) de lo que debe explorarse (relaciones entre escrituras históricas).

Etapa 1: Aprendizaje Contrastivo Supervisado (El "Profesor")

Objetivo: Entrenar un codificador (encoder) robusto con características discriminativas.
Datos: Se utiliza un conjunto de alfabetos inventados (como los de Futurama o Tengwar de Tolkien) donde las identidades de los caracteres son inequívocas y las relaciones entre scripts son nulas por diseño.
Técnica: Se emplea Contrastive Loss Supervisado (SupCon). Se trata cada clase de carácter como un grupo positivo y todas las demás clases como negativas.
Resultado: Un modelo "Profesor" ( $f^*_\phi$ ) que genera un espacio de incrustación (embedding) geométricamente estructurado, con agrupaciones intra-clase limpias y separación inter-clase clara.

Etapa 2: Destilación Auto-supervisada Asimétrica (El "Estudiante")

Objetivo: Adaptar el conocimiento del profesor a escrituras históricas no etiquetadas, sin imponer pares negativos entre scripts diferentes.
Datos: Escrituras históricas atestiguadas (Omniglot y un nuevo conjunto de datos Unicode).
Técnica: Se basa en una adaptación del marco BYOL (Bootstrap Your Own Latent).
- Inicialización: Tanto la red estudiante ( $f_\theta$ ) como la red objetivo (target, $f_\xi$ ) se inicializan con los pesos del profesor de la Etapa 1. Esto proporciona una priórica semántica estructurada desde el inicio.
- Entrenamiento: El estudiante aprende a predecir las representaciones de la red objetivo (actualizada por Movimiento Medio Exponencial - EMA) a partir de vistas aumentadas de los mismos glifos.
- Innovación clave: No se utilizan pares negativos explícitos entre scripts diferentes. Esto permite que las representaciones se reorganicen para descubrir similitudes latentes (influencias históricas) mientras heredan la estructura discriminativa del profesor.
- Arquitectura: Se elimina el MLP de proyección típico de BYOL, operando el predictor directamente sobre las incrustaciones del backbone para evitar sobreajuste.

3. Contribuciones Clave

Estrategia de Dos Etapas: Desacopla la supervisión fiable de la identidad de caracteres de la incertidumbre en las relaciones entre scripts.
Destilación Inicializada por Profesor: Adapta el aprendizaje auto-supervisado (BYOL) inicializando con un modelo entrenado de forma supervisada, evitando la necesidad de pares negativos cruzados entre scripts históricos.
Protocolo de Evaluación Dual: Combina:
- Reconocimiento Few-Shot: Recuperación de glifos (20-way 1-shot).
- Ranking a Nivel de Script: Métricas de ordenamiento (NDCG@10 y correlación de Spearman) para evaluar si el modelo captura relaciones evolutivas entre sistemas de escritura.

4. Resultados Experimentales

Los experimentos se realizaron en cinco arquitecturas de fondo (Simple CNN, Siamese CNN, ResNet-18/34/50) y dos conjuntos de datos (Omniglot y un conjunto Unicode personalizado).

Calidad del Ranking a Nivel de Script (Métrica Principal):
- El enfoque híbrido logró consistentemente el mejor NDCG@10 (la métrica principal para la calidad del ranking) en arquitecturas como Simple CNN, ResNet-34 y ResNet-50, superando a métodos puramente auto-supervisados (BYOL, Barlow Twins) y a modelos preentrenados generales (DINOv2).
- Esto demuestra que la inicialización supervisada ayuda a organizar el espacio de incrustaciones de manera más alineada con las relaciones históricas reales.
Recuperación de Glifos (Nivel de Carácter):
- El método es competitivo o superior en tareas de recuperación few-shot (Top-1 y Top-5 accuracy), especialmente en CNN simples y ResNet-50, demostrando que no sacrifica la discriminación de glifos individuales por la coherencia del script.
Análisis Geométrico:
- La Ratio de Separabilidad (R) mostró una mejora del 35% en la Etapa 2. Los scripts lingüísticamente relacionados (ej. Griego y Latín) se agruparon más cerca entre sí en comparación con scripts no relacionados (ej. CJK), confirmando que la Etapa 2 "afina" las proximidades históricas en lugar de simplemente comprimir el espacio.
Comparación con DINOv2:
- Los modelos de visión general preentrenados (DINOv2) rindieron pobremente, subrayando la necesidad de estrategias de entrenamiento adaptadas al dominio específico de escrituras antiguas.

5. Significado e Impacto

Este trabajo aborda una limitación epistemológica en la visión por computadora aplicada a la historia: la imposibilidad de definir "negativos" absolutos en relaciones culturales complejas.

Validación Científica: Proporciona una herramienta computacional para generar evidencia objetiva y reproducible sobre las relaciones entre sistemas de escritura, sin depender de suposiciones no verificadas.
Generalización: El principio de "aprender una priórica discriminativa donde la supervisión es fiable, y luego adaptar sin imponer negativos especulativos" es transferible a otros dominios donde la identidad intra-clase es conocida pero las relaciones inter-clase son inciertas o incompletas.
Futuro: Los autores planean utilizar las distancias entre scripts aprendidas para reconstruir filogenias (árboles o redes) de sistemas de escritura a escala mundial.

En resumen, el marco propuesto logra un equilibrio único: hereda la capacidad de discriminación nítida del aprendizaje supervisado y la flexibilidad de descubrimiento del aprendizaje auto-supervisado, logrando un espacio de representación que refleja fielmente la complejidad histórica de la evolución de la escritura humana.

Contrastive-to-Self-Supervised: A Two-Stage Framework for Script Similarity Learning

1. El Problema: La "Supervisión Desigual"

2. La Solución: El Entrenador y el Aprendiz (Dos Etapas)

Etapa 1: El Entrenador Maestro (Aprendizaje Supervisado)

Etapa 2: El Aprendiz Explorador (Aprendizaje No Supervisado)

3. ¿Qué logra esto?

4. Los Resultados (La Prueba de Fuego)

Resumen Técnico: Contraste a Auto-supervisión para el Aprendizaje de Similitud de Escrituras

1. El Problema: Asimetría en la Supervisión

2. Metodología: Marco de Dos Etapas

3. Contribuciones Clave

4. Resultados Experimentales

5. Significado e Impacto

Más como este

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

A Survey of Reasoning in Autonomous Driving Systems: Open Challenges and Emerging Paradigms

PACED: Distillation at the Frontier of Student Competence

Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

Reversible Lifelong Model Editing via Semantic Routing-Based LoRA