Feature Resemblance: On the Theoretical Understanding of Analogical Reasoning in Transformers

Este artículo demuestra teórica y empíricamente que el razonamiento analógico en transformadores emerge mediante la alineación de representaciones de entidades con propiedades similares, revelando que el aprendizaje secuencial de estructuras de similitud antes que atributos específicos es un requisito necesario para este proceso.

Ruichen Xu, Wenjing Yan, Ying-Jun Angela Zhang

Publicado 2026-03-06
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que este artículo es como un manual de instrucciones para entender cómo los "cerebros de computadora" (los modelos de lenguaje como el que usas ahora) aprenden a hacer deducciones inteligentes basadas en similitudes.

Aquí tienes la explicación, traducida a un lenguaje sencillo y con analogías de la vida real:

🧠 El Gran Problema: El "Sopa de Letras" Mental

Los investigadores dicen que probar la inteligencia de estas máquinas es difícil porque las pruebas actuales son como un examen de matemáticas donde te piden que resumas un poema, calcules una integral y luego inventes un chiste, todo a la vez. Es un caos. No sabemos qué parte del cerebro de la máquina está trabajando.

Para arreglarlo, los autores decidieron aislar un solo tipo de pensamiento: El Razonamiento Analógico.

La Analogía: Es como decir: "Si el pájaro tiene plumas y vuela, y el gallina también tiene plumas, entonces la gallina probablemente también vuela".

El modelo debe aprender a conectar dos cosas que se parecen (pájaro y gallina) para transferir una propiedad de una a la otra.

🔍 El Descubrimiento: La "Pareja de Zapatos"

El hallazgo principal del paper es que los Transformers (la arquitectura de estas IAs) aprenden a hacer esto creando representaciones similares para cosas similares.

Imagina que el modelo es un zapatero en una tienda gigante:

  1. Tiene miles de zapatos (palabras/entidades).
  2. Si ve un zapato rojo y un zapato azul que tienen el mismo tacón y la misma suela, el zapatero los coloca uno al lado del otro en el estante.
  3. Si luego le dicen: "El zapato rojo es para correr", el zapatero, al ver que el zapato azul está justo al lado y se parece mucho, asume: "¡Ah! Este también es para correr".

La clave: Para que esto funcione, el zapatero necesita ver primero que los zapatos se parecen (tienen el mismo tacón) antes de que le digan para qué sirven.

📚 Las Tres Reglas de Oro (Lo que aprendieron)

Los autores probaron tres escenarios y descubrieron reglas muy específicas sobre cómo debe entrenarse la máquina:

1. La Regla del "Entrenamiento Mixto" (La clase normal)

Si le das al modelo ejemplos de similitudes y ejemplos de atributos al mismo tiempo, aprende bien.

  • Analogía: Es como estudiar para un examen mientras haces ejercicios prácticos. El cerebro de la máquina alinea sus "zapatos" (representaciones) y logra hacer la analogía perfectamente.

2. La Regla del "Orden estricto" (El currículo)

Aquí está la parte más interesante. El orden importa mucho.

  • Escenario A (Correcto): Primero le enseñas al modelo: "El pájaro y la gallina son parecidos". Luego le enseñas: "El pájaro vuela".
    • Resultado: ¡Éxito! La gallina vuela.
  • Escenario B (Incorrecto): Primero le enseñas: "El pájaro vuela". Luego le enseñas: "El pájaro y la gallina son parecidos".
    • Resultado: ¡Fracaso total! La gallina no vuela.
  • ¿Por qué? Porque si el modelo aprende primero qué hace el pájaro sin saber que se parece a la gallina, crea un "zapato" para el pájaro que no tiene nada que ver con el de la gallina. Cuando luego le enseñas que son parecidos, es demasiado tarde; ya han creado dos estantes separados en su mente.
    • Lección: Primero debes entender la relación (se parecen), luego la propiedad (vuela).

3. El "Puente de Identidad" (El salto de dos pasos)

A veces queremos hacer un razonamiento más complejo: "Si A va a B, y B va a C, entonces A va a C".

  • El problema: Si le dices a la máquina "A va a B" y "B va a C", a menudo falla.
  • La solución: Necesitas enseñarle explícitamente que "B es igual a B" (un puente de identidad).
  • Analogía: Imagina que B es un puente. Si no le dices a la máquina que el puente es un puente (que es el mismo objeto en ambos lados), no puede cruzar de A a C. Necesita ver el ejemplo "B es B" en sus datos de entrenamiento para conectar los puntos.

🏗️ ¿Cómo funciona esto en las capas profundas?

El paper también mira a modelos más grandes (como Llama o GPT). Descubrieron que, a medida que la información pasa por las capas de la red (como pasar por varios filtros de café), los "zapatos" que se parecen se van acercando más y más hasta que casi se tocan. Es un proceso de unificación geométrica: las cosas similares terminan viviendo en el mismo vecindario del cerebro de la IA.

🧪 La Verificación (Experimentos)

Los autores no solo hicieron teoría; lo probaron con modelos reales (desde modelos pequeños de 1 capa hasta modelos de 1.5 mil millones de parámetros como Llama-3 y Qwen).

  • Resultado: Donde el modelo aprendió a alinear las similitudes primero, acertó al 100%.
  • Resultado: Donde el orden fue incorrecto o faltó el "puente de identidad", el modelo falló estrepitosamente, incluso si había estudiado mucho.

💡 En Resumen

Para que una Inteligencia Artificial aprenda a razonar por analogía (como un humano):

  1. No mezcles todo: Debe entender primero qué tienen en común dos cosas antes de aprender qué hacen.
  2. El orden es vital: Primero la estructura, luego los detalles.
  3. Conecta los puntos: Si hay un paso intermedio, asegúrate de que la máquina sepa que ese paso es el mismo objeto en ambos lados.

Es como enseñar a un niño: primero dale a entender que un perro y un lobo son familiares (similitud), y luego podrás explicarle que ambos ladran (propiedad). Si le dices primero que el perro ladra y luego que es familiar del lobo, el niño podría no conectar que el lobo también ladra. ¡La geometría de las ideas es lo que importa!