Functorial Neural Architectures from Higher Inductive Types

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un robot que sabe caminar. Si le enseñas a dar un paso hacia la izquierda y otro hacia la derecha, ¿crees que podrá entender la instrucción "camina diez veces a la izquierda y luego cinco a la derecha"?

La mayoría de las redes neuronales actuales (los cerebros de la IA) fallan estrepitosamente en esto. No es que sean "tontas" o les falte memoria; el problema es que no están construidas para entender la lógica de las partes. Funcionan como un artista que memoriza pinturas completas, pero si le pides que pinte algo nuevo combinando dos cosas que ya vio, se confunde.

Este paper, titulado "Arquitecturas Neuronales Functoriales desde Tipos Inductivos Superiores", propone una solución radical: diseñar el cerebro del robot desde el principio con las reglas de la lógica matemática incrustadas en su estructura.

Aquí te lo explico con analogías sencillas:

1. El Problema: El Chef que no sabe cocinar por partes

Imagina que entrenas a un chef (una red neuronal normal) para hacer una ensalada de tomate y una de pepino. El chef aprende a hacer ambas. Pero si le pides una ensalada gigante con 100 tomates y 50 pepinos, el chef se bloquea. ¿Por qué? Porque en su cerebro, la ensalada gigante es un "nuevo plato" que nunca ha visto.

El problema es que las redes actuales (especialmente las que usan "Atención", como los modelos de lenguaje modernos) mezclan todo. Cuando ven la palabra "tomate", miran también a los "pepinos" de la oración para decidir qué hacer. Es como si el chef, al cortar el tomate, tuviera que mirar el pepino para saber cómo cortarlo. Esto rompe la composición: la capacidad de combinar partes independientes para crear un todo nuevo.

2. La Solución: Los "Lego" Matemáticos

Los autores proponen una arquitectura llamada Transporte Functorial. Imagina que en lugar de un chef que lo hace todo a la vez, tienes una línea de montaje de Lego:

Hay una máquina que solo hace piezas rojas (tomates).
Hay otra que solo hace piezas azules (pepinos).
Hay un robot que simplemente une las piezas rojas con las azules.

Si tienes 100 piezas rojas, la máquina roja hace 100 veces lo mismo y el robot las une. No importa si son 100 o 1000; la lógica es la misma. Esto es lo que llaman functorialidad: la capacidad de que la máquina entienda que "hacer A y luego B" es lo mismo que "hacer A" + "hacer B", sin importar el tamaño.

3. La Magia: Los "Tipos Inductivos Superiores" (HITs)

¿Cómo saben los autores qué reglas poner en el robot? Usan una rama de las matemáticas llamada Teoría de Tipos Homotópicos.

Imagina que el mundo donde se mueve el robot tiene "trampas" o "reglas de la física":

El Toro (T2): Imagina un donut. Si das una vuelta por el agujero y luego por el cuerpo, es lo mismo que hacerlo al revés. Es un mundo "amigable" y simétrico.
La Botella de Klein: Imagina una superficie extraña donde si das una vuelta por un lado, te encuentras "al revés" (como en un espejo). Aquí, el orden importa mucho: ir por el camino A y luego por B es diferente a ir por B y luego por A.

Los autores toman estas reglas matemáticas (llamadas Tipos Inductivos Superiores) y las "compilan" directamente en el código del robot.

Si el mundo es un donut, el robot sabe automáticamente que el orden no importa.
Si es una botella de Klein, el robot sabe automáticamente que debe "girarse" al cambiar de camino.

No es que el robot aprenda estas reglas tras miles de intentos; es que nace sabiéndolas porque su arquitectura está construida sobre esas reglas matemáticas.

4. ¿Por qué fallan las redes actuales (Atención)?

El paper demuestra matemáticamente que la tecnología más popular hoy, la Atención (Transformers), es intrínsecamente incapaz de hacer esto.

Analogía: La Atención es como un grupo de personas en una habitación gritándose entre sí. Si alguien grita "¡Izquierda!", todos miran a la izquierda, pero también miran a quién gritó "¡Derecha!" al mismo tiempo. Nunca pueden separar las instrucciones.
Resultado: Cuando el robot intenta hacer una tarea larga (como caminar 100 pasos), la confusión se acumula y el robot se pierde.

5. Los Resultados: ¡Funciona!

Los autores probaron sus robots en tres mundos matemáticos:

El Donut (Toro): Los robots "Lego" (functoriales) fueron 2 a 3 veces mejores que los robots normales.
Dos Círculos Unidos (No abeliano): Aquí el orden importa mucho. Los robots normales se volvieron locos, confundiendo completamente los caminos. Los robots "Lego" fueron 5 a 10 veces mejores, manteniendo la precisión perfecta.
La Botella de Klein: Aquí introdujeron una "prueba matemática" (un 2-célula) que corrige el giro de espejo. Los robots que tenían esta corrección incrustada cerraron una brecha de error del 46% en las tareas más difíciles.

En resumen

Este paper dice: "Deja de intentar que la IA aprenda a componer cosas desde cero. Diseña la IA para que la composición sea su única forma de funcionar."

Es como pasar de enseñarle a un niño a sumar sumando de uno en uno (y que se equivoque con números grandes), a darle una calculadora que ya sabe las reglas de la suma. Al construir la arquitectura basándose en la topología (la forma de los espacios) y la lógica matemática, garantizamos que la IA funcionará bien incluso en situaciones que nunca ha visto antes.

La lección: Para que la inteligencia artificial sea verdaderamente inteligente y capaz de generalizar, no necesitamos más datos; necesitamos mejores reglas de construcción.

Each language version is independently generated for its own context, not a direct translation.

Aquí presento un resumen técnico detallado del artículo "Functorial Neural Architectures from Higher Inductive Types" (Arquitecturas Neuronales Functoriales desde Tipos Inductivos Superiores), enviado a ACT 2026.

1. El Problema: Fallo en la Generalización Composicional

El artículo identifica un fallo sistemático en las redes neuronales estándar: la incapacidad para realizar generalización composicional. Esto se refiere a la habilidad de un modelo para producir salidas correctas para nuevas combinaciones de partes conocidas (ej. sumar números de 5 dígitos tras aprender a sumar de 2 dígitos, o navegar alrededor de dos obstáculos tras aprender a navegar alrededor de uno).

Diagnóstico: El fallo no es de capacidad (los modelos grandes siguen fallando), sino arquitectónico.
Causa Raíz: La generalización composicional es equivalente a la functorialidad del decodificador. Las arquitecturas dominantes, como los Transformers con atención softmax, no son functoriales porque mezclan información entre segmentos de entrada de manera dependiente del contenido, violando la estructura algebraica de la tarea.

2. Metodología: De Tipos Inductivos Superiores (HIT) a Arquitecturas Neuronales

Los autores proponen un marco teórico y constructivo que traduce especificaciones topológicas en arquitecturas neuronales garantizadas.

A. Fundamentos Teóricos

Tipos Inductivos Superiores (HIT): Se utilizan para especificar espacios topológicos mediante generadores (puntos base, bucles) y relaciones (celdas 2-dimensionales que testifican homotopías o relaciones grupales).
- Ejemplos usados: Torus ( $T^2$ , grupo abeliano $\mathbb{Z}^2$ ), Cuña de círculos ( $S^1 \vee S^1$ , grupo libre no abeliano $F_2$ ) y Botella de Klein ( $\mathbb{Z} \rtimes \mathbb{Z}$ , producto semidirecto).
Categoría de Mapas Paramétricos: Las redes neuronales se modelan como morfismos en una categoría de mapas paramétricos (Para).
El Compilador: Se define un functor de compilación que mapea los constructores de un HIT a componentes arquitectónicos:
1. Generadores $\to$ Redes generadoras independientes (MLPs).
2. Composición $\to$ Concatenación estructural (list-append) de los segmentos generados.
3. Celdas 2 (Relaciones) $\to$ Homotopías aprendidas (transformaciones naturales) que deforman un bucle en otro para respetar las relaciones del grupo.

B. Clasificación de Arquitecturas

Tipo-B (Functorial): El decodificador construye la salida concatenando segmentos generados independientemente. Garantiza $D(w_1 \cdot w_2) = D(w_1) \oplus D(w_2)$ por construcción.
Tipo-A (No Functorial): Arquitecturas que permiten flujo de información cruzada entre segmentos (ej. atención global). El artículo demuestra teóricamente que la atención softmax es inherentemente Tipo-A y no puede ser functorial para ningún grupo no trivial.

3. Contribuciones Clave

Functor de Compilación: Un método sistemático para convertir especificaciones de HIT en arquitecturas neuronales, garantizando la corrección composicional por diseño.
Teoremas de Imposibilidad y Garantía:
- Teorema 3.3: Los decodificadores de transporte (concatenación estructural) son funtores monoidales estrictos.
- Teorema 4.1: La atención softmax no es functorial para ninguna tarea composicional no trivial, independientemente de los parámetros aprendidos.
- Ambas demostraciones están formalizadas en Cubical Agda.
Validación Empírica: Experimentos en tres espacios topológicos que cubren diferentes niveles de complejidad algebraica.

4. Resultados Experimentales

Los experimentos comparan decodificadores Tipo-A (Transformers, GRU, Cover) contra Tipo-B (Transport, Homotopy) en la generación de trayectorias geométricas continuas.

Espacio 1: Torus ( $T^2$ , $\pi_1 = \mathbb{Z}^2$ )
- Los decodificadores Tipo-B superan a los Tipo-A por un factor de 2–2.7× en error de distancia Chamfer por segmento.
- La arquitectura "Transport Attention" (con atención pero con codificación posicional correcta) falla, demostrando que la condición de entrada no sustituye a la composición estructural correcta.
Espacio 2: Cuña de Círculos ( $S^1 \vee S^1$ , $\pi_1 = F_2$ )
- Aquí la brecha se amplía dramáticamente (5.5–10×).
- Los modelos Tipo-A (Transformers) colapsan la estructura no abeliana: no pueden distinguir el orden de los generadores ( $ab \neq ba$ ), produciendo trayectorias topológicamente sin sentido. La precisión de "círculo" (identificar qué bucle trazar) cae al 14% para el Transformer frente al 100% del decodificador Tipo-B.
- Los GRU (secuenciales) mejoran al Transformer pero siguen fallando por no ser functoriales estrictos.
Espacio 3: Botella de Klein ( $K$ , $\pi_1 = \mathbb{Z} \rtimes \mathbb{Z}$ )
- Prueba la necesidad de las celdas 2 (relaciones no triviales como $bab^{-1} = a^{-1}$ ).
- El decodificador "Homotopy" (Tipo-B con término de prueba $H$ aprendido) reduce el error en palabras no canónicas en un 46% comparado con el decodificador "Transport" (sin $H$ ).
- Esto demuestra que la transformación natural aprendida es necesaria para corregir la inversión de orientación inducida por la relación del grupo.

5. Significado e Implicaciones

Garantías Verificadas: A diferencia de la verificación post-hoc, este enfoque verifica la arquitectura en tiempo de diseño. Las garantías de generalización composicional son propiedades de la arquitectura, no de los pesos aprendidos, y se mantienen para cualquier longitud de palabra y valor de parámetros.
Límites de la Atención: El trabajo establece una barrera teórica fundamental: la atención global es incompatible con la composición estricta. Para tareas composicionales, se debe priorizar la composición estructural sobre el flujo de información cruzado.
Pipeline de Aprendizaje Automático Verificado: Propone un flujo de trabajo: Especificar (HIT) $\to$ Verificar (Agda) $\to$ Compilar (Arquitectura) $\to$ Entrenar.
Aplicabilidad: El marco es aplicable a cualquier dominio con estructura composicional, como planificación de rutas con obstáculos, programas modulares o sistemas moleculares, permitiendo especificar la topología del dominio y generar arquitecturas certificadas automáticamente.

En resumen, el paper demuestra que la generalización composicional no es algo que las redes neuronales deban "aprender", sino una propiedad que debe ser incrustada arquitectónicamente mediante la functorialidad, derivada de especificaciones topológicas formales.