An Approximation Theory Perspective on Machine Learning

Este artículo revisa la desconexión entre la teoría de aproximación y la práctica del aprendizaje automático, analiza tendencias emergentes y presenta una investigación novedosa para lograr la aproximación funcional en variedades desconocidas sin necesidad de aprender características específicas de la variedad.

Hrushikesh N. Mhaskar, Efstratios Tsoukanis, Ameya D. Jagtap

Publicado 2026-03-05
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que el Machine Learning (Aprendizaje Automático) es como intentar enseñarle a un robot a reconocer objetos, predecir el clima o conducir un coche. El problema central es: "Tenemos muchos ejemplos (fotos de gatos, temperaturas pasadas), pero ¿cómo creamos una regla matemática perfecta que funcione para cualquier cosa nueva que vea el robot?"

Este artículo es como un puente entre dos mundos que, aunque deberían ser amigos, rara vez se hablan bien:

  1. La Teoría de la Aproximación: Los matemáticos puros que estudian cómo construir funciones perfectas usando bloques de construcción (como polinomios o ondas).
  2. El Aprendizaje Automático: Los ingenieros que usan redes neuronales (redes de "neuronas" digitales) para resolver problemas del mundo real.

Aquí te explico las ideas clave del papel usando analogías sencillas:

1. El Problema de la "Memorización" vs. "Aprendizaje"

Imagina que tienes que aprender para un examen.

  • El enfoque actual: Muchos modelos de IA intentan memorizar las respuestas de los ejercicios de práctica (los datos de entrenamiento). Si el examen tiene preguntas idénticas, sacan un 10. Pero si el profesor cambia un poco la pregunta, el robot se queda en blanco.
  • La propuesta del papel: Necesitamos entender mejor la "teoría de la aproximación". En lugar de solo memorizar, deberíamos construir modelos que entiendan la estructura de los datos, como si aprendieran la gramática de un idioma en lugar de solo repetir frases.

2. La Maldición de la Dimensionalidad (El Laberinto Infinito)

Imagina que intentas encontrar un tesoro en una habitación.

  • Si la habitación es 2D (un piso), es fácil.
  • Si es 3D (una casa), sigue siendo manejable.
  • Pero en Machine Learning, los datos tienen miles de "dimensiones" (miles de características). Es como si el espacio se volviera un laberinto infinito y vacío. Para encontrar el tesoro (la respuesta correcta), necesitarías llenar el laberinto de puntos de control, lo cual es imposible porque necesitarías más datos que átomos en el universo.
  • La solución: Los autores dicen que los datos reales no llenan todo el espacio; viven en "islas" o manifolds (superficies curvas y dobladas dentro de ese espacio gigante). Es como si el laberinto tuviera solo un camino secreto (la isla) y el resto estuviera vacío. Si aprendemos a navegar solo por ese camino, el problema se vuelve fácil.

3. Redes Neuronales: Profundas vs. Superficiales

  • Redes Superficiales (Shallow): Son como un solo chef intentando cocinar un banquete entero. Puede hacerlo, pero le cuesta mucho trabajo y necesita muchos ingredientes (datos).
  • Redes Profundas (Deep): Son como una cadena de montaje. Un chef corta las verduras, otro las saltea, otro las sazona. Al dividir el trabajo en pasos pequeños (capas), la red puede aprender estructuras complejas mucho más eficientemente.
  • La analogía: Imagina que quieres dibujar un elefante. Una red superficial intenta hacerlo de un solo trazo. Una red profunda dibuja primero las patas, luego el cuerpo, luego la trompa, y las une. Es mucho más fácil y preciso.

4. El Nuevo Paradigma: "Aprender sin aprender el mapa"

Aquí está la parte más genial y novedosa del artículo.

  • El método antiguo: Para navegar por una isla (manifold), primero tenías que dibujar un mapa detallado (calcular las curvaturas, los puntos clave, etc.). Esto es lento y difícil.
  • El nuevo método (de los autores): ¡No necesitas el mapa! Imagina que tienes una linterna mágica (un kernel localizado). Si iluminas un punto, la luz se dispersa de una manera específica que te dice dónde estás y qué hay alrededor, sin necesidad de saber la forma de toda la isla.
  • Resultado: Pueden hacer predicciones precisas directamente sobre los datos, sin tener que calcular primero la geometría compleja del mundo subyacente. Es como conducir un coche de noche usando solo los faros, sin necesidad de tener un mapa de la ciudad en el salpicadero.

5. Clasificación como "Separación de Señales"

Imagina que tienes una caja de música con varios instrumentos tocando a la vez (ruido, violín, batería).

  • El enfoque tradicional: Intenta adivinar qué nota es cuál basándose en etiquetas.
  • El enfoque de los autores: Tratan el problema como separar las fuentes de sonido. Si logras aislar el "ruido" de la "música", puedes decir: "¡Ah, esto es un gato!" y "¡Esto es un perro!" simplemente viendo dónde se superponen las señales.
  • Ventaja: Esto funciona incluso si las clases se mezclan (como un perro que parece un gato) y permite aprender con muy pocas etiquetas (preguntar al humano solo 3 veces para clasificar 1000 imágenes).

6. Los Transformadores y la Atención

¿Qué pasa con las famosas IAs como ChatGPT (Transformers)?

  • El artículo sugiere que el mecanismo de "atención" (que decide qué palabra es importante) es, en esencia, una red de funciones locales.
  • Es como si el modelo tuviera muchas lentes pequeñas que miran diferentes partes de la oración y las combinan. No es magia negra; es matemática de aproximación bien hecha.

En Resumen: ¿Por qué importa esto?

El papel dice que la comunidad de IA ha estado muy ocupada "entrenando" modelos (ajustando tornillos) sin entender bien la "teoría" (por qué funcionan).

  • El problema: A veces los modelos funcionan por suerte o por tener demasiados parámetros, pero no sabemos por qué generalizan bien.
  • La promesa: Si usamos la teoría de la aproximación correctamente, podemos crear modelos que:
    1. Necesiten menos datos.
    2. Sean más rápidos de entrenar.
    3. Sean más seguros y predecibles.
    4. Funcionen incluso en datos muy complejos y desordenados.

Es como pasar de intentar adivinar la receta de un pastel probando mil ingredientes al azar, a entender la química de la harina y los huevos para crear el pastel perfecto cada vez.

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →