An Approximation Theory Perspective on Machine Learning

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que el Machine Learning (Aprendizaje Automático) es como intentar enseñarle a un robot a reconocer objetos, predecir el clima o conducir un coche. El problema central es: "Tenemos muchos ejemplos (fotos de gatos, temperaturas pasadas), pero ¿cómo creamos una regla matemática perfecta que funcione para cualquier cosa nueva que vea el robot?"

Este artículo es como un puente entre dos mundos que, aunque deberían ser amigos, rara vez se hablan bien:

La Teoría de la Aproximación: Los matemáticos puros que estudian cómo construir funciones perfectas usando bloques de construcción (como polinomios o ondas).
El Aprendizaje Automático: Los ingenieros que usan redes neuronales (redes de "neuronas" digitales) para resolver problemas del mundo real.

Aquí te explico las ideas clave del papel usando analogías sencillas:

1. El Problema de la "Memorización" vs. "Aprendizaje"

Imagina que tienes que aprender para un examen.

El enfoque actual: Muchos modelos de IA intentan memorizar las respuestas de los ejercicios de práctica (los datos de entrenamiento). Si el examen tiene preguntas idénticas, sacan un 10. Pero si el profesor cambia un poco la pregunta, el robot se queda en blanco.
La propuesta del papel: Necesitamos entender mejor la "teoría de la aproximación". En lugar de solo memorizar, deberíamos construir modelos que entiendan la estructura de los datos, como si aprendieran la gramática de un idioma en lugar de solo repetir frases.

2. La Maldición de la Dimensionalidad (El Laberinto Infinito)

Imagina que intentas encontrar un tesoro en una habitación.

Si la habitación es 2D (un piso), es fácil.
Si es 3D (una casa), sigue siendo manejable.
Pero en Machine Learning, los datos tienen miles de "dimensiones" (miles de características). Es como si el espacio se volviera un laberinto infinito y vacío. Para encontrar el tesoro (la respuesta correcta), necesitarías llenar el laberinto de puntos de control, lo cual es imposible porque necesitarías más datos que átomos en el universo.
La solución: Los autores dicen que los datos reales no llenan todo el espacio; viven en "islas" o manifolds (superficies curvas y dobladas dentro de ese espacio gigante). Es como si el laberinto tuviera solo un camino secreto (la isla) y el resto estuviera vacío. Si aprendemos a navegar solo por ese camino, el problema se vuelve fácil.

3. Redes Neuronales: Profundas vs. Superficiales

Redes Superficiales (Shallow): Son como un solo chef intentando cocinar un banquete entero. Puede hacerlo, pero le cuesta mucho trabajo y necesita muchos ingredientes (datos).
Redes Profundas (Deep): Son como una cadena de montaje. Un chef corta las verduras, otro las saltea, otro las sazona. Al dividir el trabajo en pasos pequeños (capas), la red puede aprender estructuras complejas mucho más eficientemente.
La analogía: Imagina que quieres dibujar un elefante. Una red superficial intenta hacerlo de un solo trazo. Una red profunda dibuja primero las patas, luego el cuerpo, luego la trompa, y las une. Es mucho más fácil y preciso.

4. El Nuevo Paradigma: "Aprender sin aprender el mapa"

Aquí está la parte más genial y novedosa del artículo.

El método antiguo: Para navegar por una isla (manifold), primero tenías que dibujar un mapa detallado (calcular las curvaturas, los puntos clave, etc.). Esto es lento y difícil.
El nuevo método (de los autores): ¡No necesitas el mapa! Imagina que tienes una linterna mágica (un kernel localizado). Si iluminas un punto, la luz se dispersa de una manera específica que te dice dónde estás y qué hay alrededor, sin necesidad de saber la forma de toda la isla.
Resultado: Pueden hacer predicciones precisas directamente sobre los datos, sin tener que calcular primero la geometría compleja del mundo subyacente. Es como conducir un coche de noche usando solo los faros, sin necesidad de tener un mapa de la ciudad en el salpicadero.

5. Clasificación como "Separación de Señales"

Imagina que tienes una caja de música con varios instrumentos tocando a la vez (ruido, violín, batería).

El enfoque tradicional: Intenta adivinar qué nota es cuál basándose en etiquetas.
El enfoque de los autores: Tratan el problema como separar las fuentes de sonido. Si logras aislar el "ruido" de la "música", puedes decir: "¡Ah, esto es un gato!" y "¡Esto es un perro!" simplemente viendo dónde se superponen las señales.
Ventaja: Esto funciona incluso si las clases se mezclan (como un perro que parece un gato) y permite aprender con muy pocas etiquetas (preguntar al humano solo 3 veces para clasificar 1000 imágenes).

6. Los Transformadores y la Atención

¿Qué pasa con las famosas IAs como ChatGPT (Transformers)?

El artículo sugiere que el mecanismo de "atención" (que decide qué palabra es importante) es, en esencia, una red de funciones locales.
Es como si el modelo tuviera muchas lentes pequeñas que miran diferentes partes de la oración y las combinan. No es magia negra; es matemática de aproximación bien hecha.

En Resumen: ¿Por qué importa esto?

El papel dice que la comunidad de IA ha estado muy ocupada "entrenando" modelos (ajustando tornillos) sin entender bien la "teoría" (por qué funcionan).

El problema: A veces los modelos funcionan por suerte o por tener demasiados parámetros, pero no sabemos por qué generalizan bien.
La promesa: Si usamos la teoría de la aproximación correctamente, podemos crear modelos que:
1. Necesiten menos datos.
2. Sean más rápidos de entrenar.
3. Sean más seguros y predecibles.
4. Funcionen incluso en datos muy complejos y desordenados.

Es como pasar de intentar adivinar la receta de un pastel probando mil ingredientes al azar, a entender la química de la harina y los huevos para crear el pastel perfecto cada vez.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: Una Perspectiva de la Teoría de Aproximación en el Aprendizaje Automático

Autores: Hrushikesh N. Mhaskar, Efstratios Tsoukanis y Ameya D. Jagtap.
Fecha: Marzo 2026.

1. Problema Central

El aprendizaje automático (AA) se formula fundamentalmente como un problema de aproximación de funciones: dado un conjunto de datos $\{(x_j, y_j)\}_{j=1}^M$ muestreado de una distribución de probabilidad desconocida $\tau$ , el objetivo es construir un modelo funcional $f$ tal que $f(x) \approx y$ para cualquier par $(x, y)$ de la misma distribución.

A pesar de que la aproximación de funciones es el núcleo del AA, existe una desconexión crítica:

La teoría de aproximación clásica no juega un papel central en los fundamentos teóricos actuales del AA.
La mayoría de los libros de texto sobre AA mencionan la aproximación de manera superficial (ajuste por mínimos cuadrados), sin profundizar en la teoría de clases de suavidad, la maldición de la dimensionalidad o la construcción de aproximantes óptimos.
Esta brecha resulta en una falta de claridad sobre cómo se generalizan los modelos entrenados a datos no vistos y por qué ciertos métodos (como redes profundas) superan a otros en la práctica, a pesar de que la teoría clásica sugiere limitaciones.

2. Metodología y Marco Teórico

Los autores proponen un marco riguroso que integra la teoría de aproximación moderna con el AA, moviéndose más allá de los enfoques puramente empíricos o de optimización estocástica.

Espacios de Datos y Variedades: Se introduce el concepto de espacio de datos ( $\Xi$ ), que generaliza las variedades riemannianas. En lugar de asumir que los datos llenan un espacio euclidiano de alta dimensión, se asume que residen en una variedad compacta de dimensión baja $q \ll Q$ .
Aproximación sin Aprendizaje de Variedad: A diferencia de los métodos tradicionales de "aprendizaje de variedades" (que requieren estimar el Laplaciano de Beltrami, descomposición espectral o atlas), los autores proponen métodos que aproximan funciones directamente sobre la variedad desconocida utilizando solo la dimensión y muestras de datos, sin necesidad de reconstruir explícitamente la geometría subyacente.
Núcleos Localizados y Cuadratura: Se utilizan núcleos localizados (análogos a wavelets o polinomios esféricos) y fórmulas de cuadratura de Marcinkiewicz-Zygmund (MZ) para discretizar integrales sobre datos dispersos. Esto permite construir aproximantes sin optimización iterativa.
Clasificación como Separación de Señales: Se propone un nuevo paradigma donde los problemas de clasificación se tratan como problemas de separación de señales (o separación de soportes de medidas), en lugar de simplemente minimizar una función de pérdida de clasificación.

3. Contribuciones Clave

A. Revisión de la Teoría de Aproximación y Redes Neuronales:

Redes Superficiales vs. Profundas: Se analiza la potencia de aproximación. Se demuestra que las redes profundas pueden superar la maldición de la dimensionalidad para funciones con estructura composicional (representables como grafos acíclicos dirigidos), mientras que las redes superficiales requieren un número exponencial de parámetros para la misma precisión en tales casos.
Funciones de Activación ReLU: Se estudian las redes con activación ReLU y sus variantes ( $ReLU^\gamma$ ), estableciendo tasas de convergencia óptimas y condiciones de existencia.

B. Aproximación en Variedades Desconocidas:

Se presentan teoremas que garantizan la aproximación de funciones en variedades desconocidas utilizando solo muestras de datos.
Teorema 10.1: Establece que se puede construir un aproximante universal $F_n(D; x)$ que no requiere optimización ni descomposición espectral de la variedad, solo la dimensión de la misma. El error de aproximación depende de la suavidad de la función y la densidad de los datos, logrando tasas óptimas $O(n^{-\gamma})$ .
Se demuestra que la estimación de la densidad de probabilidad y la aproximación de la función objetivo pueden realizarse simultáneamente sin saturación del error (un problema común en métodos de núcleos positivos).

C. Clasificación como Separación de Soportes:

Se propone tratar la clasificación como un problema de separación de los soportes de las distribuciones de probabilidad subyacentes a cada clase.
Utilizando núcleos localizados positivos, se puede estimar el soporte de la distribución de datos.
Aprendizaje Activo Cauteloso: El algoritmo identifica regiones separadas (clústeres) y solo requiere consultar una etiqueta por componente conexo para clasificar todo el conjunto de datos, reduciendo drásticamente la necesidad de datos etiquetados.

D. Aproximación de Operadores y PINNs:

Se revisan los Surrogados Neuronales Informados por Física (PINS/PINNs). Se discuten los límites teóricos actuales, incluyendo el desequilibrio en la pérdida, la dificultad con condiciones de frontera y los errores de generalización.
Se presenta un enfoque para reducir la aproximación de operadores (mapeo entre espacios de funciones) a la aproximación de múltiples funciones de variables reales finitas, utilizando proyecciones estereográficas a la esfera y núcleos localizados para controlar la dependencia de la dimensión.

E. Transformadores y Mecanismos de Atención:

Se argumenta que el mecanismo de atención en los transformadores puede interpretarse como una Red de Funciones de Base Esférica (SBF).
Esto sugiere que, desde la perspectiva de la teoría de aproximación, no es intrínsecamente necesario tener múltiples cabezas o arquitecturas complejas para la aproximación de funciones, aunque pueden ser útiles para la selección de características.

4. Resultados Principales

Tasas de Convergencia Óptimas: Se establecen cotas de error para la aproximación en espacios de datos generales y en la esfera, demostrando que los métodos constructivos basados en núcleos localizados superan a los métodos de mínimos cuadrados tradicionales, especialmente en la presencia de singularidades o suavidad local variable (ver Tabla 2 y Figura 5).
Independencia de la Optimización: Se demuestra que, bajo ciertas condiciones de muestreo (medidas MZ), es posible construir aproximantes con garantías de error teóricas sin necesidad de resolver problemas de optimización no convexa (descenso de gradiente), evitando así problemas como mínimos locales o sesgo espectral.
Superación de la Maldición de la Dimensionalidad: Para funciones con estructura composicional o definida en variedades de baja dimensión, los métodos propuestos logran tasas de convergencia que dependen de la dimensión intrínseca ( $q$ ) y no de la dimensión del espacio ambiente ( $Q$ ).
Validación Numérica: Los experimentos en la esfera $S^2$ muestran que los métodos con núcleos localizados y fórmulas de cuadratura (QS5) logran una precisión significativamente superior (90.78% de puntos con error $< 10^{-7}$ ) en comparación con los mínimos cuadrados estándar (0.92%).

5. Significado e Impacto

Este trabajo es fundamental porque:

Cierra la Brecha Teórica: Integra rigurosamente la teoría de aproximación clásica y moderna dentro del marco del aprendizaje automático, proporcionando fundamentos matemáticos sólidos para la generalización y la eficiencia de los modelos.
Nuevos Paradigmas: Desafía la dependencia actual de la optimización estocástica y el aprendizaje de variedades explícito, proponiendo métodos constructivos y universales que son más robustos y eficientes.
Reinterpretación de Clasificación: Ofrece una perspectiva geométrica novedosa para la clasificación (separación de soportes), que es particularmente útil en escenarios con datos escasos o fronteras de clase complejas.
Guía para Futuras Investigaciones: Identifica preguntas abiertas cruciales, como la necesidad de teoremas inversos para redes neuronales, la detección teórica de características óptimas y el desarrollo de algoritmos de cuadratura escalables para variedades de alta dimensión.

En conclusión, el artículo aboga por un cambio de paradigma: pasar de ver el AA como un problema puramente de optimización estadística a verlo como un problema de aproximación constructiva en espacios de datos, donde la estructura geométrica y la suavidad local son las claves para la generalización y la eficiencia.

An Approximation Theory Perspective on Machine Learning

1. El Problema de la "Memorización" vs. "Aprendizaje"

2. La Maldición de la Dimensionalidad (El Laberinto Infinito)

3. Redes Neuronales: Profundas vs. Superficiales

4. El Nuevo Paradigma: "Aprender sin aprender el mapa"

5. Clasificación como "Separación de Señales"

6. Los Transformadores y la Atención

En Resumen: ¿Por qué importa esto?

Resumen Técnico: Una Perspectiva de la Teoría de Aproximación en el Aprendizaje Automático

1. Problema Central

2. Metodología y Marco Teórico

3. Contribuciones Clave

4. Resultados Principales

5. Significado e Impacto

Más como este

A Benchmark of Classical and Deep Learning Models for Agricultural Commodity Price Forecasting on A Novel Bangladeshi Market Price Dataset

Probabilistic Language Tries: A Unified Framework for Compression, Decision Policies, and Execution Reuse

FLeX: Fourier-based Low-rank EXpansion for multilingual transfer

Spectral Edge Dynamics Reveal Functional Modes of Learning

S3S^3S3: Stratified Scaling Search for Test-Time in Diffusion Language Models

$S^3$ : Stratified Scaling Search for Test-Time in Diffusion Language Models