A Universal Nearest-Neighbor Estimator for Intrinsic Dimensionality

Este artículo presenta un nuevo estimador universal de la dimensión intrínseca basado en ratios de distancias de vecinos más cercanos, el cual garantiza teóricamente la convergencia al valor real independientemente de la distribución de los datos y demuestra un rendimiento superior en experimentos con conjuntos de datos reales y sintéticos.

Eng-Jon Ong, Omer Bobrowski, Gesine Reinert, Primoz Skraba

Publicado 2026-03-12
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que tienes una habitación llena de millones de puntos de colores flotando en el aire. A simple vista, parece un caos tridimensional, pero si te acercas y miras con atención, te das cuenta de que todos esos puntos en realidad están dibujando una hoja de papel muy fina (que es bidimensional) o quizás una línea curva (unidimensional) que flota dentro de esa habitación.

El problema es: ¿Cómo sabes cuántas dimensiones tiene realmente esa "hoja" o "línea" oculta sin tener que verla desde todos los ángulos? A esto los científicos le llaman "Dimensionalidad Intrínseca".

Aquí te explico la solución que proponen en este paper, llamada L2N2, usando una analogía sencilla:

1. El Problema: El "Mapa" vs. El "Territorio"

Imagina que eres un explorador en un planeta alienígena. Tienes un mapa (tus datos) que parece tener 100 coordenadas diferentes (latitud, longitud, temperatura, presión, color, etc.). Pero sospechas que, en realidad, la civilización alienígena solo vive en una pequeña isla plana. El mapa es enorme (100 dimensiones), pero la realidad (la isla) es simple (2 dimensiones).

Los métodos antiguos para descubrir el tamaño de la isla a menudo fallaban. Si el terreno era irregular, si había mucha niebla (ruido) o si los puntos estaban muy juntos, esos métodos se confundían y te decían que la isla tenía 50 dimensiones cuando en realidad eran solo 2.

2. La Solución: La Regla de los "Vecinos" (L2N2)

Los autores de este paper, Eng-Jon Ong y su equipo, inventaron una nueva forma de medirlo llamada L2N2. En lugar de mirar todo el mapa de golpe, usan una regla muy simple basada en los vecinos.

La analogía de la fiesta:
Imagina que estás en una fiesta muy grande (tus datos).

  1. Buscas a tu vecino más cercano (la persona más cerca de ti). Llamémosle "Vecino 1".
  2. Buscas al segundo vecino más cercano. Llamémosle "Vecino 2".
  3. Mides la distancia entre tú y el Vecino 1, y la distancia entre tú y el Vecino 2.
  4. Ahora, haces una operación matemática especial (una especie de "magia de logaritmos") con la relación entre esas dos distancias.

¿Por qué funciona?
Si la fiesta ocurre en una habitación muy grande y vacía (muchas dimensiones), tus vecinos estarán muy lejos y las distancias cambiarán de forma caótica. Pero si la fiesta ocurre en un pasillo estrecho (pocas dimensiones), tus vecinos estarán muy cerca y las distancias seguirán un patrón muy predecible.

La genialidad de L2N2 es que, al comparar la distancia del "Vecino 1" con la del "Vecino 2" (y sus sucesivos), el método descubre automáticamente el "tamaño" del espacio, sin importar si la fiesta es en un pasillo, en una habitación o en un laberinto.

3. Lo que hace que L2N2 sea especial (El Superpoder)

  • Es "Universal": Imagina que tienes una llave maestra. La mayoría de las llaves (métodos antiguos) solo abren una puerta específica (funcionan bien solo si los datos son de un tipo específico). L2N2 es esa llave maestra: funciona sin importar cómo estén distribuidos los datos. No necesita saber si los datos vienen de una esfera, de una espiral o de un ruido aleatorio.
  • Es rápido y simple: No necesita supercomputadoras ni cálculos complejos. Es como medir con una regla en lugar de hacer una cirugía cerebral.
  • Es preciso: Cuando lo probaron contra otros métodos famosos (como "TwoNN" o "MLE"), L2N2 ganó casi siempre. Incluso cuando los datos tenían "ruido" (como si hubiera niebla en la fiesta), L2N2 seguía adivinando el tamaño correcto mucho mejor que los demás.

4. ¿Para qué sirve esto en la vida real?

Los autores probaron su método con cosas reales:

  • Rostros humanos: Intentaron descubrir cuántas variables realmente definen la cara de una persona (pose, luz, expresión) en lugar de los miles de píxeles de una foto.
  • Manos escritas (MNIST): Analizaron los números escritos a mano para ver cuánta "información real" hay detrás de los píxeles.
  • Imágenes de coches y animales (CIFAR): Lo mismo con fotos de objetos complejos.

En todos los casos, L2N2 les dijo: "Oye, aunque esta foto tiene 3,000 píxeles, la información real solo necesita unas 15 o 20 dimensiones para explicarse".

En resumen

Este paper presenta una nueva herramienta matemática (L2N2) que actúa como un detector de realidad. Mientras que otros métodos a veces se pierden en la complejidad de los datos, L2N2 mira simplemente a los "vecinos" más cercanos de cada punto y, con una fórmula inteligente, revela la verdadera forma y tamaño del mundo oculto donde viven esos datos. Es más rápido, más robusto y funciona en casi cualquier situación imaginable.

Es como tener un mapa que, en lugar de mostrarte todas las calles de una ciudad gigante, te dice exactamente cuántas manzanas de largo es el parque central, sin importar cuántos rascacielos haya alrededor.