Extending Foundational Monocular Depth Estimators to Fisheye Cameras with Calibration Tokens

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un superhéroe de la visión por computadora llamado "Estimador de Profundidad". Este héroe ha pasado años entrenándose mirando millones de fotos normales (como las que tomas con tu móvil o una cámara de seguridad estándar). Gracias a este entrenamiento masivo, puede adivinar perfectamente qué tan lejos están los objetos en una foto: si un árbol está cerca o si un coche está lejos.

El problema es que este héroe es un poco "conservador". Solo sabe ver el mundo tal como lo ven las cámaras normales (llamadas de perspectiva), donde las líneas rectas se ven rectas.

Pero, en el mundo real (en coches autónomos, robots o gafas de realidad virtual), a menudo usamos cámaras "ojo de pez". Estas cámaras tienen un campo de visión enorme, como si tuvieras ojos en la parte de atrás de la cabeza, pero tienen un "defecto": distorsionan la imagen. Las líneas rectas se curvan, como si miraras a través de un espejo de feria.

El Problema: El Héroe se Confunde

Cuando le mostramos una foto de ojo de pez a nuestro superhéroe entrenado, se pone nervioso y falla. Como nunca vio imágenes curvas durante su entrenamiento, cree que los objetos están en lugares donde no están. Es como si le mostráramos una foto de un gato, pero le dijéramos que es un perro; su cerebro no sabe cómo procesar esa información nueva.

La Solución: Los "Fichas de Calibración" (Calibration Tokens)

Los autores de este paper proponen una solución brillante y sencilla. En lugar de obligar al superhéroe a volver a la escuela y aprender todo de nuevo (lo cual sería lento, costoso y haría que olvidara lo que ya sabía), le damos unas pequeñas "fichas mágicas" o adornos que se ponen en la entrada de su cerebro.

Estas fichas se llaman Calibration Tokens (Fichas de Calibración).

La Analogía del Traductor

Imagina que el superhéroe habla solo un idioma: "Perspectiva".

La foto de ojo de pez llega hablando un idioma extraño y distorsionado: "Ojo de Pez".
Si intentamos "enderezar" la foto primero (como si le quitáramos la distorsión con un software), la foto se estira, se pixela y pierde calidad (como intentar arreglar una foto borrosa con Photoshop: siempre queda algo mal).
La idea de los autores: En lugar de arreglar la foto, le damos al superhéroe unas fichas de traducción. Estas fichas le susurran al cerebro del modelo: "Oye, esta imagen está curvada, pero no te preocupes, es solo una cámara de ojo de pez. Interpreta estas curvas como si fueran líneas rectas".

Gracias a estas fichas, el superhéroe no necesita cambiar su forma de pensar. Solo necesita un pequeño recordatorio para adaptar su visión a la nueva cámara.

¿Cómo se entrenan estas fichas?

Lo más increíble es que no necesitan fotos de ojo de pez reales para aprender. Eso sería difícil porque hay muy pocas fotos de ojo de pez con medidas exactas de distancia.

En su lugar, hacen un truco de magia:

Toman millones de fotos normales (que sí tienen).
Usan un programa para dibujarles una distorsión artificial (simulando que son de ojo de pez).
Le dicen al modelo: "Mira esta foto distorsionada, pero como sé que la foto original era perfecta, corrige tu respuesta para que coincida con la realidad".
Las Fichas de Calibración aprenden a hacer este ajuste mágico sin necesidad de que un humano les diga cuál es la distancia real.

¿Por qué es genial esto?

Es ligero: Las fichas son tan pequeñas que apenas ocupan espacio en la memoria del ordenador (como un post-it en un libro gigante).
Es reversible: Si quitas las fichas, el modelo vuelve a funcionar perfectamente con cámaras normales. No se rompe nada.
Es universal: Con un solo juego de fichas, puedes usar el mismo modelo de superhéroe tanto para cámaras de ojo de pez en interiores como en exteriores. No necesitas entrenar un modelo nuevo para cada tipo de cámara.

En resumen

Este paper nos dice que no necesitamos reinventar la rueda ni entrenar a nuevos superhéroes desde cero para las cámaras de ojo de pez. Solo necesitamos darle al héroe que ya tenemos unas pequeñas "gafas de adaptación" (las fichas) que le permiten entender el mundo curvo sin perder su capacidad de ver el mundo recto. ¡Es una solución elegante, barata y muy efectiva!

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo "Extending Foundational Monocular Depth Estimators to Fisheye Cameras with Calibration Tokens" en español:

1. El Problema

Los Estimadores Fundamentales de Profundidad Monocular (FMDEs) son modelos preentrenados masivamente (con decenas de millones de imágenes) que logran una generalización excepcional en estimaciones de profundidad para cámaras estándar (perspectiva). Sin embargo, estos modelos fallan catastróficamente cuando se aplican a imágenes de cámaras ojo de pez (fisheye).

Causa del fallo: Existe un desplazamiento de covariante (covariate shift) debido a las diferencias en los parámetros de calibración de la cámara (intrínsecos y distorsión). Las líneas rectas en el mundo 3D aparecen curvas en las imágenes ojo de pez, lo que confunde a los modelos entrenados exclusivamente con geometría perspectiva.
Limitaciones de las soluciones actuales:
- Corrección de distorsión (Undistortion): Requiere parámetros de calibración precisos (que a menudo son inestables o desconocidos) y introduce artefactos espaciales (estiramiento, aliasing, pérdida de información) al proyectar la imagen a un marco de referencia canónico.
- Entrenamiento desde cero o Fine-tuning: Los conjuntos de datos públicos de cámaras ojo de pez son órdenes de magnitud más pequeños que los de cámaras perspectiva. Entrenar un modelo nuevo es inviable, y el fine-tuning de un FMDE existente puede causar "deriva de parámetros", perdiendo la generalización del modelo original y requiriendo modelos especializados para cada tipo de cámara.

2. Metodología Propuesta: Calibration Tokens

Los autores proponen una adaptación ligera que no requiere reentrenar el modelo completo ni realizar proyecciones espaciales en la imagen. La solución se basa en Tokens de Calibración.

Concepto Central: En lugar de modificar la imagen de entrada o los pesos del modelo, se insertan un pequeño conjunto de tokens entrenables en la arquitectura del modelo (basada en Transformers) para "recalibrar" las representaciones latentes de las imágenes ojo de pez, alineándolas con la distribución de las imágenes perspectiva.
Arquitectura:
- Dado que muchos FMDEs modernos utilizan Vision Transformers (ViT), los autores aprovechan el mecanismo de atención.
- Se inyectan Tokens de Calibración ( $\phi$ ) en la secuencia de entrada de cada capa del codificador (esquema "Layer-wise").
- Estos tokens modulan las embeddings latentes de los parches de la imagen ojo de pez a través de la atención cruzada, ajustándolas para que el decodificador (que permanece congelado) pueda interpretarlas correctamente como si fueran perspectiva.
- Los tokens se descartan en la salida del codificador, por lo que no afectan la resolución de salida.
Entrenamiento Auto-supervisado:
- No se requieren imágenes ojo de pez reales ni etiquetas de profundidad.
- Se utilizan grandes conjuntos de datos de imágenes perspectiva.
- Proceso:
  1. Se toman imágenes perspectiva y se les aplica una distorsión sintética (usando el modelo de Kannala & Brandt) para simular imágenes ojo de pez.
  2. El modelo con Tokens de Calibración predice la profundidad de la imagen distorsionada.
  3. La predicción de profundidad se re-proyecta (undistorted) de vuelta al marco de referencia perspectiva original.
  4. Se calcula una pérdida (LogL1) comparando esta proyección con la predicción original del modelo en la imagen perspectiva (que actúa como "pseudo-ground truth").
- Esto obliga a los tokens a aprender a compensar la distorsión en el espacio latente sin perder información de la imagen original.

3. Contribuciones Clave

Extensión de FMDEs: Un método novedoso para adaptar estimadores de profundidad entrenados en perspectiva a cámaras ojo de pez sin reentrenar el modelo base.
Tokens de Calibración: Un mecanismo de adaptación ligero que modula las embeddings latentes, alineando la distribución de las imágenes ojo de pez con la de las perspectiva.
Objetivo de Entrenamiento Auto-supervisado: Una estrategia que sintetiza distorsiones en imágenes perspectiva y "deshace" la transformación en la salida para calcular la pérdida, preservando la señal de supervisión de alta fidelidad y evitando artefactos de proyección.
Generalización Universal: Se entrena un solo conjunto de tokens que funciona tanto para interiores como para exteriores, y es compatible con múltiples arquitecturas de FMDE (MiDaS, DepthAnything, UniDepth).

4. Resultados Experimentales

Los autores evaluaron su método en conjuntos de datos interiores (ScanNet++) y exteriores (KITTI-360), utilizando modelos base como MiDaS, DepthAnything y UniDepth.

Rendimiento Superior: El método supera consistentemente a los métodos state-of-the-art (como DepthAnyCamera y FoVA-Depth) que requieren proyecciones equirectangulares o calibración específica.
- En interiores (ScanNet++), UniDepth con Tokens de Calibración mejoró un 13% en RMSE respecto a su versión base y superó a los baselines existentes.
- En exteriores (KITTI-360), se observaron mejoras consistentes en RMSE y precisión ( $\delta_1$ ), demostrando robustez ante distorsiones extremas (>180°).
Eficiencia Computacional:
- Los tokens añaden un costo de memoria insignificante (< 0.05% del modelo base) y un aumento de latencia de menos de 1 ms.
- No requiere parámetros intrínsecos de la cámara durante la inferencia.
Comparación con Fine-tuning: El fine-tuning tradicional resultó en una caída drástica del rendimiento y pérdida de generalización, mientras que los Tokens de Calibración preservaron la capacidad del modelo original para imágenes perspectiva.
Ablación: Se demostró que inyectar tokens en cada capa (Layer-wise) es superior a inyectarlos solo en la primera capa, y que el uso de la pérdida LogL1 mejora la estabilidad y reduce artefactos en los bordes distorsionados.

5. Significado e Impacto

Este trabajo es significativo porque resuelve un problema fundamental en la visión por computadora robótica y de vehículos autónomos: la necesidad de sistemas de percepción que funcionen con múltiples tipos de sensores (perspectiva y ojo de pez) sin multiplicar la complejidad operativa.

Desacoplamiento de Hardware y Modelo: Permite que un único modelo fundamental de profundidad se adapte a diferentes cámaras simplemente añadiendo o eliminando tokens, eliminando la necesidad de recalibración manual o reentrenamiento costoso.
Preservación de Información: Al evitar la proyección espacial de la imagen de entrada, se mantiene la integridad de los píxeles originales, evitando artefactos que degradan la precisión.
Escalabilidad: Al depender de conjuntos de datos de perspectiva masivos y disponibles públicamente, el método es escalable y práctico para aplicaciones del mundo real donde los datos de ojo de pez etiquetados son escasos.

En resumen, los Tokens de Calibración ofrecen una solución elegante y eficiente para cerrar la brecha entre los modelos de visión fundacionales y las realidades de los sensores de gran angular, permitiendo una estimación de profundidad precisa y generalizable sin sacrificar la eficiencia computacional.