Openfly: A comprehensive platform for aerial vision-language navigation

El artículo presenta OpenFly, una plataforma integral para la navegación aérea visión-idioma que incluye un motor de simulación avanzado, una herramienta automatizada para la recolección de datos, un conjunto de datos a gran escala con 100.000 trayectorias y un agente especializado, todo ello diseñado para abordar la falta de investigación y benchmarks en este dominio.

Yunpeng Gao, Chenhui Li, Zhongrui You, Junli Liu, Zhen Li, Pengan Chen, Qizhi Chen, Zhonghan Tang, Liansheng Wang, Penghui Yang, Yiwen Tang, Yuhang Tang, Shuai Liang, Songyi Zhu, Ziqin Xiong, Yifei Su, Xinyi Ye, Jianan Li, Yan Ding, Dong Wang, Xuelong Li, Zhigang Wang, Bin Zhao

Publicado 2026-03-03
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que quieres enseñar a un dron (un robot volador) a ser un taxista experto, pero en lugar de conducir por calles, vuela por el cielo de una ciudad. El dron no sabe leer mapas ni hablar, así que tú le das instrucciones como: "Vuela hacia el edificio rojo, luego gira a la izquierda hasta ver el río".

El problema es que enseñarle esto a un dron es muy difícil y costoso. Antes, para crear un "manual de instrucciones" para el dron, necesitabas:

  1. Un piloto humano volando el dron en un simulador.
  2. Un equipo de personas escribiendo a mano las instrucciones para cada vuelo.
  3. ¡Y todo eso tomaba muchísimo tiempo y dinero!

Aquí es donde entra OpenFly, el proyecto que presentan en este artículo. Es como si hubieran construido una "fábrica mágica de drones" que automatiza todo el proceso.

Aquí te explico cómo funciona, usando analogías sencillas:

1. El "Multiverso" de Entrenamiento (Los Motores de Renderizado)

Imagina que quieres entrenar a un piloto para que pueda volar en cualquier lugar: en una ciudad futurista, en un pueblo antiguo o en un parque real.

  • Lo que hacían antes: Solo podían entrenar en un solo tipo de videojuego (como un simulador de vuelo básico).
  • Lo que hace OpenFly: Ha conectado 4 mundos virtuales diferentes a la vez:
    • Unreal Engine y GTA V: Como si entrenaras en los videojuegos más realistas del mundo, con ciudades llenas de coches, gente y edificios increíbles.
    • Google Earth: Como si volaras sobre mapas reales de ciudades como Tokio o Washington.
    • 3D Gaussian Splatting (3D GS): Esta es la parte más "mágica". Es una tecnología que toma fotos reales de lugares verdaderos (como campus universitarios) y crea una copia digital 3D perfecta. Es como escanear el mundo real para meterlo en la computadora.

La analogía: Es como si un chef pudiera cocinar en una cocina de lujo, en una parrilla al aire libre, en una cocina de un restaurante de lujo y en su propia casa, todo al mismo tiempo. ¡El dron aprende a adaptarse a cualquier situación!

2. La "Fábrica de Instrucciones" (La Herramienta Automática)

Antes, escribir las instrucciones para el dron era como escribir un libro a mano, palabra por palabra.

  • OpenFly creó un robot escritor (una herramienta automática).
    • Primero, el robot "mira" el mapa 3D y elige puntos de referencia (como un edificio alto o un puente).
    • Luego, calcula automáticamente una ruta segura para volar entre esos puntos sin chocar.
    • Finalmente, le pasa las fotos de esa ruta a una Inteligencia Artificial muy inteligente (como GPT-4) y le dice: "Mira estas fotos y escribe una instrucción clara para que el dron llegue al destino".

La analogía: Imagina que en lugar de tener que escribir tú mismo las instrucciones para un viaje, le das las fotos del viaje a un amigo muy listo y le dices: "Escribe las indicaciones para llegar aquí". ¡Y lo hace en segundos! Así, OpenFly pudo crear 100,000 rutas (¡100 mil!) en poco tiempo, algo que a humanos les tomaría años.

3. El "Piloto con Ojos de Águia" (OpenFly-Agent)

Tener 100,000 rutas es genial, pero el dron necesita aprender a usarlas. El modelo que crearon se llama OpenFly-Agent.

  • El problema: Si le muestras al dron 1,000 fotos seguidas de un vuelo, se abruma. Es como si alguien te hablara muy rápido sin pausas; no entiendes nada.
  • La solución de OpenFly: El dron tiene un truco llamado "Selección de Fotogramas Clave".
    • En lugar de mirar todas las fotos, el dron solo se fija en los momentos importantes: cuando gira, cuando ve un edificio nuevo o cuando cambia de dirección.
    • La analogía: Imagina que ves una película de 2 horas. En lugar de memorizar cada segundo, solo recuerdas las escenas clave: el momento en que el héroe entra en la cueva, cuando encuentra el tesoro, etc. OpenFly-Agent hace lo mismo: ignora el "ruido" y se concentra en lo importante para tomar decisiones rápidas.

¿Por qué es importante esto?

Hasta ahora, los drones solo sabían volar en entornos controlados o muy simples. Con OpenFly:

  1. Tenemos el mayor banco de datos del mundo para drones que siguen instrucciones de voz (100,000 rutas).
  2. Es más barato y rápido: Ya no necesitamos pilotos humanos costosos para crear datos.
  3. Funciona en la vida real: Probaron el sistema en drones reales volando en el mundo real y funcionó mucho mejor que los sistemas anteriores.

En resumen:
OpenFly es como una escuela de pilotos de drones superpoderosa. En lugar de tener un solo instructor aburrido, tiene 4 tipos de entrenadores diferentes (videojuegos, mapas reales, etc.), un robot que escribe los exámenes automáticamente, y un método de enseñanza que ayuda al alumno a no distraerse con cosas irrelevantes. El resultado: drones que pueden volar solos, entender lo que les dices y llegar a su destino en casi cualquier lugar del mundo.