D2E: Scaling Vision-Action Pretraining on Desktop Data for Transfer to Embodied AI

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que quieres enseñarle a un robot a hacer de todo: desde abrir una puerta hasta cocinar un huevo. El problema es que para enseñarle, necesitas que un humano le muestre cómo hacerlo físicamente, moviendo sus brazos reales. Esto es carísimo, lento y peligroso (¿te imaginas tener que contratar a 50 personas para que muevan robots durante un año?).

Los autores de este paper (llamado D2E) tuvieron una idea brillante: ¿Y si le enseñamos al robot a jugar videojuegos en lugar de mover sus brazos físicos?

Aquí te explico cómo funciona, usando analogías sencillas:

1. El Gran Problema: "El Robot que necesita un entrenador humano"

Hasta ahora, la Inteligencia Artificial para robots (IA Embarcada) estaba estancada porque no había suficientes datos. Recoger datos del mundo real es como intentar llenar una piscina con una cuchara: muy lento y costoso.

2. La Solución Mágica: "El Gimnasio Digital"

Los autores dicen: "¡Espera! Hay miles de millones de horas de gente jugando videojuegos en internet. En esos juegos, la gente mueve el ratón y el teclado para controlar un personaje que camina, salta y agarra cosas".

La idea es que los músculos digitales (mover el ratón) son muy parecidos a los músculos físicos (mover el brazo del robot). Si un robot aprende a jugar Minecraft o GTA V en la pantalla, puede aprender a moverse en el mundo real.

3. Los Tres Superpoderes del Proyecto (D2E)

Para hacer esto realidad, crearon tres herramientas principales:

A. La "Cámara de Alta Velocidad" (OWA Toolkit)

Imagina que quieres grabar cómo juega alguien, pero no solo la pantalla, sino también exactamente qué teclas pulsó y cómo movió el ratón, todo sincronizado milisegundo a milisegundo.

El problema: Los grabadores normales son lentos y ocupan mucho espacio (como grabar un video en 4K sin comprimir).
La solución: Crearon una herramienta que graba todo y lo comprime como un mágico acordeón. Lograron reducir el tamaño de los datos en 152 veces. Es como si pudieras guardar 152 películas en el espacio de una sola. ¡Y todo sin perder calidad!

B. El "Entrenador Universal" (Generalist-IDM)

Antes, si querías enseñar a un robot a jugar, tenías que entrenar un modelo diferente para cada juego (uno para Minecraft, otro para Apex Legends).

La analogía: Es como tener un entrenador de fútbol que solo sabe entrenar al equipo de "Minecraft". Si llega un jugador de "Apex", el entrenador no sabe qué hacer.
La solución: Crearon un Entrenador Universal. Este modelo aprendió a jugar 31 juegos diferentes a la vez. Lo más increíble es que, después de entrenarlo con datos reales, lo usaron para inventar datos nuevos. Le mostraron videos de YouTube de gente jugando y el modelo "adivinó" qué teclas estaban pulsando. ¡Así generaron 1,000 horas de datos extra automáticamente! Es como tener un alumno que, tras ver un partido, puede escribir el guion de lo que pasó sin haber estado allí.

C. El "Puente Mágico" (VAPT)

Aquí viene la parte de la magia. Entrenaron a un modelo (un cerebro de IA) con todos esos datos de videojuegos. Luego, lo pusieron a prueba en robots reales.

El resultado: El robot, que nunca había tocado un mundo real, usó lo que aprendió en los videojuegos para resolver tareas físicas.
- En tareas de manipulación (agarrar objetos): Logró un 96.6% de éxito.
- En tareas de navegación (caminar y evitar obstáculos): Logró un 83.3% de éxito.
La comparación: Este modelo, que es "pequeño" (1 mil millones de parámetros), rindió tan bien o mejor que modelos gigantes (de 3 o 7 mil millones) que costaron millones de dólares entrenar. Es como si un estudiante que estudió en la biblioteca (datos de juegos) sacara mejores notas que un estudiante que gastó una fortuna en un laboratorio privado.

¿Por qué es importante esto?

Es barato: En lugar de gastar millones en robots y humanos, gastaron unos 800 dólares en computación para entrenar el modelo.
Es escalable: Pueden usar cualquier video de YouTube de juegos para entrenar a los robots.
Funciona: Demostraron que lo que aprendemos en lo digital (pantallas) se puede transferir a lo físico (mundo real).

En resumen

Imagina que quieres aprender a conducir un coche. En lugar de ir a la carretera con un instructor (que es peligroso y caro), te pasas 1,000 horas jugando a Euro Truck Simulator. Cuando te sientas en un coche real, tus manos ya saben cómo girar el volante y tus ojos saben dónde mirar.

D2E hace exactamente eso para los robots: les da un "simulador de vida" masivo hecho de videojuegos para que aprendan a moverse en el mundo real sin necesidad de costosos entrenamientos físicos. ¡Es el futuro de la robótica accesible para todos!

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo "D2E: SCALING VISION-ACTION PRETRAINING ON DESKTOP DATA FOR TRANSFER TO EMBODIED AI" (D2E: Escalando el preentrenamiento visión-acción en datos de escritorio para transferencia a IA encarnada), publicado en ICLR 2026.

1. El Problema

La Inteligencia Artificial Encarnada (Embodied AI) enfrenta una barrera fundamental: la escasez y el alto costo de los datos de trayectoria física. A diferencia de los Grandes Modelos de Lenguaje (LLM), que se benefician de datos de texto a escala de internet, la recolección de datos robóticos requiere hardware especializado, operación humana costosa y pipelines complejos de anotación. Esto ha impedido la creación de un "ciclo de retroalimentación de datos" (data flywheel) real para la robótica, limitando la generalización de los agentes.

Las soluciones anteriores se han centrado en dominios específicos (como VPT para Minecraft) o han mantenido los datos propietarios (como SIMA), lo que limita su escalabilidad y utilidad para tareas físicas generales.

2. Metodología: El Marco D2E

Los autores proponen D2E (Desktop to Embodied AI), un marco que transforma las interacciones de escritorio (pantalla, teclado, ratón) en un sustrato de preentrenamiento escalable y de bajo costo para tareas robóticas. El enfoque se basa en tres componentes principales:

A. OWA Toolkit (Open-World Agents Toolkit)

Para resolver la falta de herramientas estandarizadas para la recolección de datos de escritorio, desarrollaron:

ocap (Omnimodal CAPture): Un grabador que sincroniza flujos multimodales (video, audio, teclado, ratón y estado de ventanas) con alta precisión temporal utilizando APIs de Windows y GStreamer.
Formato OWAMcap: Un formato de almacenamiento basado en el estándar MCAP (usado en robótica) pero optimizado para escritorio. Utiliza referencias a medios externos y códecs de video (H.265) para lograr una compresión de hasta 152× en comparación con formatos anteriores (como JSONL o tablas monolíticas), reduciendo drásticamente los requisitos de almacenamiento y mejorando la eficiencia de E/S.
Pipeline de Datos Optimizado: Incluye estrategias de decodificación por lotes adaptativos y conjuntos de datos de longitud fija (FSLDataset) para maximizar el rendimiento del entrenamiento.

B. Generalist-IDM (Inverse Dynamics Model Generalista)

Para escalar más allá de las demostraciones humanas (que son costosas), introducen un modelo de Dinámica Inversa Generalista:

Predicción de Eventos con Marca de Tiempo (NEP-τ): A diferencia de los modelos basados en "ticks" fijos, el Generalist-IDM predice el evento y su marca de tiempo exacta. Utiliza un objetivo de Next-Event Prediction con Offset Temporal (NEP-τ), donde el modelo observa estados futuros (hasta $\tau$ ms) para inferir la acción presente. Esto resuelve problemas de alineación temporal y evita tokens de "no-op" (sin operación).
Etiquetado Pseudo (Pseudo-labeling): Entrenado en 335 horas de demostraciones humanas, el modelo logra una generalización zero-shot en juegos no vistos. Esto permite automatizar el etiquetado de más de 1,000 horas de videos de gameplay de YouTube, creando un corpus masivo de datos vision-acción.

C. VAPT (Vision-Action PreTraining)

Es el modelo fundacional que transfiere el conocimiento aprendido en el dominio digital (escritorio) al dominio físico (robótica).

Se entrena sobre el corpus combinado de datos humanos y pseudo-etiquetados (totalizando ~1.3K horas).
Utiliza una arquitectura basada en InternVL3-1B (un modelo multimodal de 1B de parámetros).
El modelo aprende primitivas sensoriomotoras (cómo las observaciones visuales se traducen en comandos de acción) que son transferibles a robots físicos.

3. Contribuciones Clave

OWA Toolkit: La primera infraestructura unificada y de código abierto para la captura, sincronización y almacenamiento eficiente de datos de interacción de escritorio a gran escala.
Generalist-IDM: Un modelo de dinámica inversa que demuestra una fuerte generalización fuera de dominio (OOD) en múltiples juegos, permitiendo la creación de conjuntos de datos pseudo-etiquetados a escala de internet sin necesidad de filtrado manual estricto.
Validación de Transferencia D2E: La demostración empírica de que las interacciones digitales (teclado/ratón) pueden preentrenar modelos que mejoran significativamente el rendimiento en tareas de manipulación y navegación robótica física, superando a modelos mucho más grandes entrenados solo con datos robóticos.

4. Resultados Experimentales

El modelo VAPT (1B parámetros) fue evaluado en benchmarks estándar de robótica, logrando resultados sobresalientes:

Manipulación (LIBERO):
- Alcanzó una tasa de éxito del 96.6% en tareas de manipulación.
- Superó o igualó a modelos significativamente más grandes, como $\pi_0$ (3.3B parámetros) y OpenVLA (7B parámetros).
- En tareas de largo horizonte (LIBERO-10), mostró ventajas particulares, logrando un 93.6% de éxito.
Navegación (CANVAS):
- Alcanzó una tasa de éxito del 83.3%.
- La inclusión de datos pseudo-etiquetados mejoró el rendimiento en un 8 puntos porcentuales, especialmente en instrucciones engañosas donde la planificación de alto nivel es crucial.
Eficiencia:
- El entrenamiento del Generalist-IDM costó aproximadamente $800 (192 horas de GPU H100).
- La compresión de datos redujo los requisitos de almacenamiento en un factor de 152×, haciendo viable el entrenamiento en laboratorios académicos con recursos limitados.

5. Significado e Impacto

El trabajo D2E establece un nuevo paradigma para la IA encarnada:

Democratización del Acceso: Al utilizar datos de escritorio (abundantes y baratos) en lugar de datos robóticos físicos (escasos y caros), se reduce la barrera de entrada para la investigación en robótica.
Transferencia Digital-Física: Valida la hipótesis de que las primitivas sensoriomotoras aprendidas en entornos digitales (juegos) tienen una estructura subyacente compartida con el mundo físico, permitiendo una transferencia efectiva de habilidades.
Escalabilidad: Demuestra que es posible construir modelos fundacionales para robótica utilizando datos de internet a gran escala, superando las limitaciones de los conjuntos de datos actuales que son pequeños y fragmentados.

En resumen, D2E demuestra que el preentrenamiento en datos de escritorio es una alternativa práctica y altamente efectiva para superar el cuello de botella de la recolección de datos físicos, logrando un rendimiento de clase mundial en tareas robóticas con un modelo de solo 1B de parámetros.