Green-VLA: Staged Vision-Language-Action Model for Generalist Robots

Each language version is independently generated for its own context, not a direct translation.

Imagina que quieres enseñarle a un robot humanoide (llamado Green) a hacer de todo: desde limpiar la mesa y ordenar la fruta, hasta darte un objeto en la mano o navegar por una tienda llena de productos. El problema es que los robots suelen ser como estudiantes que solo saben hacer una cosa si se les enseña una y otra vez; si cambias un poco el escenario, se confunden.

El documento que presentas, Green-VLA, es como un "plan de estudios maestro" para convertir a este robot en un polímata (un experto en muchas cosas). En lugar de simplemente darle más datos (como si le leyeras 1000 libros de golpe), les enseñan a aprender de forma inteligente, paso a paso.

Aquí tienes la explicación sencilla, usando analogías:

1. El Problema: El Robot "Copia y Pega"

Antes, los robots aprendían por imitación (llamado "clonación de comportamiento"). Era como si un estudiante copiara las respuestas de un examen sin entender la pregunta. Si el profesor cambiaba la pregunta un poco, el estudiante fallaba. Además, los datos de los robots eran de mala calidad: videos borrosos, movimientos temblorosos o instrucciones confusas.

2. La Solución: El Plan de Estudios de 5 Etapas (El Currículo)

Green-VLA no enseña todo de golpe. Usa un método de 5 niveles, como subir una montaña o aprender un instrumento musical:

Nivel 0 (La Base): El robot empieza con un cerebro que ya sabe mucho sobre el mundo (un modelo de lenguaje y visión gigante). Ya sabe qué es una "manzana" o un "martillo" porque ha visto millones de fotos y textos de internet. Pero no sabe moverse.
Nivel 1 (Entender el Mundo Físico): Aquí le enseñan a conectar lo que ve con la física. No solo ve una "taza", entiende que es un objeto sólido que puede caerse si la empujas. Es como pasar de ver fotos de coches a entender cómo funcionan los motores.
Nivel 0 (R0 - El Entrenamiento General): ¡Aquí viene la magia! El robot ve 3.000 horas de videos de muchos robots diferentes (brazos robóticos, robots con ruedas, otros humanoides).
- La analogía: Imagina que un estudiante de medicina estudia en un hospital con muchos doctores diferentes. Aprende que "cortar" es lo mismo, ya sea con un bisturí fino o una tijera grande. El robot aprende que "agarrar" es un concepto universal, no importa si tiene 2 dedos o 5.
Nivel 1 (R1 - Especialización): Ahora el robot se enfoca en su propio cuerpo (el robot Green). Aprende los detalles finos de sus propias articulaciones y manos. Es como cuando un generalista decide especializarse en neurocirugía.
Nivel 2 (R2 - El Entrenamiento con Refuerzo): Esta es la parte más importante. Hasta ahora, el robot solo imitaba. En esta etapa, el robot aprende de sus errores.
- La analogía: Es como un videojuego. Si el robot se cae o deja caer un objeto, recibe una "penalización" (puntos negativos). Si lo hace bien, recibe "premios". El robot empieza a experimentar: "¿Qué pasa si agarro la taza un poco más fuerte?". Aprende a recuperarse de fallos y a planificar tareas largas (como limpiar toda una mesa) sin perder el hilo.

3. Las Herramientas Mágicas (Tecnología Simplificada)

Para que todo esto funcione, usan tres trucos geniales:

El "Idioma Universal" de los Movimientos:
Los robots tienen diferentes cuerpos (unos tienen brazos largos, otros cortos, otros tienen ruedas). Green-VLA traduce todos estos movimientos a un "idioma común" (un espacio de acción unificado).
- Analogía: Es como si todos los robots hablaran "Robotés". Un robot humanoide y un brazo mecánico pueden entenderse perfectamente porque traducen sus movimientos a un código estándar antes de actuar.
El "Detector de Calidad" (DataQA):
Antes de enseñar al robot, limpian los datos. Si un video de entrenamiento tiene mucho "temblor" (como una cámara inestable) o es borroso, lo tiran a la basura.
- Analogía: Es como un chef que solo usa ingredientes frescos. Si la verdura está marchita, no la usa, aunque sea gratis. Esto asegura que el robot aprenda solo de movimientos perfectos.
El "GPS de Objetos" (Módulo JPM):
A veces el robot no reconoce un objeto nuevo (por ejemplo, una nueva marca de galletas). El sistema le ayuda a adivinar dónde está el objeto basándose en la descripción.
- Analogía: Si le dices al robot "coge la galleta azul", y nunca ha visto esa galleta, el sistema le dice: "Oye, busca algo azul y redondo en esa zona". Es como tener un GPS que te guía hacia el objeto aunque no sepas su nombre exacto.

4. ¿Qué Logra?

Gracias a este método, el robot Green:

No necesita ser reentrenado para cada nuevo robot; puede controlar brazos, robots móviles y humanoides con el mismo cerebro.
Es muy rápido y seguro: Puede limpiar una mesa completa, ordenar frutas y entregarte un objeto sin caerse ni romper nada.
Se adapta: Si le pides que haga algo que nunca ha hecho exactamente igual, usa su sentido común (aprendido en internet) para adivinar cómo hacerlo.

En Resumen

Green-VLA es como un sistema educativo que toma un robot "tonto" y lo convierte en un maestro de ceremonias robótico. No solo le da más datos, sino que le enseña a pensar, planificar y aprender de sus errores, permitiéndole trabajar en el mundo real, con humanos y en situaciones caóticas, con la misma facilidad con la que tú pones la mesa para cenar.

Es el paso de tener un robot que solo sabe "copiar" a tener un robot que realmente entiende lo que debe hacer.

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo Green-VLA: Staged Vision–Language–Action Model for Generalist Robots, presentado por el Centro de Robótica de Sber.

1. El Problema

A pesar del rápido avance en los modelos de Visión-Lenguaje-Acción (VLA), su despliegue en el mundo real enfrenta tres desafíos críticos que la simple escalabilidad de datos no resuelve:

Heterogeneidad de datos: Los conjuntos de datos robóticos varían drásticamente en observaciones, espacios de acción y tasas de muestreo.
Calidad de datos inconsistente: Muchas trayectorias sufren de vibraciones (jitter), frames borrosos, ejecución incoherente y baja diversidad de escenas.
Limitaciones de la Clonación de Comportamiento (BC): El paradigma predominante minimiza el error entre la política y la demostración, pero satura rápidamente. No logra alinear las políticas con objetivos a largo plazo ni recompensas de nivel de tarea, resultando en modelos frágiles que generalizan mal a nuevos entornos o cuerpos robóticos (embodiments). Además, los enfoques de razonamiento explícito (como cadenas de pensamiento) a menudo introducen latencia inaceptable para el control en tiempo real.

2. Metodología: Green-VLA

Green-VLA introduce un marco de entrenamiento en cinco etapas curriculares diseñado para construir priores semánticos y físicos, aprender affordances compartidas y alinear políticas para la ejecución a largo plazo.

A. Las 5 Etapas de Entrenamiento

L0 (Base VLM): Carga de un modelo de visión-lenguaje preentrenado a gran escala.
L1 (Pre-entrenamiento Web Multimodal): Uso de 24 millones de muestras de internet (VQA, razonamiento espacial, apuntado) para adquirir priores de física, affordances de objetos y comprensión del mundo físico.
R0 (Pre-entrenamiento Robótico General): Entrenamiento en un corpus unificado de >3,000 horas de datos de múltiples robots (humanoides, brazos móviles, brazos fijos) para aprender habilidades de manipulación base y transferir conocimiento entre diferentes cuerpos.
R1 (Adaptación Específica al Embodiment): Ajuste fino (SFT) del modelo preentrenado para un robot objetivo específico (ej. el humanoide Green), optimizando hiperparámetros y cabezales de estado/acción.
R2 (Alineación con RL): Refinamiento mediante Aprendizaje por Refuerzo (RL) para superar la saturación de la BC, mejorando la recuperación de errores, la consistencia a largo plazo y la eficiencia.

B. Componentes Clave del Sistema

Pipeline de Datos (DataQA): Un sistema automatizado que filtra y evalúa la calidad de las demostraciones utilizando métricas de vibración ( $J$ ), nitidez de imagen ( $S$ ), diversidad visual ( $D$ ) y varianza de estado ( $\sigma^2$ ). Incluye suavizado de trayectorias y alineación temporal basada en flujo óptico para normalizar la velocidad de ejecución entre diferentes robots.
Espacio de Acción Unificado ( $A_u$ ): En lugar de rellenar (padding) acciones heterogéneas, Green-VLA mapea todas las acciones nativas (articulaciones, cartesianas, pinzas) a un espacio semántico unificado de 64 dimensiones. Se utiliza un prompt de control y una máscara binaria para indicar qué dimensiones son relevantes para cada robot, eliminando gradientes espurios y permitiendo la transferencia positiva.
Condicionamiento de Velocidad: Se introduce un factor de velocidad ( $v$ ) que permite al modelo operar en diferentes resoluciones temporales (movimientos rápidos y gruesos vs. movimientos lentos y precisos) sin reentrenar.
Módulo de Guía con Predicción Conjunta (JPM): Para tareas donde el objeto no es reconocido por el VLA pero se especifica en el lenguaje (ej. "coger la botella azul"), un módulo ligero predice un punto de afinidad 2D, lo eleva a 3D y guía el flujo de acción hacia ese objetivo, mejorando la precisión en entornos densos.
Detección de OOD y Progreso del Episodio: El modelo predice la probabilidad de fin del episodio y detecta estados fuera de distribución (OOD) mediante un modelo de mezcla gaussiana, corrigiendo las acciones para mantener la seguridad.
Planificador de Tareas: Un módulo de alto nivel (basado en GigaVision) descompone instrucciones complejas en sub-tareas atómicas y gestiona el bucle de retroalimentación y replanificación.

3. Contribuciones Clave

Pipeline de Calidad y Alineación Temporal: Un sistema robusto de curación de datos (DataQA) y alineación basada en flujo óptico que permite entrenar con datos heterogéneos de alta calidad.
Receta de Entrenamiento Escalonado (L0→R2): Una metodología clara que va desde priores web hasta la alineación con RL, demostrando que la unificación de acciones y la curación de datos son tan importantes como la escala.
Validación Multi-Embodiment: Demostración de que una sola política puede controlar desde brazos de un solo grado de libertad hasta humanoides complejos (32 DoF) sin cambios arquitectónicos, logrando transferencias positivas.
Diseño Listo para Despliegue: Implementación exitosa en el robot humanoide Green, controlando brazos, manos, torso y cabeza de manera coordinada, superando benchmarks estándar.

4. Resultados

Rendimiento en Benchmarks (R0): En tareas de limpieza de mesa (ALOHA) y benchmarks Simpler (WidowX/Google Robot), Green-VLA en la etapa R0 supera a modelos preentrenados anteriores como $\pi_0$ , GR00T N1 y WALL-OSS, a pesar de usar menos datos de entrenamiento (~3,000 horas vs >10,000 horas).
Generalización Zero-Shot: El modelo se generaliza sin ajustes a nuevos cuerpos robóticos y entornos no vistos.
Impacto de la Alineación RL (R2): La etapa R2 proporciona las mayores ganancias, mejorando significativamente la tasa de éxito (SR), la recuperación de fallos y la longitud de cadena promedio (ACL) en tareas de largo horizonte. En el benchmark Simpler BRIDGE, la alineación RL mejoró la tasa de éxito en un 24% absoluto respecto a la etapa R1.
Humanoides: En el robot Green, el sistema logra manipulación bimanual coordinada, clasificación de frutas y limpieza de mesas con alta precisión, incluso en configuraciones fuera de distribución (OOD).
Precisión en Objetos Nuevos: El módulo JPM mejora drásticamente la tasa de éxito en la selección de productos específicos en estanterías (e-commerce), incluso para SKU no vistos durante el entrenamiento.

5. Significancia

Green-VLA representa un cambio de paradigma en la robótica de base, demostrando que la calidad de los datos, la unificación semántica de las acciones y el refinamiento con RL son más críticos que simplemente aumentar el tamaño del modelo o la cantidad de datos crudos.

Escalabilidad Real: Ofrece una receta práctica para construir robots generalistas que pueden adaptarse a nuevos cuerpos y tareas sin reentrenamiento masivo.
Eficiencia Operativa: Al integrar la predicción de fin de episodio y la detección de OOD, reduce el tiempo de ejecución y aumenta la seguridad en entornos reales.
Puente Teórico-Práctico: Cierra la brecha entre los modelos de lenguaje grandes y el control robótico físico, logrando un rendimiento de vanguardia en tareas complejas de manipulación bimanual y humanoides, estableciendo un nuevo estándar para el despliegue de robots generalistas en el mundo real.

Green-VLA: Staged Vision-Language-Action Model for Generalist Robots

1. El Problema: El Robot "Copia y Pega"

2. La Solución: El Plan de Estudios de 5 Etapas (El Currículo)

3. Las Herramientas Mágicas (Tecnología Simplificada)

4. ¿Qué Logra?

En Resumen

1. El Problema

2. Metodología: Green-VLA

A. Las 5 Etapas de Entrenamiento

B. Componentes Clave del Sistema

3. Contribuciones Clave

4. Resultados

5. Significancia

Más como este

Founder effects shape the evolutionary dynamics of multimodality in open LLM families

From Instructions to Assistance: a Dataset Aligning Instruction Manuals with Assembly Videos for Evaluating Multimodal LLMs

Causal Direct Preference Optimization for Distributionally Robust Generative Recommendation

Graphs RAG at Scale: Beyond Retrieval-Augmented Generation With Labeled Property Graphs and Resource Description Framework for Complex and Unknown Search Spaces

T-MAP: Red-Teaming LLM Agents with Trajectory-aware Evolutionary Search