Each language version is independently generated for its own context, not a direct translation.

Imagina que quieres enseñar a un robot a hacer tareas complejas, como poner la mesa o cocinar una cena. El problema es que grabar videos de robots reales que hacen estas cosas es muy caro y lento. Además, necesitamos saber exactamente qué movimientos hace el robot en cada milisegundo (los "botones" que presiona), y obtener esa información es casi imposible.

Pero, ¡tenemos millones de videos de humanos haciendo cosas en internet! El problema es que esos videos no tienen etiquetas de "qué botón presionar".

Aquí es donde entra HiLAM (el modelo de la que habla el artículo). Piensa en HiLAM como un detective muy inteligente que aprende a ver videos sin etiquetas y descubre los "secretos" de cómo se mueve el mundo.

Aquí te explico cómo funciona con una analogía sencilla:

1. El Problema: Ver solo los "píxeles"

Los modelos antiguos (como los LAMs normales) son como alguien que mira una película cuadro por cuadro. Si ves un video de alguien sirviendo café, el modelo ve: "píxel 1: mano arriba, píxel 2: mano baja, píxel 3: taza llena".
El problema es que esto es demasiado lento y detallado. El modelo se pierde en los pequeños movimientos y no entiende la idea general: "Estoy sirviendo café". Se queda atrapado en los detalles y no ve el bosque.

2. La Solución: HiLAM y sus "Capas de Abstracción"

HiLAM es como un director de cine que tiene dos cámaras: una cámara de primer plano y una cámara panorámica.

La cámara de primer plano (Nivel Bajo): Primero, HiLAM usa un "traductor" (un modelo pre-entrenado) para convertir los movimientos de los píxeles en acciones latentes. Imagina que en lugar de ver "mano arriba, mano abajo", el modelo ve "intento de agarrar", "movimiento hacia la taza". Son los "movimientos primitivos".
La cámara panorámica (Nivel Alto - La Magia): Aquí es donde HiLAM brilla. En lugar de ver cada movimiento por separado, HiLAM tiene un cuchillo mágico (llamado mecanismo de corte dinámico).
- Este cuchillo no corta el video en trozos de 5 segundos fijos. ¡Corta donde tiene sentido!
- Si el robot está agarrando una taza, el cuchillo deja que ese movimiento dure lo que necesite. Cuando la taza está en el aire, el cuchillo hace un corte. Cuando la taza se deja en la mesa, hace otro corte.
- Así, agrupa muchos pequeños movimientos en una sola "Habilidad" (Skill).

3. La Analogía de la "Receta de Cocina"

Imagina que quieres aprender a hacer un pastel.

El modelo antiguo te daría una lista de instrucciones microscópicas: "Mueve el dedo índice 2mm a la derecha, mueve la muñeca 1 grado, presiona el botón". Es abrumador y difícil de seguir.
HiLAM te da una receta de chef:
1. Mezclar los ingredientes (Esta es una "Habilidad" que agrupa 50 movimientos pequeños).
2. Hornear (Otra habilidad que agrupa 100 movimientos).
3. Decorar (Otra habilidad).

HiLAM aprende a crear estas "recetas" (habilidades) solo mirando videos de gente cocinando, sin que nadie le diga qué pasos son. Descubre que "mezclar" es un bloque de tiempo coherente, aunque la velocidad de mezcla varíe entre videos.

4. ¿Por qué es tan útil? (El Entrenamiento)

HiLAM funciona en dos fases:

Fase de Aprendizaje (Mirando videos): El robot ve miles de videos de humanos y robots. Aprende a agrupar los movimientos en "habilidades" (como "agarrar", "mover", "soltar"). No necesita que nadie le diga qué hacer; solo observa el patrón.
Fase de Práctica (Aprendiendo a actuar): Luego, le enseñamos al robot a usar estas habilidades.
- Le decimos: "Quiero que pongas el vaso en la mesa".
- El robot piensa: "Ah, eso requiere la habilidad 'agarrar vaso' y luego la habilidad 'mover a la mesa'".
- Ejecuta esos bloques grandes en lugar de intentar calcular cada movimiento desde cero.

El Resultado: Eficiencia y Velocidad

Lo más impresionante del artículo es que, gracias a HiLAM, el robot aprende mucho más rápido.

Si le das al robot un modelo antiguo, necesita ver 100 ejemplos de alguien poniendo un vaso en la mesa para aprender.
Con HiLAM, porque ya entiende las "habilidades" generales (agarrar, mover), necesita ver solo 10 ejemplos para aprender la misma tarea. Es como si ya supiera las palabras y solo tuviera que aprender a formar la frase.

En Resumen

HiLAM es un sistema que toma videos caóticos sin etiquetas, los organiza en "bloques de habilidades" inteligentes (como capítulos de un libro en lugar de letras sueltas) y usa esos bloques para enseñar a los robots a hacer cosas complejas con muy poca ayuda humana.

La gran ventaja: No necesita saber el nombre de la tarea ni tener un manual de instrucciones. Solo necesita mirar, entender el ritmo de la acción y agrupar los movimientos en cosas que tienen sentido. ¡Es como enseñar a un robot a bailar viendo videos de discoteca en lugar de darle una lista de pasos de baile!

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: HiLAM (Hierarchical Latent Action Model)

1. Planteamiento del Problema

El aprendizaje robótico reciente ha dependido de grandes conjuntos de datos, pero la obtención de datos etiquetados con acciones es costosa y limita la diversidad de los conjuntos de datos. Para abordar esto, han surgido los Modelos de Acción Latente (LAMs), que infieren acciones latentes directamente de datos de observación (videos sin etiquetas de acción).

Sin embargo, los LAMs existentes presentan limitaciones críticas:

Horizonte temporal corto: Se centran en transiciones de frames a corto plazo y capturan dinámicas de bajo nivel (movimientos primitivos).
Falta de estructura de alto nivel: Ignoran las habilidades temporales extendidas y de alto nivel que suelen estar presentes en videos sin acciones.
Rigidez en la segmentación: Los trabajos anteriores asumen ventanas de longitud fija o conjuntos de habilidades predefinidos. En la realidad, la duración de las habilidades varía significativamente (ej. la misma tarea realizada a diferentes velocidades), lo que hace que forzarlas en ventanas fijas distorsione la representación de la habilidad subyacente.

El objetivo es extraer habilidades latentes de alto nivel de videos no etiquetados, sin depender de etiquetas de acción, conjuntos de habilidades predefinidos o ventanas de tiempo fijas.

2. Metodología: HiLAM

HiLAM es un modelo jerárquico diseñado para descubrir habilidades latentes modelando información temporal a largo plazo. Su arquitectura se basa en dos fases principales y utiliza un mecanismo de "fragmentación dinámica" (dynamic chunking).

2.1 Extracción de Acciones Latentes (Nivel Bajo)

Se utiliza un Modelo de Dinámica Inversa (IDM) preentrenado (como UniSkill) para inferir una secuencia de acciones latentes de bajo nivel ( $z^l$ ) a partir de transiciones de frames en videos sin etiquetas.
Estas acciones latentes capturan los patrones dinámicos subyacentes entre frames.

2.2 Mecanismo de Fragmentación Dinámica (H-Net)

Para abstraer la secuencia de acciones de bajo nivel en habilidades de alto nivel, HiLAM adopta la arquitectura H-Net:

Segmentación Automática: Utiliza un mecanismo que predice indicadores de frontera ( $b_t$ ) basándose en la disimilitud de características entre tokens consecutivos. Si dos tokens son muy diferentes, se marca una frontera.
Agrupación Jerárquica: Las acciones latentes se agrupan en "chunks" (fragmentos) de longitud variable. Cada fragmento se resume en un token representativo que actúa como una habilidad latente ( $z^h$ ).
Jerarquía: El modelo procesa múltiples etapas, donde cada nivel superior opera sobre secuencias más cortas y agrupadas, permitiendo capturar contextos temporales más largos.

2.3 Objetivos de Entrenamiento

El modelo se entrena mediante una combinación de tres funciones de pérdida:

Predicción de la siguiente acción latente ( $L_{latent}$ ): Predice la siguiente acción latente en la secuencia (tarea de predicción de token siguiente).
Supervisión Visual ( $L_{rec}$ ): Utiliza un Modelo de Dinámica Forward (FDM) preentrenado para reconstruir frames futuros condicionados a las acciones latentes predichas. Esto asegura que las representaciones latentes mantengan sus propiedades de movimiento dinámico.
Regularizador de Ratio ( $L_{ratio}$ ): Controla la longitud promedio de los fragmentos y evita patrones de frontera degenerados.

2.4 Aprendizaje de Políticas Jerárquicas

Una vez extraídas las habilidades, se entrena una política jerárquica en dos fases:

Pre-entrenamiento: Se entrena una política de alto nivel ( $\pi_h$ ) para predecir la habilidad latente a partir de la observación y la instrucción, y una política de bajo nivel ( $\pi_l$ ) para predecir la acción latente basada en la observación y la habilidad predicha. Todo esto utilizando los pseudo-etiquetas generadas por HiLAM.
Ajuste Fino (Fine-tuning): La política de alto nivel se congela. La política de bajo nivel se ajusta utilizando demostraciones con acciones reales (ground-truth) en el dominio objetivo, mapeando el espacio de acciones latentes al espacio de acciones reales.

3. Contribuciones Clave

Descubrimiento de Habilidades Jerárquico: Propone un modelo capaz de descubrir habilidades de alto nivel directamente de videos sin acciones, sin necesidad de etiquetas ni conjuntos de habilidades predefinidos.
Adaptabilidad Temporal: Mediante el mecanismo de dynamic chunking de H-Net, HiLAM maneja naturalmente la variabilidad en la duración de las habilidades, agrupando secuencias de longitud variable en representaciones semánticas coherentes.
Eficiencia Computacional y de Datos: Reutiliza modelos LAM preentrenados para la extracción de características, permitiendo un modelado eficiente de trayectorias de largo horizonte.
Interpretabilidad: Las habilidades descubiertas son interpretables, ya que las fronteras de segmentación corresponden a cambios semánticos en la tarea (ej. "agarrar" vs. "soltar") y las acciones latentes permiten reconstruir frames futuros.

4. Resultados Experimentales

Los experimentos se realizaron principalmente en el benchmark LIBERO, que incluye tareas de razonamiento espacial, generalización de objetos, seguimiento de instrucciones y tareas de largo horizonte.

Rendimiento General: HiLAM superó consistentemente a la línea base más avanzada (BAKU) en todas las suites de LIBERO (Spatial, Object, Goal, Long).
Eficiencia de Datos (LIBERO-Long):
- Con solo el 10% de las demostraciones de expertos para el ajuste fino, HiLAM logró un 45% de tasa de éxito, duplicando el rendimiento de BAKU (23%).
- Con el 50% de las demostraciones, HiLAM alcanzó un 84%, igualando el rendimiento de BAKU entrenado con el 100% de los datos.
- Con el 100% de los datos, HiLAM alcanzó un 94%, superando significativamente a la línea base.
Estudios de Ablación:
- El uso de videos humanos (Something-Something V2) para el pre-entrenamiento resultó ser más efectivo que los videos de robots.
- La combinación óptima fue usar representaciones de la etapa 2 ( $s=2$ ) para las habilidades de alto nivel y la etapa 0 ( $s=0$ ) para las acciones de bajo nivel.
- Las políticas no jerárquicas (planas) no lograron el mismo rendimiento, demostrando la necesidad de la estructura jerárquica.
Análisis Cualitativo:
- La visualización de los límites de segmentación mostró que HiLAM agrupa correctamente secuencias de acciones en habilidades semánticas (ej. moverse hacia un objeto, agarrarlo, soltarlo).
- La predicción de frames futuros a partir de las acciones latentes predichas confirmó que el modelo retiene información de movimiento válida.

5. Significado y Conclusión

HiLAM representa un avance significativo en el aprendizaje por refuerzo y la robótica al demostrar que es posible aprender estructuras de habilidades de alto nivel a partir de datos no etiquetados.

Impacto: Permite aprovechar la inmensa cantidad de datos de video disponibles en internet (humanos y robots) para pre-entrenar políticas, reduciendo drásticamente la cantidad de demostraciones costosas necesarias para el ajuste fino en tareas complejas y de largo horizonte.
Limitaciones y Futuro: El trabajo se ha validado principalmente en entornos simulados. Futuras direcciones incluyen la integración de instrucciones de lenguaje natural para complementar las señales de movimiento y la validación en robots del mundo real. Además, se explora la posibilidad de entrenar toda la arquitectura de forma conjunta en lugar de utilizar componentes preentrenados.

En resumen, HiLAM cierra la brecha entre el aprendizaje de dinámicas de bajo nivel y la adquisición de habilidades de alto nivel, ofreciendo una solución escalable y eficiente para el control robótico basado en datos.

Hierarchical Latent Action Model