Hierarchical Latent Action Model

El artículo presenta HiLAM, un modelo de acción latente jerárquico que descubre habilidades latentes de alto nivel modelando información temporal a largo plazo en videos sin acciones, utilizando un LAM preentrenado como extractor de bajo nivel para superar las limitaciones de los modelos existentes centrados en transiciones de corto alcance.

Hanjung Kim, Lerrel Pinto, Seon Joo Kim

Publicado 2026-03-09
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

Imagina que quieres enseñar a un robot a hacer tareas complejas, como poner la mesa o cocinar una cena. El problema es que grabar videos de robots reales que hacen estas cosas es muy caro y lento. Además, necesitamos saber exactamente qué movimientos hace el robot en cada milisegundo (los "botones" que presiona), y obtener esa información es casi imposible.

Pero, ¡tenemos millones de videos de humanos haciendo cosas en internet! El problema es que esos videos no tienen etiquetas de "qué botón presionar".

Aquí es donde entra HiLAM (el modelo de la que habla el artículo). Piensa en HiLAM como un detective muy inteligente que aprende a ver videos sin etiquetas y descubre los "secretos" de cómo se mueve el mundo.

Aquí te explico cómo funciona con una analogía sencilla:

1. El Problema: Ver solo los "píxeles"

Los modelos antiguos (como los LAMs normales) son como alguien que mira una película cuadro por cuadro. Si ves un video de alguien sirviendo café, el modelo ve: "píxel 1: mano arriba, píxel 2: mano baja, píxel 3: taza llena".
El problema es que esto es demasiado lento y detallado. El modelo se pierde en los pequeños movimientos y no entiende la idea general: "Estoy sirviendo café". Se queda atrapado en los detalles y no ve el bosque.

2. La Solución: HiLAM y sus "Capas de Abstracción"

HiLAM es como un director de cine que tiene dos cámaras: una cámara de primer plano y una cámara panorámica.

  • La cámara de primer plano (Nivel Bajo): Primero, HiLAM usa un "traductor" (un modelo pre-entrenado) para convertir los movimientos de los píxeles en acciones latentes. Imagina que en lugar de ver "mano arriba, mano abajo", el modelo ve "intento de agarrar", "movimiento hacia la taza". Son los "movimientos primitivos".
  • La cámara panorámica (Nivel Alto - La Magia): Aquí es donde HiLAM brilla. En lugar de ver cada movimiento por separado, HiLAM tiene un cuchillo mágico (llamado mecanismo de corte dinámico).
    • Este cuchillo no corta el video en trozos de 5 segundos fijos. ¡Corta donde tiene sentido!
    • Si el robot está agarrando una taza, el cuchillo deja que ese movimiento dure lo que necesite. Cuando la taza está en el aire, el cuchillo hace un corte. Cuando la taza se deja en la mesa, hace otro corte.
    • Así, agrupa muchos pequeños movimientos en una sola "Habilidad" (Skill).

3. La Analogía de la "Receta de Cocina"

Imagina que quieres aprender a hacer un pastel.

  • El modelo antiguo te daría una lista de instrucciones microscópicas: "Mueve el dedo índice 2mm a la derecha, mueve la muñeca 1 grado, presiona el botón". Es abrumador y difícil de seguir.
  • HiLAM te da una receta de chef:
    1. Mezclar los ingredientes (Esta es una "Habilidad" que agrupa 50 movimientos pequeños).
    2. Hornear (Otra habilidad que agrupa 100 movimientos).
    3. Decorar (Otra habilidad).

HiLAM aprende a crear estas "recetas" (habilidades) solo mirando videos de gente cocinando, sin que nadie le diga qué pasos son. Descubre que "mezclar" es un bloque de tiempo coherente, aunque la velocidad de mezcla varíe entre videos.

4. ¿Por qué es tan útil? (El Entrenamiento)

HiLAM funciona en dos fases:

  1. Fase de Aprendizaje (Mirando videos): El robot ve miles de videos de humanos y robots. Aprende a agrupar los movimientos en "habilidades" (como "agarrar", "mover", "soltar"). No necesita que nadie le diga qué hacer; solo observa el patrón.
  2. Fase de Práctica (Aprendiendo a actuar): Luego, le enseñamos al robot a usar estas habilidades.
    • Le decimos: "Quiero que pongas el vaso en la mesa".
    • El robot piensa: "Ah, eso requiere la habilidad 'agarrar vaso' y luego la habilidad 'mover a la mesa'".
    • Ejecuta esos bloques grandes en lugar de intentar calcular cada movimiento desde cero.

El Resultado: Eficiencia y Velocidad

Lo más impresionante del artículo es que, gracias a HiLAM, el robot aprende mucho más rápido.

  • Si le das al robot un modelo antiguo, necesita ver 100 ejemplos de alguien poniendo un vaso en la mesa para aprender.
  • Con HiLAM, porque ya entiende las "habilidades" generales (agarrar, mover), necesita ver solo 10 ejemplos para aprender la misma tarea. Es como si ya supiera las palabras y solo tuviera que aprender a formar la frase.

En Resumen

HiLAM es un sistema que toma videos caóticos sin etiquetas, los organiza en "bloques de habilidades" inteligentes (como capítulos de un libro en lugar de letras sueltas) y usa esos bloques para enseñar a los robots a hacer cosas complejas con muy poca ayuda humana.

La gran ventaja: No necesita saber el nombre de la tarea ni tener un manual de instrucciones. Solo necesita mirar, entender el ritmo de la acción y agrupar los movimientos en cosas que tienen sentido. ¡Es como enseñar a un robot a bailar viendo videos de discoteca en lugar de darle una lista de pasos de baile!