LAP: A Language-Aware Planning Model For Procedure Planning In Instructional Videos

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que estás viendo un video de cocina en YouTube donde alguien hace un pastel, pero el video no tiene voz en off ni subtítulos. Solo ves las manos moviéndose, los ingredientes y el horno.

El problema es que, a veces, dos pasos diferentes se ven casi idénticos. Por ejemplo, "batir los huevos" y "batir la crema" pueden verse igual en la pantalla: hay un tazón, hay una mano y hay un batidor. Si una Inteligencia Artificial (IA) solo mira la imagen, se confunde y no sabe qué hacer después.

Aquí es donde entra el LAP (Planificación Consciente del Lenguaje), el protagonista de este artículo.

La Gran Idea: "No mires solo, ¡escucha lo que dicen!"

Imagina que la IA es un chef novato.

El método antiguo: El chef novato solo tiene ojos. Mira el tazón y dice: "Hmm, veo un tazón y una mano moviéndose rápido. ¿Será huevos? ¿Será crema? ¡No lo sé! Voy a adivinar". Esto lleva a errores.
El método LAP: El chef novato tiene un traductor mágico. En lugar de quedarse solo con la imagen borrosa, el traductor convierte lo que ve en una descripción de texto muy detallada.
- En lugar de ver "movimiento rápido en tazón", el traductor le dice: "¡Oye! Esta acción es específicamente 'batir huevos a punto de nieve' y no 'batir crema'".

El LAP convierte las imágenes confusas en palabras claras. Y resulta que, en el "mundo de los datos" (el espacio latente), las palabras son mucho más fáciles de distinguir que las fotos. Es como intentar diferenciar dos coches idénticos de lejos (difícil) versus leer sus placas de matrícula (fácil).

¿Cómo funciona el truco? (La Metáfora del Traductor y el Arquitecto)

El sistema tiene dos partes principales que trabajan en equipo:

El Traductor (El VLM):
Primero, el sistema toma el video de inicio (donde empieza la receta) y el video de meta (el pastel terminado). Usa un modelo de IA muy inteligente (llamado VLM) para escribir una historia de lo que está pasando.
- El truco especial: No se conforma con decir "poner café". Le pide a otro cerebro de IA (un LLM) que explique el paso con mucho detalle, como si fuera un libro de instrucciones. Así, "poner café" se convierte en "verter granos de café molidos en el filtro". Esto evita que se confunda con otros pasos que también usen la palabra "poner".
El Arquitecto (El Modelo de Difusión):
Una vez que tiene esas descripciones de texto tan claras, el sistema las usa como un plano. Imagina que el texto son los cimientos y las vigas. Usa una técnica llamada "Modelo de Difusión" (que es como un escultor que empieza con una masa de barro y va quitando ruido hasta que aparece la estatua perfecta) para dibujar el camino entre el inicio y el final.
- En lugar de adivinar qué paso sigue basándose en lo que se ve, el arquitecto sigue el mapa de lo que se dice.

¿Por qué es tan bueno? (Los Resultados)

Los autores probaron su sistema en tres "gimnasios" de pruebas (bases de datos de videos de instrucciones): CrossTask, Coin y NIV.

El resultado: LAP ganó por un margen enorme a todos los otros sistemas.
La analogía: Es como si en una carrera de obstáculos, los otros corredores tropezaran porque no podían ver bien el camino (confusión visual), mientras que LAP llevaba unas gafas de realidad aumentada que le decían exactamente por dónde pisar (claridad del lenguaje).

¿Qué aprendemos de esto?

La conclusión es sencilla pero poderosa: El lenguaje es más preciso que la vista.

Cuando intentamos enseñar a una máquina a hacer cosas complejas (como reparar una bicicleta o cocinar), darle solo imágenes es como darle un rompecabezas sin la imagen de la caja. Pero si le das las instrucciones escritas (el lenguaje), el rompecabezas se resuelve solo.

En resumen:
LAP es un sistema que convierte videos confusos en instrucciones de texto claras y luego usa esas instrucciones para planificar el futuro. Es como darle a una IA un "libro de recetas" en su cabeza para que no se pierda al intentar cocinar el pastel, incluso si el video original no tiene voz. ¡Y funciona increíblemente bien!

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo "LAP: A Language-Aware Planning Model For Procedure Planning In Instructional Videos" en español:

1. El Problema

La planificación de procedimientos en videos instruccionales consiste en predecir una secuencia de acciones intermedias que transforman una observación visual inicial (estado de partida) en una observación visual objetivo (estado meta).

El desafío principal identificado por los autores es la ambigüedad inherente de las observaciones visuales. Diferentes acciones pueden parecer visualmente muy similares (mismo fondo, mismos objetos, mismas manos), lo que dificulta que los modelos distingan entre ellas basándose únicamente en píxeles. Por ejemplo, "Añadir café" y "Nivelar la superficie" pueden tener marcos iniciales casi idénticos. Los métodos existentes, que dependen principalmente de características visuales, a menudo fallan en estas situaciones debido a la falta de distintividad en el espacio latente visual.

2. Metodología: LAP (Language-Aware Planning)

Los autores proponen LAP, un modelo que utiliza la expresividad y distintividad del lenguaje natural para superar las limitaciones visuales. La arquitectura se divide en tres etapas principales:

A. Transformación de Video a Texto (Visión-Lenguaje)

En lugar de usar directamente las características visuales para la planificación, LAP convierte las observaciones visuales en representaciones textuales.

Modelo de Lenguaje Visión (VLM) Ajustado: Se utiliza un VLM preentrenado (basado en el modelo de [46] entrenado en Ego4D) que se ajusta (fine-tuning) para generar descripciones de texto elaboradas a partir de clips de video.
Professor Forcing: Para el ajuste fino, se emplea una técnica llamada Professor Forcing. En lugar de usar solo teacher forcing (que puede causar desajuste entre entrenamiento e inferencia) o free running (que es lento), el modelo alterna entre ambos modos durante el entrenamiento con una probabilidad programada. Un discriminador asegura que las distribuciones de tokens generados en ambos modos sean similares, mejorando la robustez sin aumentar excesivamente el costo computacional.
Descripciones Elaboradas: Para evitar la ambigüedad de verbos o sustantivos comunes (ej. "añadir" en diferentes contextos), se utiliza un Modelo de Lenguaje Grande (LLM) preentrenado para expandir las etiquetas de acción cortas en descripciones detalladas y únicas antes de usarlas como supervisión para el VLM.

B. Extracción de Embeddings de Texto

Una vez que el VLM genera descripciones de texto para las observaciones de inicio y fin, se extraen embeddings de texto utilizando un codificador de texto preentrenado en el conjunto de datos HowTo100M. Estos embeddings se consideran más distintivos en el espacio latente que los embeddings visuales.

C. Planificación con Modelos Difusivos (Diffusion Models)

La planificación de la secuencia de acciones se realiza mediante un modelo de difusión (DDPM - Denoising Diffusion Probabilistic Model).

Entrada: El modelo recibe como condición los embeddings de texto de la acción de inicio ( $\hat{a}_s$ ) y la acción de meta ( $\hat{a}_g$ ), junto con la estructura de la secuencia.
Proceso: Durante el proceso de generación, solo se añade ruido a la dimensión de las acciones, manteniendo los embeddings de texto de inicio y fin fijos (sin ruido) para guiar la generación. Esto permite que el modelo "denosee" la secuencia de acciones intermedias basándose en la guía semántica del texto.

3. Contribuciones Clave

Propuesta de LAP: Introducción de un nuevo paradigma que utiliza descripciones de lenguaje como puente entre la observación visual y la planificación, aprovechando su mayor distintividad en el espacio latente.
Rendimiento SOTA: Logro de un estado del arte (SOTA) con un margen significativo en tres conjuntos de datos desafiantes (CrossTask, Coin y NIV) en múltiples métricas y horizontes temporales.
Validación Empírica: Demostración de que los embeddings de texto son superiores a las observaciones visuales puras para la planificación de procedimientos, especialmente en escenarios con alta ambigüedad visual.

4. Resultados Experimentales

El modelo se evaluó en tres benchmarks: CrossTask, Coin y NIV.

Métricas: Se utilizaron Tasa de Éxito (SR), Precisión Media (mAcc) y Media de Intersección sobre Unión (mSIoU).
Comparación: LAP superó consistentemente a métodos SOTA anteriores como PDPP, ActionDiffusion, SCHEMA, PlanLLM y KEPP.
- En CrossTask, LAP logró la mayor Tasa de Éxito (SR) en todos los horizontes temporales (ej. 41.14% en T=3 vs ~33% de los mejores baselines).
- En Coin, la mejora fue drástica: LAP alcanzó un SR de 44.43% (T=3), superando a PlanLLM (33.22%) por un margen considerable, a pesar de que PlanLLM utiliza observaciones visuales intermedias.
- En NIV, LAP obtuvo un SR de 56.51% (T=3), superando al baseline más fuerte (MTID) por casi 28 puntos porcentuales.
Estudios de Ablación:
- Texto vs. Visual: Reemplazar los embeddings de texto por características visuales (LAP-vo) resultó en una caída significativa del rendimiento, confirmando que el lenguaje proporciona características más distintivas.
- Professor Forcing: El uso de Professor Forcing superó consistentemente al entrenamiento con Teacher Forcing tradicional.
- Modelos VLM: El VLM específico ajustado para LAP superó a modelos generales como LLaVa-NeXT-Video, debido a que el VLM de LAP está preentrenado en clips de acción cortos, alineándose mejor con la tarea.

5. Significado e Impacto

Este trabajo demuestra que, en tareas de planificación de procedimientos, el lenguaje es una representación más robusta y menos ambigua que la visión pura. Al transformar el dominio visual al textual antes de la planificación, LAP resuelve el problema de la similitud visual entre acciones distintas.

La investigación sugiere un cambio de paradigma en la visión por computadora para la planificación: en lugar de intentar aprender representaciones visuales perfectas para distinguir acciones similares, es más efectivo utilizar la capacidad de los modelos de lenguaje para disambiguar y describir las acciones, utilizando luego modelos generativos (difusión) para sintetizar la secuencia temporal basada en esa guía semántica. Esto abre nuevas vías para sistemas de IA que asisten a humanos en tareas complejas del mundo real.

LAP: A Language-Aware Planning Model For Procedure Planning In Instructional Videos

La Gran Idea: "No mires solo, ¡escucha lo que dicen!"

¿Cómo funciona el truco? (La Metáfora del Traductor y el Arquitecto)

¿Por qué es tan bueno? (Los Resultados)

¿Qué aprendemos de esto?

1. El Problema

2. Metodología: LAP (Language-Aware Planning)

A. Transformación de Video a Texto (Visión-Lenguaje)

B. Extracción de Embeddings de Texto

C. Planificación con Modelos Difusivos (Diffusion Models)

3. Contribuciones Clave

4. Resultados Experimentales

5. Significado e Impacto

Más como este

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities