ViterbiPlanNet: Injecting Procedural Knowledge via Differentiable Viterbi for Planning in Instructional Videos

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Vamos a explicar este paper, "ViterbiPlanNet", como si estuviéramos charlando en una cafetería, usando ejemplos de la vida real para que todo quede clarísimo.

🎬 El Problema: Enseñar a una IA a hacer un sándwich

Imagina que quieres enseñar a un robot a hacer un sándwich de pavo.

Estado inicial: Ves el pan de abajo y el pavo en el plato.
Estado final: Ves el sándwich terminado.
La tarea: El robot debe adivinar los pasos intermedios: poner el pan, poner el pavo, poner la lechuga, poner el pan de arriba.

El problema es que los robots actuales (basados en modelos gigantes como los LLMs o redes de difusión) intentan memorizar millones de recetas. Es como si el robot tuviera que leer todo Wikipedia de cocina para aprender a hacer un sándwich. Es lento, gasta mucha energía y a veces se confunde (por ejemplo, intenta poner la lechuga antes que el pan).

💡 La Solución: ViterbiPlanNet (El "Chef con Receta")

Los autores proponen algo diferente. En lugar de obligar al robot a memorizar todo, le dan una receta estructurada (un mapa de cómo se conectan las cosas) y le enseñan a seguir esa receta paso a paso.

Aquí entran los tres conceptos clave, explicados con analogías:

1. El Grafo de Conocimiento Procedural (PKG): El Mapa del Tesoro

Imagina que tienes un mapa de metro.

Las estaciones son las acciones ("Poner pan", "Poner pavo").
Las líneas son las conexiones permitidas.
Sabes que puedes ir de "Poner pan" a "Poner pavo", pero no puedes ir directamente de "Poner pan" a "Poner lechuga" si el mapa dice que primero necesitas el pavo.

En lugar de que el robot adivine, ViterbiPlanNet usa este mapa (llamado PKG) como una guía estricta. No permite que el robot haga cosas imposibles, como poner la lechuga antes que el pan.

2. La Capa de Viterbi Diferenciable (DVL): El GPS Inteligente

Aquí está la magia. El algoritmo clásico de "Viterbi" es como un GPS que calcula la ruta más rápida, pero es "tonto": si le das una instrucción nueva, no puede aprender de sus errores porque no deja que la información fluya hacia atrás para corregir el mapa.

Los autores crearon una versión "diferenciable" (DVL).

Analogía: Imagina que el GPS no solo te dice el camino, sino que aprende mientras viajas. Si te equivocas en una curva, el GPS ajusta su cálculo interno para que la próxima vez lo haga mejor.
Esto permite que el robot aprenda a predecir qué acción es más probable en cada momento (basado en lo que ve en la cámara) y luego usa el mapa (PKG) para ordenar esas predicciones en una secuencia lógica.

3. Entrenamiento Guiado vs. Memorización

Los otros métodos (LLMs, Difusión): Son como un estudiante que intenta memorizar de memoria la lista de pasos de 10,000 recetas. Si ve una receta que no ha memorizado, falla.
ViterbiPlanNet: Es como un estudiante que entiende la lógica de la cocina. No necesita memorizar cada receta; solo necesita saber que "si hay pan, puedo poner pavo". Por eso, necesita muchos menos datos para aprender y es mucho más eficiente.

🏆 ¿Qué lograron? (Los Resultados)

Más rápido y barato: El modelo es diminuto (tiene millones de veces menos "cerebro" o parámetros que los gigantes como GPT o Gemini). Funciona en dispositivos pequeños, no necesita superordenadores.
Más preciso: En pruebas reales (hacer sándwiches, limpiar, etc.), acertó más veces que los modelos gigantes.
Robusto: Si entrenas al robot para hacer una receta de 6 pasos, pero luego le pides que haga una de 3 pasos (que es parte de la anterior), el robot no se confunde. Entiende la estructura, no solo la secuencia exacta.
Justicia en las pruebas: Los autores también se quejaron de que antes nadie comparaba los robots de la misma manera (algunos usaban datos distintos, otros métricas distintas). Crearon un "campeonato oficial" unificado para que todos compitan en igualdad de condiciones.

🧠 En resumen

ViterbiPlanNet es como darle a un robot un mapa de metro (PKG) y un GPS que aprende (DVL).

No le obligan a memorizar todo el mundo.
Le dicen: "Mira la foto, adivina qué acción sigue, y luego usa el mapa para asegurarte de que tiene sentido".
El resultado es un robot que planifica mejor, gasta menos energía y no se confunde cuando las cosas cambian un poco.

Es un paso gigante para tener asistentes de IA que realmente entiendan cómo se hacen las cosas en el mundo real, sin necesitar una supercomputadora para cada tarea. 🚀🥪

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: ViterbiPlanNet

1. El Problema: Planificación Procedural en Videos Instruccionales

La planificación procedural consiste en predecir una secuencia de acciones que transforme un estado visual inicial ( $v_s$ ) en un estado objetivo deseado ( $v_g$ ). Este es un desafío fundamental para agentes inteligentes en entornos complejos.

Limitaciones de los enfoques actuales: Los métodos recientes (basados en LLMs, modelos de difusión o transformadores grandes) tienden a aprender estructuras procedimentales implícitamente a partir de grandes volúmenes de datos. Esto resulta en:
- Baja eficiencia de muestreo (requieren muchos datos).
- Alto costo computacional y de parámetros.
- Falta de generalización a horizontes de planificación no vistos durante el entrenamiento.
- Inconsistencias en los protocolos de evaluación y división de datos en la literatura existente.

2. Metodología: ViterbiPlanNet

El núcleo de la propuesta es ViterbiPlanNet, un marco que integra explícitamente el conocimiento procedural en el proceso de aprendizaje mediante una Capa de Viterbi Diferenciable (DVL).

Componentes Clave:

Grafo de Conocimiento Procedimental (PKG):
- Se representa como un grafo dirigido donde los nodos son acciones y las aristas son transiciones válidas con probabilidades estimadas a partir de estadísticas de co-ocurrencia en los datos de entrenamiento.
- Actúa como una guía estructural explícita, evitando que el modelo tenga que memorizar reglas complejas.
Codificación Visual y Emisiones:
- El modelo toma los estados visual inicial y final como entrada.
- Una red neuronal ( $f_{emiss}$ ) predice las probabilidades de emisión ( $P(v_t | a_t)$ ), es decir, la compatibilidad de una acción con las observaciones visuales, en lugar de predecir la secuencia completa directamente.
Capa de Viterbi Diferenciable (DVL):
- Innovación Principal: El algoritmo clásico de Viterbi utiliza operaciones no diferenciables (max y argmax), lo que impide el entrenamiento end-to-end.
- La DVL reemplaza estas operaciones con relajaciones suaves (log-sum-exp y softmax), permitiendo que los gradientes fluyan desde la pérdida de planificación hasta la red neuronal.
- Esto permite que el modelo aprenda a generar distribuciones de emisiones que, al ser decodificadas por el PKG, resulten en planes estructuralmente consistentes.
Función de Pérdida:
- La optimización se basa en minimizar el error cuadrático medio (MSE) entre el plan suave predicho por la DVL y el plan real (one-hot).
- Se complementa con pérdidas auxiliares de alineación visual-semántica y clasificación de tareas para mejorar la representación visual.

3. Contribuciones Clave

Integración End-to-End del Conocimiento Estructural: A diferencia de trabajos previos que usan el grafo solo como post-procesamiento o condicionamiento, ViterbiPlanNet integra el PKG directamente en el entrenamiento a través de la DVL. Esto fuerza al modelo a aprender representaciones visuales conscientes de la estructura.
Eficiencia de Parámetros y Muestreo: El modelo es extremadamente ligero (~5.5M - 7M de parámetros), logrando un rendimiento superior con órdenes de magnitud menos parámetros que los enfoques basados en LLMs (30B+) o difusión.
Protocolo de Evaluación Unificado: Los autores identifican inconsistencias en la literatura y proponen un protocolo de evaluación estandarizado con divisiones de datos consistentes, métricas unificadas y evaluación de significancia estadística mediante bootstrapping.
Consistencia Trans-Horizonte: Introducen un protocolo de prueba donde los modelos entrenados en horizontes largos (ej. $T=6$ ) se evalúan en horizontes más cortos ( $T=3,4,5$ ), demostrando una mayor robustez y capacidad de generalización.

4. Resultados Experimentales

Los experimentos se realizaron en tres conjuntos de datos estándar: CrossTask, COIN y NIV.

Rendimiento Superior: ViterbiPlanNet alcanza el estado del arte (SOTA) en la métrica de Tasa de Éxito (SR) en todos los conjuntos de datos y horizontes de planificación, superando consistentemente a métodos como SCHEMA, PlanLLM, PDPP y modelos de difusión.
Eficiencia: Con solo ~6M de parámetros, supera a modelos con cientos de millones o miles de millones de parámetros.
Análisis de Ablación:
- El entrenamiento guiado por la estructura (DVL) es el factor crítico de mejora, no el post-procesamiento.
- El modelo es más eficiente en el uso de datos: requiere menos ejemplos de entrenamiento para alcanzar un rendimiento comparable a arquitecturas más complejas.
Robustez: Muestra una consistencia superior al cambiar el horizonte de planificación (entrenar en $T=6$ , probar en $T=3$ ), lo que indica que aprende la estructura procedural subyacente en lugar de memorizar patrones específicos de longitud.
Comparación con LLMs/VLMs: Los modelos de lenguaje grandes (como Qwen o Gemini) tienen un rendimiento limitado en esta tarea cuando se les pide planificar directamente, y la inyección de PKG en sus prompts no mejora significativamente sus resultados, a diferencia del enfoque de ViterbiPlanNet.

5. Significado e Impacto

Este trabajo demuestra que inyectar conocimiento estructural explícito en el proceso de aprendizaje es una estrategia superior a depender puramente de la capacidad de memorización de modelos masivos.

Viabilidad en Dispositivos: La eficiencia de parámetros hace que la planificación procedural sea viable para agentes en dispositivos con recursos limitados (on-device AI).
Generalización: La capacidad de mantener la coherencia en horizontes no vistos sugiere que el modelo ha capturado la lógica causal de las tareas, no solo correlaciones estadísticas.
Estándar de Evaluación: El protocolo unificado propuesto establece un nuevo estándar para la comparación justa y rigurosa de futuros métodos de planificación procedural.

En conclusión, ViterbiPlanNet redefine el enfoque de la planificación en videos, moviéndose de la "fuerza bruta" de los grandes modelos hacia una arquitectura estructuralmente consciente, eficiente y robusta.