LAP: A Language-Aware Planning Model For Procedure Planning In Instructional Videos

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando ensinar um robô a fazer um bolo de chocolate. Você mostra para ele o início (a cozinha vazia) e o fim (o bolo pronto). O desafio é fazer o robô descobrir sozinho todos os passos intermediários: "quebrar os ovos", "misturar a farinha", "colocar no forno".

O problema é que, para um robô que só usa olhos (visão), alguns passos parecem idênticos.

Imagine dois momentos: um onde você está "adicionando café" e outro onde você está "alisando a superfície do café".
Visualmente, são quase a mesma coisa: uma mão, uma xícara, um fundo de cozinha. É como tentar adivinhar se alguém está cantando "Parabéns" ou "Feliz Aniversário" apenas olhando para a boca de alguém que está com a boca aberta, sem ouvir o som. É confuso!

É aqui que entra o LAP (Planejamento Consciente de Linguagem), o "herói" deste artigo.

A Grande Ideia: Traduzir Imagens em Palavras

Em vez de deixar o robô tentar adivinhar os passos apenas olhando para as imagens (o que gera confusão), os criadores do LAP decidiram fazer uma coisa genial: eles ensinaram o robô a "falar" o que ele vê.

Pense no LAP como um tradutor mágico que funciona em duas etapas:

O Tradutor (O VLM): Primeiro, o modelo olha para a imagem do início e do fim e, em vez de guardar apenas a foto, ele escreve uma descrição detalhada.
- Em vez de guardar a foto de uma mão segurando uma colher, ele escreve: "Uma mão segurando uma colher de pau misturando uma massa espessa".
- Em vez de guardar a foto da xícara, ele escreve: "Uma mão alisando a superfície do café com uma espátula".
- Por que isso é bom? Porque as palavras são muito mais únicas do que as fotos. "Misturar" e "Alisar" são ações diferentes na linguagem, mesmo que a mão pareça igual na foto. Isso limpa a confusão.
O Planejador (O Modelo de Difusão): Depois de ter essas descrições claras em texto, o robô usa um "planejador" (chamado modelo de difusão) para criar a sequência de passos.
- Imagine que o planejador é como um chef de cozinha experiente. Ele não olha para fotos borradas; ele lê o cardápio (o texto) e sabe exatamente quais ingredientes e passos vêm entre o "início" e o "fim".
- Como as descrições em texto são mais distintas, o chef consegue planejar a receita perfeita sem errar os passos.

Por que isso é um avanço?

Antes, os robôs tentavam aprender apenas olhando para vídeos, como se alguém tentasse aprender a dirigir apenas assistindo a um filme mudo, sem ouvir as instruções do instrutor. Eles se perdem porque muitas cenas se parecem.

O LAP funciona como dar ao robô um manual de instruções escrito baseado no que ele vê.

Analogia do Labirinto: Tentar planejar apenas com visão é como tentar sair de um labirinto de espelhos, onde tudo se reflete e parece igual. O LAP coloca um mapa escrito no labirinto. Em vez de se perder nos reflexos, o robô lê as placas ("Gire à esquerda na porta vermelha") e sai direto.

Os Resultados

Os pesquisadores testaram esse método em três grandes desafios (chamados CrossTask, Coin e NIV), que são como provas de culinária para robôs.

O resultado? O LAP venceu todos os outros métodos com uma folga enorme.
Ele conseguiu prever sequências de ações com muito mais precisão, especialmente em tarefas longas e complexas.

Resumo em uma frase

O LAP é um sistema inteligente que ensina robôs a ler o que eles veem antes de agir, transformando imagens confusas em descrições de texto claras, o que permite que eles planejem tarefas complexas (como cozinhar ou montar móveis) com a precisão de quem segue um bom livro de receitas, em vez de tentar adivinhar olhando apenas para a foto.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: LAP (Planejamento Consciente de Linguagem)

1. O Problema

O Planejamento de Procedimentos em vídeos instrucionais tem como objetivo prever uma sequência de ações intermediárias que transformam uma observação visual inicial (start) em uma observação visual de meta (goal).

O principal desafio identificado pelos autores é a ambiguidade inerente das observações visuais. Diferentes ações podem parecer visualmente muito semelhantes (ex.: "Adicionar Café" vs. "Nivelar a Superfície" podem ter fundos, objetos e mãos idênticos nas frames iniciais). Isso dificulta que modelos baseados puramente em visão distinguam entre ações distintas no espaço latente, levando a erros no planejamento da sequência.

2. Metodologia (LAP)

Os autores propõem o LAP (Language-Aware Planning), um modelo que utiliza a expressividade e a distintividade das descrições de linguagem para superar as limitações visuais. A abordagem divide-se em três etapas principais:

Transformação de Vídeo para Texto (Video-to-Text):
- Em vez de usar apenas embeddings visuais, o modelo converte as observações visuais de início e fim em descrições textuais.
- Utiliza um Modelo de Linguagem Visão (VLM) pré-treinado e ajustado (finetuned) para gerar descrições de texto a partir das observações visuais.
- Professor Forcing: Para o ajuste fino do VLM, os autores empregam uma técnica chamada Professor Forcing. Isso envolve treinar o modelo para alternar entre "força do professor" (usando o token real como entrada) e "execução livre" (gerando tokens autoregressivamente), minimizando a discrepância entre as distribuições de treinamento e inferência.
- Refinamento de Linguagem: Para evitar ambiguidades onde diferentes ações compartilham os mesmos verbos ou substantivos (ex.: "Adicionar X" vs. "Adicionar Y"), as descrições de ação são elaboradas por um LLM (Large Language Model) pré-treinado. Isso cria descrições textuais mais detalhadas e distintivas antes de serem convertidas em embeddings.
Extração de Embeddings Textuais:
- As descrições de texto geradas são processadas por um codificador de texto (pré-treinado no dataset HowTo100M) para obter embeddings textuais ( $E_{\hat{a}_s}$ e $E_{\hat{a}_g}$ ) que representam as ações de início e fim.
Planejamento com Modelos de Difusão:
- O núcleo do planejamento é um Modelo de Difusão Probabilística de Remoção de Ruído (DDPM).
- O modelo recebe como entrada os embeddings textuais das ações de início e fim, mantendo essas dimensões fixas (sem ruído), enquanto adiciona ruído gaussiano apenas à dimensão das ações intermediárias a serem previstas.
- O processo de denoising gera a sequência de ações intermediárias ( $\pi$ ) condicionada aos embeddings textuais, explorando a clareza do espaço latente textual.

3. Contribuições Principais

Novo Paradigma (LAP): Introdução de um modelo que utiliza a distinção superior das representações textuais em relação às visuais para o planejamento de procedimentos.
Performance SOTA: Alcançou o estado da arte (SOTA) em três benchmarks desafiadores (CrossTask, Coin e NIV) com uma margem significativa em múltiplas métricas e horizontes temporais.
Validação Empírica da Distintividade: Demonstração experimental de que os embeddings de texto são mais separáveis e distintivos no espaço latente do que os embeddings visuais, facilitando a distinção entre ações semanticamente próximas mas visualmente ambíguas.
Técnicas de Ajuste Fino: Aplicação eficaz de Professor Forcing e elaboração de descrições via LLM para melhorar a qualidade da tradução vídeo-texto.

4. Resultados Experimentais

O LAP foi avaliado em três conjuntos de dados com horizontes temporais ( $T$ ) variando de 3 a 6 ações. As métricas principais foram Taxa de Sucesso (SR), Precisão Média (mAcc) e mSIoU.

CrossTask: O LAP superou todos os baselines (incluindo PDPP, ActionDiffusion, SCHEMA, PlanLLM). Em $T=3$ , alcançou 41.14% de SR (vs. ~33% dos melhores concorrentes) e 70.13% de mAcc.
Coin: Demonstrou uma vantagem ainda maior, com 44.43% de SR em $T=3$ , superando o baseline PlanLLM (que usa observações visuais intermediárias) por uma margem considerável.
NIV: O modelo obteve resultados excepcionais, com 56.51% de SR em $T=3$ , superando o melhor baseline (MTID) em quase 28 pontos percentuais.
Estudos de Ablação:
- Texto vs. Visão: O uso de embeddings textuais superou consistentemente o uso de apenas características visuais, especialmente nos datasets Coin e NIV, onde a ambiguidade visual é maior.
- Professor Forcing: O uso de Professor Forcing no VLM resultou em melhorias consistentes em relação ao uso tradicional de Teacher Forcing.
- Arquitetura VLM: O VLM específico ajustado para o LAP (focado em cliques curtos de ação) superou modelos gerais como o LLaVa-NeXT-Video, que tiveram desempenho inferior devido à incompatibilidade com o comprimento e natureza dos vídeos instrucionais.

5. Significado e Conclusão

O trabalho demonstra que a consciência linguística é crucial para o planejamento de procedimentos. Ao transformar observações visuais ambíguas em representações textuais ricas e distintivas, o LAP resolve o problema da sobreposição visual entre ações diferentes.

A conclusão central é que, embora a visão forneça informações ricas, a linguagem oferece uma representação latente mais discriminativa para tarefas de planejamento sequencial. A abordagem não apenas atinge novos recordes de desempenho, mas também valida a eficácia de combinar modelos de linguagem (VLM/LLM) com modelos generativos (Difusão) para tarefas de robótica e interação humano-IA, permitindo que sistemas assistivos compreendam e executem tarefas complexas com maior precisão.

LAP: A Language-Aware Planning Model For Procedure Planning In Instructional Videos

A Grande Ideia: Traduzir Imagens em Palavras

Por que isso é um avanço?

Os Resultados

Resumo em uma frase

Resumo Técnico: LAP (Planejamento Consciente de Linguagem)

1. O Problema

2. Metodologia (LAP)

3. Contribuições Principais

4. Resultados Experimentais

5. Significado e Conclusão

Mais como este

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities