LAP: A Language-Aware Planning Model For Procedure Planning In Instructional Videos

O artigo apresenta o LAP, um modelo inovador que utiliza a expressividade da linguagem para superar a ambiguidade visual no planejamento de procedimentos em vídeos instrucionais, alcançando desempenho superior ao estado da arte em múltiplos benchmarks ao empregar um modelo de linguagem visual para gerar representações textuais distintas que alimentam um modelo de difusão para prever sequências de ações.

Lei Shi, Victor Aregbede, Andreas Persson, Martin Längkvist, Amy Loutfi, Stephanie Lowry

Publicado Wed, 11 Ma
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando ensinar um robô a fazer um bolo de chocolate. Você mostra para ele o início (a cozinha vazia) e o fim (o bolo pronto). O desafio é fazer o robô descobrir sozinho todos os passos intermediários: "quebrar os ovos", "misturar a farinha", "colocar no forno".

O problema é que, para um robô que só usa olhos (visão), alguns passos parecem idênticos.

  • Imagine dois momentos: um onde você está "adicionando café" e outro onde você está "alisando a superfície do café".
  • Visualmente, são quase a mesma coisa: uma mão, uma xícara, um fundo de cozinha. É como tentar adivinhar se alguém está cantando "Parabéns" ou "Feliz Aniversário" apenas olhando para a boca de alguém que está com a boca aberta, sem ouvir o som. É confuso!

É aqui que entra o LAP (Planejamento Consciente de Linguagem), o "herói" deste artigo.

A Grande Ideia: Traduzir Imagens em Palavras

Em vez de deixar o robô tentar adivinhar os passos apenas olhando para as imagens (o que gera confusão), os criadores do LAP decidiram fazer uma coisa genial: eles ensinaram o robô a "falar" o que ele vê.

Pense no LAP como um tradutor mágico que funciona em duas etapas:

  1. O Tradutor (O VLM): Primeiro, o modelo olha para a imagem do início e do fim e, em vez de guardar apenas a foto, ele escreve uma descrição detalhada.

    • Em vez de guardar a foto de uma mão segurando uma colher, ele escreve: "Uma mão segurando uma colher de pau misturando uma massa espessa".
    • Em vez de guardar a foto da xícara, ele escreve: "Uma mão alisando a superfície do café com uma espátula".
    • Por que isso é bom? Porque as palavras são muito mais únicas do que as fotos. "Misturar" e "Alisar" são ações diferentes na linguagem, mesmo que a mão pareça igual na foto. Isso limpa a confusão.
  2. O Planejador (O Modelo de Difusão): Depois de ter essas descrições claras em texto, o robô usa um "planejador" (chamado modelo de difusão) para criar a sequência de passos.

    • Imagine que o planejador é como um chef de cozinha experiente. Ele não olha para fotos borradas; ele lê o cardápio (o texto) e sabe exatamente quais ingredientes e passos vêm entre o "início" e o "fim".
    • Como as descrições em texto são mais distintas, o chef consegue planejar a receita perfeita sem errar os passos.

Por que isso é um avanço?

Antes, os robôs tentavam aprender apenas olhando para vídeos, como se alguém tentasse aprender a dirigir apenas assistindo a um filme mudo, sem ouvir as instruções do instrutor. Eles se perdem porque muitas cenas se parecem.

O LAP funciona como dar ao robô um manual de instruções escrito baseado no que ele vê.

  • Analogia do Labirinto: Tentar planejar apenas com visão é como tentar sair de um labirinto de espelhos, onde tudo se reflete e parece igual. O LAP coloca um mapa escrito no labirinto. Em vez de se perder nos reflexos, o robô lê as placas ("Gire à esquerda na porta vermelha") e sai direto.

Os Resultados

Os pesquisadores testaram esse método em três grandes desafios (chamados CrossTask, Coin e NIV), que são como provas de culinária para robôs.

  • O resultado? O LAP venceu todos os outros métodos com uma folga enorme.
  • Ele conseguiu prever sequências de ações com muito mais precisão, especialmente em tarefas longas e complexas.

Resumo em uma frase

O LAP é um sistema inteligente que ensina robôs a ler o que eles veem antes de agir, transformando imagens confusas em descrições de texto claras, o que permite que eles planejem tarefas complexas (como cozinhar ou montar móveis) com a precisão de quem segue um bom livro de receitas, em vez de tentar adivinhar olhando apenas para a foto.