ViterbiPlanNet: Injecting Procedural Knowledge via Differentiable Viterbi for Planning in Instructional Videos

O artigo apresenta o ViterbiPlanNet, um framework inovador que integra conhecimento procedural explícito em um modelo de planejamento de vídeos instrucionais através de uma Camada de Viterbi Diferenciável, alcançando desempenho de última geração com maior eficiência de amostragem e menor custo computacional em comparação a abordagens baseadas em grandes modelos.

Luigi Seminara, Davide Moltisanti, Antonino Furnari

Publicado 2026-03-05
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você quer aprender a fazer um sanduíche de peru, mas nunca viu ninguém fazendo isso antes. Você só vê a foto do pão no prato (o início) e a foto do sanduíche pronto (o fim). Como você descobre os passos do meio? Colocar o pão de baixo? O peru? A alface? O pão de cima?

A maioria dos computadores hoje tenta adivinhar essa sequência "chutando" milhões de vezes, como se estivessem tentando decorar cada receita do mundo de cor. Isso exige computadores gigantes, consome muita energia e, muitas vezes, eles esquecem o básico (como tentar colocar o peru antes do pão).

O ViterbiPlanNet é uma nova ideia que muda esse jogo. Em vez de tentar decorar tudo, ele ensina o computador a usar um mapa de regras que já conhecemos.

Aqui está a explicação simples, passo a passo:

1. O Problema: Tentar adivinhar sem um guia

Pense nos métodos antigos como um turista em uma cidade grande sem mapa. Ele pode tentar adivinhar o caminho, mas se ele virar na rua errada, pode ficar perdido. Para não se perder, ele precisa memorizar todas as ruas possíveis (o que exige uma memória enorme).

No mundo da inteligência artificial, isso significa usar modelos gigantes (como os que geram texto ou imagens) que tentam "aprender" a lógica de fazer um sanduíche apenas vendo milhares de vídeos. Eles são caros e ineficientes.

2. A Solução: O "Mapa do Tesouro" (Conhecimento Procedural)

Os autores do ViterbiPlanNet dizem: "Por que não damos um mapa ao turista?".
Eles criam um Grafo de Conhecimento Procedural (PKG).

  • O que é? É como um mapa de metrô ou um diagrama de fluxo.
  • Como funciona? Ele diz: "Você pode ir do 'Pão de Baixo' para o 'Peru', mas não pode ir do 'Pão de Baixo' direto para 'Colocar o Pão de Cima' se ainda não tiver o recheio".
  • Esse mapa contém as regras lógicas que qualquer humano sabe (ex: você não coloca o recheio antes do pão).

3. A Magia: O "GPS Diferenciável" (Camada Viterbi Diferenciável)

Aqui está a parte genial. Antigamente, os computadores usavam esse mapa apenas no final, como uma correção de última hora (ex: "Ops, você sugeriu colocar o peru no ar, vamos consertar isso agora").

O ViterbiPlanNet faz algo novo: ele enterra o mapa dentro do cérebro do computador enquanto ele está aprendendo.

  • A Analogia do Treinador: Imagine um aluno aprendendo a dirigir.
    • Método Antigo: O aluno dirige sozinho, erra muito, e só depois o professor diz "você deveria ter virado à esquerda".
    • ViterbiPlanNet: O aluno tem um GPS que vibra suavemente no volante enquanto ele dirige, guiando-o para não sair da pista. O GPS faz parte do aprendizado, não apenas da correção.

Tecnologicamente, eles criaram uma "camada diferenciável". Isso significa que o computador pode usar esse mapa de regras para se corrigir enquanto está sendo treinado, ajustando seus "neurônios" para entender melhor a lógica, em vez de apenas memorizar.

4. Por que isso é incrível?

  • Economia de Recursos: Como o computador usa o mapa de regras, ele não precisa ser um "gênio" gigante. Ele pode ser pequeno e leve (como um smartphone), mas ainda assim muito inteligente. O modelo deles tem milhares de vezes menos "cérebro" (parâmetros) do que os modelos de IA atuais, mas funciona melhor.
  • Aprende Rápido: Como ele já tem as regras básicas, precisa de menos exemplos para aprender. É como se você já soubesse que "pão vai embaixo e em cima", então só precisa aprender a receita específica do peru.
  • Não se Confunde: Se você treinar o modelo para fazer um sanduíche de 10 passos, ele consegue fazer um de 5 passos com facilidade, porque entendeu a lógica do mapa, não apenas a sequência específica. Os outros modelos, quando mudam o número de passos, ficam confusos.

Resumo em uma frase

O ViterbiPlanNet é como ensinar um robô a cozinhar não dando a ele uma enciclopédia inteira para decorar, mas sim um livro de receitas com regras lógicas (o que pode ser feito e o que não pode), permitindo que ele aprenda a cozinhar de forma mais rápida, barata e inteligente.

Isso é um grande passo para que assistentes de IA pessoais (como óculos inteligentes que te ajudam na cozinha) sejam leves o suficiente para rodar no seu celular e inteligentes o suficiente para não te fazer colocar o peru antes do pão!