LAP: A Language-Aware Planning Model For Procedure Planning In Instructional Videos
O artigo apresenta o LAP, um modelo inovador que utiliza a expressividade da linguagem para superar a ambiguidade visual no planejamento de procedimentos em vídeos instrucionais, alcançando desempenho superior ao estado da arte em múltiplos benchmarks ao empregar um modelo de linguagem visual para gerar representações textuais distintas que alimentam um modelo de difusão para prever sequências de ações.