LAP: A Language-Aware Planning Model For Procedure Planning In Instructional Videos

Each language version is independently generated for its own context, not a direct translation.

LAP: De "Vertaler" die Robots helpt om recepten te volgen

Stel je voor dat je een robot wilt leren om een complexe taak uit te voeren, zoals het maken van een perfecte koffie of het bouwen van een meubelstuk, door alleen naar een instructievideo te kijken. Dit noemen onderzoekers "procedure planning". Het probleem is echter dat robots vaak in de war raken.

Het Probleem: Alles ziet er hetzelfde uit
Stel je voor dat je een robot twee verschillende taken laat zien:

"Koffiepoeder in het filter doen."
"Het oppervlak van de koffie gladstrijken."

Als je de robot alleen naar de video laat kijken, ziet hij bijna hetzelfde beeld: een hand, een filter, en bruin poeder. Voor de robot lijken deze twee stappen bijna identiek. Het is alsof je iemand vraagt om een recept te volgen, maar je geeft hem alleen foto's waar de ingrediënten er precies hetzelfde uitzien. De robot weet dan niet of hij moet voegen of moet strijken.

De Oplossing: LAP (Language-Aware Planning)
De onderzoekers van deze paper hebben een slimme oplossing bedacht genaamd LAP. In plaats van alleen te vertrouwen op wat de robot ziet, laten ze de robot ook denken in woorden.

LAP werkt in drie stappen, die we kunnen vergelijken met een kookshow:

De Vertaler (Van Beeld naar Woord):
De robot kijkt eerst naar het begin- en eindbeeld van de video. In plaats van alleen te zeggen "ik zie een hand met poeder", gebruikt LAP een slimme taalmodel (een soort super-robot die goed is in taal) om dit beeld te vertalen naar een gedetailleerde beschrijving.
- In plaats van: "Hand + poeder."
- Zegt LAP: "Een hand giet versgemalen koffie in het filter."
  Dit is cruciaal, want woorden zijn veel specifieker dan beelden. "Gieten" en "Gladstrijken" klinken heel anders, zelfs als de beelden op elkaar lijken.
De Schrijver (Het Recept uitwerken):
Soms zijn de originele instructies te kort (bijvoorbeeld alleen "Koffie"). LAP gebruikt een nog slimmere taal-robot om deze korte instructies uit te breiden naar volledige, duidelijke zinnen. Dit zorgt ervoor dat elke stap uniek is en niet verward kan worden met een andere stap.
De Chef-kok (Het Plannen):
Nu de robot de start- en einddoelen in duidelijke woorden heeft, gebruikt hij een "diffusiemodel" (een slimme generator) om het middenstuk te bedenken. Hij denkt: "Oké, we beginnen met 'koffie gieten' en eindigen met 'koffie gladstrijken'. Wat moet er dan tussen gebeuren?" Omdat hij werkt met woorden, is het voor hem veel makkelijker om de juiste volgorde te bedenken dan wanneer hij alleen naar wazige beelden zou moeten gissen.

Waarom werkt dit beter?
De onderzoekers hebben LAP getest op drie verschillende databases met instructievideo's (zoals het maken van koffie, het pannen van een muntje, en het maken van een sandwich). Het resultaat? LAP was een stuk beter dan alle andere robots die alleen naar beelden keken.

De Metafoor: Stel je voor dat je een blinddoek op hebt en iemand moet je vertellen hoe je een auto moet repareren. Als de persoon alleen zegt "kijk naar die bout", ben je in de war. Maar als de persoon zegt "draai de bout linksom los", is het duidelijk. LAP geeft de robot die duidelijke "spraakinstructies" in plaats van alleen vage "kijk-instructies".

Conclusie
Deze paper laat zien dat taal een krachtig hulpmiddel is voor robots. Door visuele informatie (beelden) om te zetten in rijke taalbeschrijvingen, kunnen robots taken veel nauwkeuriger plannen en uitvoeren. Het is alsof we de robot een "instructieboekje" geven in plaats van alleen een fotoalbum. Dit maakt AI-systemen veel betrouwbaarder voor het helpen van mensen in de echte wereld.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "LAP: A Language-Aware Planning Model For Procedure Planning In Instructional Videos" in het Nederlands.

Probleemstelling

Het doel van proceduresplanning in instructievideo's is om een reeks tussenliggende acties te voorspellen die een startwaarneming (visueel) transformeren naar een doelwaarneming. Bestaande methoden vertrouwen voornamelijk op visuele observaties als input. Dit leidt echter tot een fundamenteel probleem: visuele ambiguïteit.

Zoals geïllustreerd in het paper, kunnen twee totaal verschillende acties visueel zeer vergelijkbaar lijken (bijvoorbeeld "Koffie toevoegen" versus "Oppervlak egaliseren"). De achtergrond, objecten en handen zien er vaak hetzelfde uit, wat het voor modellen moeilijk maakt om deze acties te onderscheiden op basis van alleen beelden. De auteurs stellen dat taalbeschrijvingen een meer onderscheidende representatie bieden in de latente ruimte dan visuele features, waardoor ze beter geschikt zijn voor het plannen van acties.

Methodologie: LAP (Language-Aware Planning)

LAP is een nieuw model dat de expressiviteit van natuurlijke taal gebruikt om de kloof tussen visuele waarneming en actieplanning te overbruggen. De architectuur bestaat uit drie hoofdstappen:

Professor Forcing en VLM Finetuning:
- Het model gebruikt een vooraf getrainde Vision Language Model (VLM) om visuele observaties om te zetten in tekst.
- Om verwarring te voorkomen (waarbij verschillende acties dezelfde werkwoorden of zelfstandige naamwoorden hebben, zoals "Toevoegen"), worden de grondwaarheid-actieteksten uitgebreid met gedetailleerde beschrijvingen gegenereerd door een Large Language Model (LLM).
- De VLM wordt gefinetuned met een techniek genaamd Professor Forcing. Hierbij wordt tijdens het trainen willekeurig gekozen tussen "teacher forcing" (gebruik van de echte vorige token) en "free running" (autoregressieve generatie). Een discriminator probeert te onderscheiden welke methode wordt gebruikt, waardoor het model leert om robuustere tokens te genereren die dicht bij de grondwaarheid liggen, zonder de rekentijd van puur autoregressief trainen te hoeven betalen.
Van Video naar Tekst (Video-to-Text):
- De gefinetunde VLM genereert meerdere tekstbeschrijvingen voor de start- en doelvideo's.
- Een predictor selecteert de beschrijving die het beste overeenkomt met de grondwaarheid (gemeten met ROUGE-1 scores).
- Deze geselecteerde tekstbeschrijvingen worden vervolgens door een tekstencoder (vooraf getraind op HowTo100M) omgezet in tekst-embeddings. Deze embeddings vormen de input voor het planningsmodel.
Plannen met Diffusiemodellen:
- Voor het genereren van de actiesequentie wordt een Denoising Diffusion Probabilistic Model (DDPM) gebruikt.
- De input voor de diffusie is een matrix die de tekst-embeddings van de voorspelde start- en doelacties bevat ( $E_{\hat{a}_s}$ en $E_{\hat{a}_g}$ ), terwijl de dimensie van de tekst-embeddings zelf niet wordt verstoord met ruis. Alleen de actie-dimensie wordt verstoord en vervolgens gereconstrueerd.
- Dit zorgt ervoor dat het planningsproces volledig gebaseerd is op de onderscheidende kenmerken van de taal, in plaats van op visuele ruis.

Belangrijkste Bijdragen

Innovatieve Architectuur: Introductie van LAP, een methode die taalbeschrijvingen gebruikt als de primaire representatie voor proceduresplanning, in plaats van visuele features.
State-of-the-Art (SOTA) Prestaties: Het model behaalt nieuwe recordprestaties op drie uitdagende benchmarks (CrossTask, Coin en NIV) met een grote marge, over meerdere evaluatiemetrics en tijdsintervallen.
Empirisch Bewijs: Het paper demonstreert dat tekst-embeddings inderdaad een meer onderscheidende representatie bieden dan visuele embeddings, wat leidt tot betere prestaties, vooral in gevallen met hoge visuele ambiguïteit.

Resultaten

Het model werd geëvalueerd op drie datasets: CrossTask, Coin en NIV. De prestaties werden gemeten aan de hand van Success Rate (SR), mean Accuracy (mAcc) en mean Single Intersection over Union (mSIoU).

CrossTask: LAP behaalde de hoogste SR (41,14% bij T=3) en mAcc (70,13%), wat een aanzienlijke verbetering is ten opzichte van bestaande methoden zoals PDPP, ActionDiffusion en SCHEMA.
Coin: LAP overtrof alle baselines, met name PlanLLM (dat ook visuele tussenstappen gebruikt), met een SR van 44,43% tegenover 33,22% voor PlanLLM.
NIV: Hier was de verbetering het grootst, met een SR van 56,51% (tegenover 28,52% voor de beste baseline MTID).

Ablatiestudies bevestigden de volgende punten:

Taalverrijking: Het gebruik van uitgebreide taalbeschrijvingen (via LLM) verhoogt de nauwkeurigheid aanzienlijk ten opzichte van het gebruik van korte actielabels.
Professor Forcing: Deze trainingsstrategie presteert consistent beter dan standaard teacher forcing.
Tekst vs. Beeld: Het gebruik van tekst-embeddings in het diffusiemodel presteert significant beter dan het gebruik van alleen visuele features (LAP-vo), vooral op datasets met meer visuele ambiguïteit (Coin en NIV).
Visuele Analyse: Visualisaties in de latente ruimte tonen aan dat tekst-embeddings veel beter gescheiden en geclusterd zijn dan visuele features, wat de superioriteit van de taalbenadering verklaart.

Significantie

Dit werk markeert een verschuiving in het domein van proceduresplanning. Het toont aan dat het vertrouwen op visuele data alleen onvoldoende is vanwege inherente ambiguïteiten in instructievideo's. Door visuele waarnemingen te vertalen naar een taalmodale ruimte, kunnen AI-systemen actieplannen maken die robuuster en nauwkeuriger zijn. LAP bewijst dat het combineren van Vision Language Models met generatieve diffusiemodellen, gestuurd door taal, een krachtige route is voor het ontwikkelen van AI-systemen die complexe taken in de echte wereld kunnen ondersteunen. De methode biedt een nieuwe standaard voor hoe multimodale data kan worden geïntegreerd in planningstaken.

LAP: A Language-Aware Planning Model For Procedure Planning In Instructional Videos

Probleemstelling

Methodologie: LAP (Language-Aware Planning)

Belangrijkste Bijdragen

Resultaten

Significantie

Meer zoals dit

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities