LAP: A Language-Aware Planning Model For Procedure Planning In Instructional Videos

Each language version is independently generated for its own context, not a direct translation.

🎬 Der Filmregisseur, der nicht nur schaut, sondern zuhört

Stell dir vor, du möchtest einen komplexen Kochkurs lernen, aber du hast nur die Bilder aus dem Video. Das Problem? Viele Schritte sehen fast gleich aus.

Das Problem: Der „Sehen"-Fehler
Schau dir das Beispiel aus dem Papier an:

Schritt A: „Kaffee in den Filter geben."
Schritt B: „Die Kaffeemasse glatt streichen."

Wenn du nur auf das Video schaust, siehst du in beiden Szenen fast dasselbe: Eine Hand, eine Tasse, einen braunen Hintergrund. Für eine künstliche Intelligenz (KI) ist es wie ein Rätsel: „Ist das gerade Kaffee reinfallen oder wird er glattgestrichen?" Die Bilder sind zu ähnlich, die KI verwechselt die Schritte und plant die Reihenfolge falsch.

Die Lösung: LAP (Der „Hör"-Regisseur)
Die Forscher von der Universität Örebro haben eine neue Methode namens LAP (Language-Aware Planning) entwickelt. Statt sich nur auf die Augen (die Bilder) zu verlassen, gibt sie der KI auch „Ohren" (die Sprache).

Stell dir LAP wie einen sehr klugen Regisseur vor, der einen Film dreht:

Der Übersetzer (Das VLM):
Zuerst schaut sich LAP das Video an. Aber statt nur zu sagen „Da ist eine Hand", übersetzt es das Bild in eine detaillierte Beschreibung.
- Statt: „Hand bewegt sich."
- Sagt LAP: „Eine Hand schüttet gemahlenen Kaffee in einen Filter."
- Statt: „Hand bewegt sich."
- Sagt LAP: „Eine Hand streicht die Oberfläche des Kaffees glatt."
Durch diese Worte werden die beiden Schritte im Kopf der KI völlig unterschiedlich. Es ist wie der Unterschied zwischen einem Foto von einem Hund und einem Foto von einer Katze – die Bilder sind klar getrennt, auch wenn beide vier Beine haben.
Der Planer (Das Diffusions-Modell):
Jetzt hat LAP nicht mehr nur verschwommene Bilder, sondern klare Textbeschreibungen. Es nutzt diese Wörter, um den nächsten Schritt vorherzusagen.
Stell dir vor, du musst einen Weg von A nach B finden. Wenn du nur eine unscharfe Landkarte hast, verirrst du dich leicht. Wenn du aber klare Wegbeschreibungen hast („Geh 100 Meter geradeaus, dann links zur Apotheke"), kommst du sicher ans Ziel. LAP nutzt diese „Wegbeschreibungen" (Text), um die perfekte Abfolge von Aktionen zu planen.
Der Lehrer (Professor Forcing):
Damit die KI diese Übersetzungen perfekt beherrscht, wird sie mit einer speziellen Technik trainiert, die sie im Papier „Professor Forcing" nennen.
- Normalerweise: Ein Schüler lernt, indem er nur das richtige Ergebnis sieht. Wenn er einen Fehler macht, gerät er in Panik und weiß nicht weiter.
- Mit Professor Forcing: Der Lehrer (die KI) wird trainiert, so zu tun, als wäre er immer auf dem richtigen Weg, auch wenn er eigentlich noch lernt. Das hilft ihr, auch bei schwierigen Videos stabil zu bleiben und keine Fehler zu häufen.

🏆 Das Ergebnis: Warum ist das besser?

Die Forscher haben LAP an drei verschiedenen „Kochbüchern" (Datenbanken mit Videos) getestet: CrossTask, Coin und NIV.

Das Ergebnis: LAP hat alle anderen Methoden, die nur auf Bilder schauten, deutlich hinter sich gelassen.
Die Metapher: Es ist, als würde ein Koch, der nur die Zutaten auf dem Tisch sieht (Bilder), versuchen, ein Rezept zu erraten, gegen einen Koch, der das Rezept laut vorliest (Sprache). Der Koch mit dem Rezept gewinnt fast immer, weil die Sprache eindeutiger ist als das bloße Ansehen von Zutaten.

🚀 Zusammenfassung für den Alltag

Die Botschaft der Forscher ist einfach: Worte sind mächtiger als Bilder, wenn es darum geht, komplexe Abläufe zu verstehen.

Indem sie die KI gezwungen haben, Bilder in klare, eindeutige Sätze zu verwandeln, haben sie das „Verwirrungsproblem" gelöst. Die KI sieht nicht mehr nur zwei ähnliche Hände, sondern versteht den Unterschied zwischen „Kaffee füllen" und „Kaffee glätten", weil die Worte im Hintergrund so klar klingen.

Das ist ein großer Schritt für Roboter und KI-Assistenten, die uns in Zukunft helfen sollen, Dinge im echten Leben zu tun – vom Kochen bis zum Reparieren von Maschinen. Sie müssen nicht nur sehen, sie müssen verstehen, was sie tun.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „LAP: A Language-Aware Planning Model For Procedure Planning In Instructional Videos" auf Deutsch:

1. Problemstellung

Das Ziel der Prozedurplanung (Procedure Planning) in instruktiven Videos besteht darin, eine Sequenz von Zwischenaktionen vorherzusagen, die einen Startzustand (visuelle Beobachtung) in einen Zielzustand überführen.

Das Hauptproblem bestehender Ansätze liegt in der inhärenten Ambiguität visueller Beobachtungen. Unterschiedliche Aktionen können visuell sehr ähnlich aussehen (z. B. gleiche Hintergrundobjekte, Hände oder Werkzeuge), was es für Modelle schwierig macht, diese nur auf Basis von Bilddaten zu unterscheiden.

Beispiel: Die Aktionen „Kaffee hinzufügen" und „Oberfläche glätten" sehen in den Startframes oft fast identisch aus.
Herausforderung: Visuelle Embeddings im latenten Raum sind oft überlagert und weniger diskriminativ als sprachliche Beschreibungen. Bisherige Methoden nutzen Text oft nur als auxiliary Noise oder zur Überwachung, ignorieren aber das Potenzial, Sprache als primäre, distinktere Repräsentation für die Planung zu nutzen.

2. Methodik: LAP (Language-Aware Planning)

LAP ist ein neuer Ansatz, der die Ausdruckskraft von natürlicher Sprache nutzt, um die Lücke zwischen visueller Beobachtung und Aktionsplanung zu schließen. Der Prozess gliedert sich in drei Hauptphasen:

A. Verfeinerung der Sprachbeschreibungen (Language Enhancement)

Da Standard-Aktionslabels oft kurz sind (z. B. „Kaffee hinzufügen") und verschiedene Aktionen gleiche Verben oder Nomen teilen können, werden diese Labels verfeinert:

Ein vortrainiertes Large Language Model (LLM) wird genutzt, um detaillierte sprachliche Beschreibungen (Elaborated Descriptions) basierend auf Schritt-für-Schritt-Anleitungen (z. B. von WikiHow) zu generieren.
Dies sorgt dafür, dass unterschiedliche Aktionen im latenten Raum durch ihre Textbeschreibungen klarer unterscheidbar sind.

B. Video-zu-Text-Transformation mit Professor Forcing

Ein Vision-Language Model (VLM) wird feinabgestimmt (Fine-Tuning), um visuelle Beobachtungen in Textbeschreibungen zu übersetzen.

Professor Forcing: Um das Problem des Exposure Bias zu lösen (wo das Modell während des Trainings Lehrer-Forcing erhält, aber beim Inferenz-Run selbst generiert), wird eine Technik namens Professor Forcing eingesetzt. Ein Diskriminator unterscheidet zwischen Tokens, die durch Lehrer-Forcing oder autonomes Generieren (Free Running) erzeugt wurden. Das VLM wird so trainiert, dass die Verteilung der generierten Tokens der der Ground-Truth-Tokens entspricht, was die Stabilität und Genauigkeit erhöht.
Vorhersage: Das VLM generiert mehrere Textbeschreibungen für Start- und Zielvideos. Die beste Beschreibung wird basierend auf ROUGE-1-Scores ausgewählt und in Text-Embeddings kodiert.

C. Planung mittels Diffusionsmodellen

Die eigentliche Planung der Aktionssequenz erfolgt über ein Denoising Diffusion Probabilistic Model (DDPM).

Input: Das Diffusionsmodell erhält als Bedingung die Text-Embeddings der vorhergesagten Start- ( $E_{\hat{a}_s}$ ) und Zielaktionen ( $E_{\hat{a}_g}$ ).
Prozess: Während des Vorwärtsprozesses wird Rauschen nur auf die Aktionsdimension hinzugefügt, die Text-Embeddings bleiben unverändert. Das Modell lernt, die mittlere Aktionssequenz aus dem Rauschen zu rekonstruieren, gesteuert durch die distinkten Text-Embeddings.

3. Hauptbeiträge

Neue Architektur (LAP): Einführung eines Modells, das visuelle Beobachtungen explizit in Text-Embeddings übersetzt, um die Planung durch die höhere Diskriminierbarkeit von Sprache zu verbessern.
State-of-the-Art (SOTA) Ergebnisse: LAP erzielt auf drei Benchmark-Datensätzen (CrossTask, Coin, NIV) signifikante Verbesserungen gegenüber dem aktuellen Stand der Technik über verschiedene Zeithorizonte hinweg.
Empirischer Nachweis: Die Arbeit demonstriert, dass Text-Embeddings im latenten Raum eine klarere Trennung von Aktionen ermöglichen als reine visuelle Features, was zu robusteren Planungen führt.

4. Ergebnisse und Evaluation

Die Evaluation erfolgte auf den Datensätzen CrossTask, Coin und NIV mit den Metriken Success Rate (SR), mittlere Genauigkeit (mAcc) und mittlere Intersection over Union (mSIoU).

Leistungsvergleich: LAP übertrifft alle Baselines (inkl. PDPP, ActionDiffusion, SCHEMA, PlanLLM) deutlich.
- Auf CrossTask (T=3): SR von 41,14 % (vs. ~33 % bei Besten der Baselines).
- Auf Coin (T=3): SR von 44,43 % (vs. 33,22 % bei PlanLLM).
- Auf NIV (T=3): SR von 56,51 % (vs. ~28 % bei Besten der Baselines).
Ablationsstudien:
- Text vs. Visuell: Modelle, die nur visuelle Features nutzen (LAP-vo), schneiden signifikant schlechter ab als LAP mit Text-Embeddings. Der Vorteil ist besonders bei Datensätzen mit hoher visueller Ambiguität (Coin, NIV) groß.
- Professor Forcing: Die Verwendung von Professor Forcing führt zu besseren Ergebnissen als reines Teacher Forcing.
- VLM-Auswahl: Das spezifisch für Video-Captioning vortrainierte VLM in LAP übertrifft allgemeine Modelle wie LLaVa-NeXT-Video deutlich, da es besser auf kurze Aktionsclips spezialisiert ist.
Qualitative Analyse: Visualisierungen im latenten Raum zeigen, dass Text-Embeddings klarer gruppiert und trennbar sind als visuelle Features. Wenn Start- oder Zielvorhersagen korrekt sind, kann das Diffusionsmodell oft noch korrekte Sequenzen generieren, selbst wenn der andere Endpunkt unsicher ist.

5. Bedeutung und Fazit

Das Paper zeigt, dass die Integration von Sprache in die Prozedurplanung nicht nur als Zusatzinformation, sondern als zentrale Repräsentation fungieren kann. Durch die Umwandlung von visuellen Daten in distinktive Text-Embeddings wird das Problem der visuellen Ambiguität effektiv gelöst.

LAP demonstriert, dass Large Language Models (LLMs) und Vision Language Models (VLMs) in Kombination mit generativen Diffusionsmodellen einen neuen Standard für das Verständnis und die Planung komplexer menschlicher Handlungen in Videos setzen. Dies ist ein wichtiger Schritt hin zu KI-Systemen, die Menschen bei der Ausführung komplexer Alltagsaufgaben proaktiv unterstützen können.

LAP: A Language-Aware Planning Model For Procedure Planning In Instructional Videos

🎬 Der Filmregisseur, der nicht nur schaut, sondern zuhört

🏆 Das Ergebnis: Warum ist das besser?

🚀 Zusammenfassung für den Alltag

1. Problemstellung

2. Methodik: LAP (Language-Aware Planning)

A. Verfeinerung der Sprachbeschreibungen (Language Enhancement)

B. Video-zu-Text-Transformation mit Professor Forcing

C. Planung mittels Diffusionsmodellen

3. Hauptbeiträge

4. Ergebnisse und Evaluation

5. Bedeutung und Fazit

Mehr davon

Network Slicing in 5G Mobile Communication Architecture, Profit Modeling, and Challenges

Pwned: How Often Are Americans' Online Accounts Breached?

Excess demand in public transportation systems: The case of Pittsburgh's Port Authority

Implicit Biases in Refereeing: Lessons from NBA Referees

BOPIM: Bayesian Optimization for influence maximization on temporal networks