ViterbiPlanNet: Injecting Procedural Knowledge via Differentiable Viterbi for Planning in Instructional Videos

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest ein kompliziertes Rezept kochen, aber du hast nur zwei Bilder: eines vom leeren Teller am Anfang und eines vom fertigen Gericht am Ende. Deine Aufgabe ist es, die genauen Schritte dazwischen zu erraten.

Das ist das Problem, das sich die Forscher mit ihrer neuen Methode, ViterbiPlanNet, gestellt haben. Hier ist die Erklärung, wie sie es gelöst haben, ohne in technisches Fachchinesisch zu verfallen:

Das alte Problem: Der "Gedächtnis-Trainer"

Frühere KI-Modelle waren wie Schüler, die versuchen, ein ganzes Kochbuch auswendig zu lernen, nur um ein Gericht zu kochen. Sie mussten riesige Datenmengen (Milliarden von Parametern) durchforsten, um zu merken: "Oh, man muss erst das Brot legen, dann den Putenbrust, dann den Salat."
Das hatte zwei große Nachteile:

Es war extrem ressourcenhungrig (wie ein riesiger Kühlschrank, der nur für ein Sandwich läuft).
Wenn sie auf eine neue Situation trafen, die sie nicht auswendig gelernt hatten, waren sie oft ratlos.

Die neue Lösung: ViterbiPlanNet – Der "Weise Koch-Leitfaden"

Die Autoren sagen: "Warum soll die KI alles auswendig lernen, wenn wir ihr einfach eine Landkarte geben können?"

Stell dir vor, du hast einen Koch-Leitfaden (den Procedural Knowledge Graph oder PKG). Dieser Leitfaden ist wie ein Straßennetz:

Die Kreuzungen sind die Handlungen (z. B. "Brot legen").
Die Straßen zeigen, welche Schritte erlaubt sind (z. B. "Nach dem Brot darf man den Putenbrust legen, aber nicht direkt den Salat auf das leere Tablett").

ViterbiPlanNet nutzt diesen Leitfaden nicht nur am Ende, um zu prüfen, ob die KI einen Fehler gemacht hat. Nein, sie bauen den Leitfaden direkt in den Lernprozess ein.

Die Magie: Der "Differenzierbare Viterbi-Layer"

Das ist der technische Teil, den wir vereinfachen:
Stell dir vor, die KI ist ein Schüler, der durch ein Labyrinth läuft.

Früher: Der Schüler lief blind durch das Labyrinth und lernte durch tausende Versuche, welche Wege Sackgassen sind.
Jetzt (ViterbiPlanNet): Der Schüler hat eine magische Brille (den "Differentiable Viterbi Layer"). Diese Brille zeigt ihm sofort, welche Wege auf der Landkarte erlaubt sind.

Die KI muss nicht mehr das ganze Rezept auswendig lernen. Sie muss nur noch lernen: "Welches Bild passt zu welchem Schritt?" (z. B. "Ah, auf diesem Bild sieht man das Brot, also ist 'Brot legen' der richtige Schritt"). Der "Leitfaden" sorgt dann automatisch dafür, dass die Schritte in der richtigen Reihenfolge kommen.

Warum ist das so genial?

Sparsamkeit: Da die KI den Leitfaden nutzt, muss sie nicht riesige Datenmengen speichern. Sie ist wie ein kleiner, schlauer Roboter, der mit wenig Energie auskommt, statt ein riesiger Supercomputer.
Robustheit: Wenn die KI auf eine neue Situation trifft (z. B. ein Rezept, das sie noch nie gesehen hat), kann sie trotzdem planen. Warum? Weil sie die Regeln des Kochens kennt (durch den Leitfaden), auch wenn sie das spezifische Gericht nicht kennt. Sie kann also auch kürzere oder längere Rezepte planen, als sie im Training gesehen hat.
Fairer Vergleich: Die Autoren haben auch festgestellt, dass viele andere Studien die Ergebnisse nicht fair verglichen haben (wie ein Sportler, der gegen einen Gegner antritt, der mit anderen Schuhen läuft). Sie haben eine neue, faire "Messlatte" (ein einheitliches Testprotokoll) geschaffen, um sicherzustellen, dass ihre Methode wirklich besser ist.

Das Fazit

Statt eine KI zu bauen, die wie ein auswendig lernender Student ist, der alles memorieren muss, bauen sie eine KI, die wie ein erfahrener Koch mit einem guten Rezeptbuch arbeitet. Sie nutzt die Struktur der Welt (den Leitfaden), um effizient, schnell und zuverlässig Pläne zu erstellen – und das mit einem Bruchteil der Rechenleistung anderer Methoden.

Kurz gesagt: ViterbiPlanNet gibt der KI nicht nur die Augen, sondern auch den gesunden Menschenverstand, um zu wissen, was als Nächstes passiert.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das Ziel der prozeduralen Planung in instruktiven Videos besteht darin, eine Sequenz von Aktionen vorherzusagen, die einen Anfangszustand (visuell) in einen gewünschten Zielzustand überführt. Dies ist eine fundamentale Fähigkeit für intelligente Agenten in komplexen Umgebungen.

Bisherige Ansätze leiden unter folgenden Problemen:

Implizites Lernen: Die meisten modernen Methoden (z. B. basierend auf Diffusion-Modellen, Large Language Models (LLMs) oder Transformern) lernen prozedurale Strukturen implizit aus großen Datensätzen. Dies führt zu einer geringen Sample-Effizienz (hoher Datenbedarf) und hohen Rechenkosten.
Fehlende Struktur: Diese Modelle müssen komplexe Domänenregeln und Abhängigkeiten zwischen Aktionen auswendig lernen, anstatt diese explizit zu nutzen.
Inkonsistente Evaluation: Es gibt erhebliche Inkonsistenzen in den Trainings- und Evaluierungsprotokollen der aktuellen Literatur, was faire Vergleiche erschwert.

2. Methodik: ViterbiPlanNet

Die Autoren stellen ViterbiPlanNet vor, ein Framework, das prozedurales Wissen explizit und end-to-end in den Lernprozess integriert.

Kernkomponenten:

Procedural Knowledge Graph (PKG):
- Das prozedurale Wissen wird als gerichteter Graph codiert, wobei Knoten Aktionen und Kanten gültige Übergänge darstellen.
- Die Kantengewichte repräsentieren Übergangswahrscheinlichkeiten $P(a_t | a_{t-1})$ , die basierend auf dem Co-Auftritt von Aktionen im Trainingsdatensatz geschätzt werden.
Differentiable Viterbi Layer (DVL):
- Dies ist die zentrale Innovation. Der klassische Viterbi-Algorithmus (ein dynamisches Programmierverfahren zur Suche des wahrscheinlichsten Pfades) ist nicht differenzierbar, da er max und argmax Operationen verwendet.
- Der DVL ersetzt diese nicht-differenzierbaren Operationen durch glatte Relaxierungen (Log-Sum-Exp für max und Softmax für argmax).
- Dadurch können Gradienten vom Verlust der Planung direkt durch den Decodierungsprozess zurück zum neuronalen Netz fließen.
Architektur und Lernprozess:
- Visual Encoding: Ein gefrorener visueller Backbone (S3D) extrahiert Merkmale aus Start- und Zielbildern.
- Emission Probabilities: Ein kleines neuronales Netz ( $f_{emiss}$ ) sagt basierend auf den visuellen Merkmalen die Emissionswahrscheinlichkeiten $P(v_t | a_t)$ voraus (wie gut passt eine Aktion zu den visuellen Beobachtungen?).
- Strukturierte Decodierung: Der DVL nutzt die vorhergesagten Emissionen und die festen Übergangswahrscheinlichkeiten des PKG, um einen „weichen" Plan (Soft Plan) zu generieren.
- Verlustfunktion: Das Training minimiert den Mean Squared Error (MSE) zwischen dem vorhergesagten weichen Plan und dem Ground-Truth-Plan. Zusätzliche Verluste (Alignment und Task-Klassifikation) helfen dem visuellen Encoder, semantisch relevante Merkmale zu lernen.

Unterschied zu vorherigen Ansätzen:
Frühere Arbeiten nutzten den Viterbi-Algorithmus nur als Post-Processing-Schritt zur Korrektur von Vorhersagen. ViterbiPlanNet integriert ihn jedoch als differenzierbare Schicht während des Trainings. Das Modell muss nicht die gesamte komplexe Planungslogik lernen, sondern nur die Emissionswahrscheinlichkeiten; die strukturelle Konsistenz wird durch den PKG erzwungen.

3. Wichtige Beiträge

ViterbiPlanNet Framework: Ein neues, leichtgewichtiges Framework, das prozedurales Wissen über einen Differentiable Viterbi Layer end-to-end integriert. Dies ermöglicht das Lernen einfacher Emissionswahrscheinlichkeiten statt des Auswendiglernens komplexer Regeln.
Standardisiertes Evaluierungs-Protokoll: Die Autoren haben ein einheitliches Evaluierungs-Pipeline erstellt, das Datensatz-Splits, Metriken und Feature-Extraktion vereinheitlicht. Sie führen Experimente mit mehreren Seeds durch und nutzen Bootstrapping, um statistische Signifikanz zu bewerten. Dies adressiert die in der Literatur vorhandenen Inkonsistenzen.
Cross-Horizon-Test-Protokoll: Ein neues Testverfahren, bei dem Modelle auf längeren Horizonten (z. B. T=6) trainiert und auf kürzeren Horizonten (T=3, 4, 5) getestet werden, um die Robustheit und Generalisierungsfähigkeit der gelernten prozeduralen Struktur zu prüfen.

4. Ergebnisse

Die Evaluation erfolgte auf drei Standard-Datensätzen: CrossTask, COIN und NIV.

State-of-the-Art Performance: ViterbiPlanNet erreicht in allen Szenarien die höchste Success Rate (SR) und ist statistisch signifikant besser als alle re-evaluierten Vorläufer (einschließlich SCHEMA, PlanLLM, PDPP und verschiedener LLMs/VLMs).
Parameter-Effizienz: Das Modell ist extrem effizient mit nur ~5,5 Millionen Parametern. Im Vergleich dazu nutzen konkurrierende LLM-basierte Ansätze 30–100 Milliarden Parameter, und Diffusion-Modelle wie MTID haben über 1 Milliarde Parameter. ViterbiPlanNet übertrifft diese trotz der geringen Größe.
Sample-Effizienz: In Experimenten mit reduzierten Trainingsdaten (5–25%) schneidet ViterbiPlanNet deutlich besser ab als komplexere Modelle (wie SCHEMA), da es durch den PKG weniger auf das Auswendiglernen von Mustern angewiesen ist.
Robustheit (Cross-Horizon): Das Modell zeigt eine überlegene Robustheit, wenn es auf kürzeren Horizonten getestet wird als beim Training. Dies beweist, dass es echte prozedurale Strukturen lernt und nicht nur horizon-spezifische Muster memorisiert.
Vergleich mit LLMs: Reine Prompting-Ansätze mit LLMs/VLMs (auch mit PKG im Prompt) scheitern bei komplexen, mehrstufigen Planungen deutlich. Die explizite Integration des Wissens in die Architektur ist entscheidend.

5. Bedeutung und Fazit

Die Arbeit zeigt, dass die explizite Integration von strukturiertem prozeduralem Wissen in den Trainingsprozess eine überlegene Strategie für die Video-Planung ist.

Paradigmenwechsel: Statt riesige Modelle zu trainieren, die implizit Wissen extrahieren, ermöglicht der Ansatz kleine, effiziente Modelle, die durch graphbasierte Constraints geleitet werden.
Praktische Anwendbarkeit: Die hohe Parameter- und Sample-Effizienz macht ViterbiPlanNet ideal für den Einsatz auf ressourcenbeschränkten Geräten (On-Device AI) und in Szenarien mit wenig Trainingsdaten.
Wissenschaftlicher Beitrag: Durch die Einführung eines einheitlichen Benchmarks und die Nachweisbarkeit statistischer Signifikanz setzt das Paper neue Standards für die Evaluierung in diesem Forschungsgebiet.

Zusammenfassend beweist ViterbiPlanNet, dass die Kombination aus differenzierbarer dynamischer Programmierung und explizitem prozeduralem Wissen zu robusteren, effizienteren und genaueren Planungssystemen führt als reine datengetriebene, große Modelle.

ViterbiPlanNet: Injecting Procedural Knowledge via Differentiable Viterbi for Planning in Instructional Videos

Das alte Problem: Der "Gedächtnis-Trainer"

Die neue Lösung: ViterbiPlanNet – Der "Weise Koch-Leitfaden"

Die Magie: Der "Differenzierbare Viterbi-Layer"

Warum ist das so genial?

Das Fazit

1. Problemstellung

2. Methodik: ViterbiPlanNet

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Model2Kernel: Model-Aware Symbolic Execution For Safe CUDA Kernels

Algorithmic Barriers to Detecting and Repairing Structural Overspecification in Adaptive Data-Structure Selection

Zero-Cost NDV Estimation from Columnar File Metadata

Persistence-based topological optimization: a survey

Multi-LLM Query Optimization