Imagine How To Change: Explicit Procedure Modeling for Change Captioning

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast zwei Fotos: eines von einem leeren Stuhl und eines von einem Stuhl, auf dem eine Katze sitzt. Die Aufgabe eines herkömmlichen Computers ist es, einen Satz zu schreiben, der den Unterschied beschreibt, zum Beispiel: „Eine Katze ist auf den Stuhl gesprungen."

Das Problem bei den alten Methoden ist, dass sie nur auf diese zwei statischen Fotos schauen. Sie versuchen, das „Wie" der Veränderung zu erraten, indem sie die beiden Bilder direkt vergleichen. Das ist wie ein Detektiv, der nur den Tatort vor und nach dem Verbrechen sieht, aber keine Zeugen hat. Er weiß, dass etwas passiert ist, aber nicht genau, wie es ablief.

Die Autoren dieses Papers (ProCap) sagen: „Warte mal! Um wirklich zu verstehen, was passiert ist, müssen wir die Geschichte dazwischen erzählen."

Hier ist die Erklärung ihrer neuen Methode, ProCap, mit einfachen Analogien:

1. Das Problem: Der „Zwischenraum" fehlt

Stell dir vor, du siehst ein Video, das aus nur zwei Bildern besteht: Bild A (Start) und Bild B (Ende). Dazwischen ist alles schwarz.

Alte Methode: Sie schauen nur auf A und B und raten: „Vielleicht ist die Katze einfach so aufgetaucht?" oder „Vielleicht ist sie durch Teleportation gekommen?" Sie ignorieren die Zeit und die Bewegung.
Das neue Ziel: Wir wollen wissen, wie die Katze auf den Stuhl kam. Ist sie gesprungen? Ist sie geklettert? Ist sie geschlichen?

2. Die Lösung: ProCap (Der „Geschichtenerzähler")

ProCap arbeitet in zwei Schritten, wie ein Regisseur, der zuerst ein Skript schreibt und dann den Film dreht.

Schritt 1: Der Regisseur (Explizite Verfahren-Modellierung)

Bevor der Computer den Satz schreibt, muss er die „Zwischenszenen" erfinden.

Der Trick: Das System nimmt die zwei Fotos (Start und Ende) und nutzt eine KI, die wie ein Film-Interpolations-Tool funktioniert. Es erfindet automatisch 10, 20 oder 30 kleine Bilder dazwischen, die zeigen, wie die Katze langsam auf den Stuhl zuwandert.
Das Problem dabei: Diese 20 Bilder sind oft langweilig. Vielleicht sieht Bild 5 fast genauso aus wie Bild 6. Das ist wie ein Film, der 20 Sekunden lang nur zeigt, wie die Katze atmet, bevor sie springt. Das kostet Zeit und Rechenleistung.
Die Lösung (Der „Scharfe Blick"): ProCap hat einen cleveren Filter. Er schaut sich diese vielen Bilder an und sagt: „Moment, Bild 10 ist langweilig. Aber Bild 15 ist super, da hebt die Katze gerade das Bein! Und Bild 18 ist wichtig, da landet sie!"
- Er behält nur diese wichtigsten Schlüsselbilder (Keyframes) und wirft den Rest weg.
- Dann lernt das System: „Okay, wenn ich diese wenigen, wichtigen Bilder sehe, verstehe ich die ganze Geschichte der Bewegung."

Schritt 2: Der Schauspieler (Implizite Verfahren-Beschriftung)

Jetzt kommt der eigentliche Trick, der ProCap so schnell und effizient macht.

Der alte Weg: Wenn man ein neues Bildpaar bekommt, müsste man den ganzen Film (alle 20 Bilder) neu erfinden und analysieren, um den Satz zu schreiben. Das ist langsam und fehleranfällig.
Der ProCap-Weg: ProCap hat gelernt, die „Geister der Bewegung" zu verstehen. Statt den ganzen Film neu zu drehen, schiebt es unsichtbare Platzhalter (die sogenannten „learnable queries") zwischen das Start- und Endbild.
- Die Analogie: Stell dir vor, du hast ein Lückentext-Buch. Anstatt die ganze Geschichte neu zu schreiben, fügst du nur ein paar leere Kästchen zwischen „Start" und „Ende" ein. Das System sagt dann: „Ich weiß genau, was in diese leeren Kästchen gehört, weil ich es in Schritt 1 gelernt habe."
- Das System füllt diese leeren Kästchen mit der Idee der Bewegung, ohne tatsächlich neue Bilder generieren zu müssen.
- Dann schreibt es den Satz: „Die Katze ist elegant auf den Stuhl gesprungen."

Warum ist das so toll?

Es versteht das „Wie": Es unterscheidet nicht nur, dass sich etwas geändert hat, sondern wie es passiert ist (z. B. „Die Katze ist gesprungen" vs. „Die Katze ist erschienen").
Es ist schneller: Da es im zweiten Schritt keine neuen Bilder mehr generieren muss, sondern nur auf das gelernte Wissen zurückgreift, ist es viel effizienter.
Es ist robuster: Wenn die Kamera wackelt oder das Licht sich ändert (was bei alten Methoden oft verwirrend ist), hilft die „Geschichte" der Bewegung dem System, den echten Unterschied zu finden. Es ignoriert den Hintergrund und konzentriert sich auf die Handlung.

Zusammenfassung in einem Satz

ProCap ist wie ein kluger Geschichtenerzähler, der nicht nur das Anfangs- und Endbild betrachtet, sondern sich zuerst die wichtigsten Momente der Bewegung zwischen ihnen vorstellt, um dann einen perfekten Satz darüber zu schreiben, ohne dabei Zeit mit unnötigen Details zu verschwenden.

Das Paper zeigt, dass wir durch das Nachahmen von Bewegung (statt nur statischem Vergleich) viel bessere Beschreibungen für Bildveränderungen erhalten – sei es in der Medizin, bei Überwachungskameras oder in der Industrie.

Imagine How To Change: Explicit Procedure Modeling for Change Captioning

1. Das Problem: Der „Zwischenraum" fehlt

2. Die Lösung: ProCap (Der „Geschichtenerzähler")

Schritt 1: Der Regisseur (Explizite Verfahren-Modellierung)

Schritt 2: Der Schauspieler (Implizite Verfahren-Beschriftung)

Warum ist das so toll?

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik: ProCap Framework

Phase 1: Explizite Prozessmodellierung (Explicit Procedure Modeling)

Phase 2: Implizite Prozess-Captioning (Implicit Procedure Captioning)

3. Hauptbeiträge

4. Ergebnisse

5. Bedeutung und Fazit

Imagine How To Change: Explicit Procedure Modeling for Change Captioning

1. Das Problem: Der „Zwischenraum" fehlt

2. Die Lösung: ProCap (Der „Geschichtenerzähler")

Schritt 1: Der Regisseur (Explizite Verfahren-Modellierung)

Schritt 2: Der Schauspieler (Implizite Verfahren-Beschriftung)

Warum ist das so toll?

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik: ProCap Framework

Phase 1: Explizite Prozessmodellierung (Explicit Procedure Modeling)

Phase 2: Implizite Prozess-Captioning (Implicit Procedure Captioning)

3. Hauptbeiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

A Survey of Reasoning in Autonomous Driving Systems: Open Challenges and Emerging Paradigms

PACED: Distillation at the Frontier of Student Competence

Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

Reversible Lifelong Model Editing via Semantic Routing-Based LoRA