On Discriminative vs. Generative classifiers: Rethinking MLLMs for Action Understanding

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Der „Schreibende" vs. der „Erkennende"

Stell dir vor, du hast einen extrem intelligenten Roboter (ein sogenanntes MLLM – ein Multimodales Großes Sprachmodell), der Videos ansehen und verstehen kann. Deine Aufgabe ist es, ihm beizubringen, genau zu sagen, was in einem Video passiert, zum Beispiel: „Zwiebeln hinzufügen" oder „Teig kneten".

Es gibt zwei Möglichkeiten, wie man diesen Roboter dazu bringen kann, die richtige Antwort zu geben:

1. Der „Schreibende" (Generativer Klassifizierer)

Das ist wie ein Schüler, der eine Prüfung macht, bei der er alles selbst schreiben muss.

Wie es funktioniert: Du fragst den Roboter: „Was passiert hier?" und er beginnt, Wort für Wort zu tippen: „Z... w... i... e... b... e... l...".
Das Problem: Viele Aktionen sehen sich sehr ähnlich. „Zwiebeln hinzufügen" und „Reis hinzufügen" beginnen beide mit dem Wort „Hinzufügen". Da der Roboter Wort für Wort schreibt, verwechselt er sich leicht. Er denkt vielleicht: „Oh, ich habe gerade 'Hinzufügen' geschrieben, also muss ich jetzt 'Reis' schreiben, weil das auch oft vorkommt."
Die Folge: Er ist langsam (muss jedes Wort einzeln schreiben) und macht oft Fehler, weil er sich in den Ähnlichkeiten der Wörter verliert. Es ist, als würde man versuchen, ein Auto zu bauen, indem man jeden einzelnen Nagel einzeln mit dem Hammer einschlägt – es dauert ewig und ist fehleranfällig.

2. Der „Erkennende" (Diskriminativer Klassifizierer)

Das ist wie ein erfahrener Detektiv, der sofort auf einen Knopf drückt.

Wie es funktioniert: Der Roboter sieht das Video und hat eine Liste mit allen möglichen Antworten. Anstatt zu schreiben, schaut er sich das Video an und sagt sofort: „Aha! Das ist 'Zwiebeln hinzufügen'!" Er wählt einfach die richtige Option aus der Liste aus.
Der Vorteil: Er ignoriert die kleinen Wort-Ähnlichkeiten. Er sieht das ganze Bild und trifft eine klare Entscheidung. Das ist viel schneller und genauer.
Das Problem: Manchmal vermisst er die feinen Details oder den „Kontext", den ein Schreibender liefern könnte. Er ist effizient, aber vielleicht etwas zu stur.

Die Lösung: Der „Assistent mit Notizblock" (GAD)

Die Forscher haben sich gedacht: „Warum müssen wir uns entscheiden? Warum nicht beides kombinieren?"

Sie haben eine neue Methode namens GAD (Generation-Assisted Discriminative) entwickelt. Stell dir das so vor:

Der Hauptakteur (Der Detektiv): Er ist derjenige, der am Ende das Urteil fällt. Er ist schnell und trifft die richtige Entscheidung (diskriminativ).
Der Assistent (Der Notizblock): Während der Detektiv arbeitet, hat er einen kleinen Assistenten an der Seite. Dieser Assistent schreibt während des Trainings kurz mit, um zu üben, wie man die Szene beschreibt. Er denkt laut nach: „Hmm, hier wird etwas hinzugefügt, und es riecht nach Zwiebeln..."
Der Clou: Der Assistent hilft dem Detektiv, das Bild besser zu verstehen, indem er die Nuancen der Sprache nutzt. Aber am Ende drückt nur der Detektiv den Knopf. Der Assistent schreibt nichts auf das Endergebnis.

Warum ist das genial?

Geschwindigkeit: Da am Ende nur der Detektiv entscheidet, ist das System so schnell wie der reine „Erkennende". Kein Warten auf das langsame Tippen von Wörtern.
Genauigkeit: Der Detektiv hat durch den Assistenten gelernt, die feinen Unterschiede besser zu erkennen (z. B. den Unterschied zwischen „Zwiebeln" und „Reis" zu verstehen), weil der Assistent diese Unterschiede während des Trainings „ausgesprochen" hat.
Kein Chaos: Der Detektiv wird nicht verwirrt durch die Ähnlichkeiten der Wörter, weil er am Ende nicht selbst schreibt, sondern nur wählt.

Zusammenfassung in einer Metapher

Stell dir vor, du musst in einem großen Lagerhaus das richtige Paket finden.

Der Schreibende (Generativ): Er läuft durch das Lager, liest jedes Etikett laut vor und schreibt den Namen des Pakets in ein Buch. Wenn es viele Pakete mit ähnlichen Namen gibt (z. B. „Apfel" und „Apfelsaft"), verliert er den Überblick und schreibt das Falsche.
Der Erkennende (Diskriminativ): Er hat eine Liste aller Pakete. Er sieht das Paket, vergleicht es blitzschnell mit der Liste und ruft: „Das ist Paket Nr. 42!" Das ist super schnell, aber er könnte manchmal übersehen, dass das Paket beschädigt ist, weil er nicht so genau hingeschaut hat.
GAD (Generation-Assisted Discriminative): Der Detektiv (Erkennender) hat einen Praktikanten (Generativ). Der Praktikant läuft mit und flüstert dem Detektiv während des Trainings zu: „Pass auf, dieses Paket riecht nach Äpfeln, aber es ist schwerer als das andere." Der Detektiv lernt daraus, das Paket besser zu erkennen. Aber am Ende ruft nur der Detektiv die Nummer.

Das Ergebnis: Die Forscher haben gezeigt, dass diese Kombination (GAD) nicht nur schneller ist als das reine Schreiben, sondern auch genauer als das reine Erkennen. Sie haben damit in verschiedenen Tests (wie beim Kochen von Rezepten oder Sportvideos) neue Rekorde aufgestellt.

Kurz gesagt: Lass den Roboter nicht schreiben, wenn er nur auswählen muss. Aber lass ihn trotzdem „schreiben", während er lernt, damit er klüger wird.

Each language version is independently generated for its own context, not a direct translation.

Titel:

Über diskriminative vs. generative Klassifikatoren: MLLMs für das Verständnis von Aktionen neu denken

1. Problemstellung

Multimodale Large Language Models (MLLMs) haben das Verständnis von Aktionen in offenen Welten (Open-World) vorangetrieben. Für geschlossene Szenarien (Closed-Set) werden sie häufig als generative Klassifikatoren adaptiert, bei denen Aktionslabels autoregressiv als Text generiert werden (z. B. „Was ist die Aktion im Video?" -> „Zwiebel hinzufügen").

Das Paper identifiziert jedoch fundamentale Ineffizienzen und Grenzen dieses Ansatzes:

Semantische Überlappung: Aktionslabels sind oft kurz und enthalten gemeinsame Subwörter (z. B. das Verb „hinzufügen" bei „Zwiebel hinzufügen" und „Reis hinzufügen"). Dies führt zu semantischer Überlappung im Ausgabe-Raum, was generative Modelle verwirrt und zu mehr Fehlern bei semantisch ähnlichen Aktionen führt.
Ineffizienz: Die autoregressive Generierung von Tokens ist rechenintensiv und langsam, da sie mehrere Vorwärtsdurchläufe pro Vorhersage erfordert.
Fehlende Entscheidungsgrenzen: Generative Modelle optimieren die Wahrscheinlichkeit von Token-Sequenzen, anstatt klare Entscheidungsgrenzen für spezifische Klassen zu lernen.

Im Gegensatz dazu nutzen diskriminative Klassifikatoren lernbare Token, um direkte Vorhersagen zu treffen, was effizienter ist und klare Entscheidungsgrenzen schafft. Die Frage ist, wie man die Stärken beider Ansätze vereinen kann.

2. Methodik: Der Generation-Assisted Discriminative (GAD) Klassifikator

Die Autoren schlagen einen hybriden Ansatz vor, der die Effizienz diskriminativer Modelle mit der semantischen Tiefe generativer Modelle kombiniert.

A. Diskriminative Basis

Statt Text zu generieren, wird ein lernbarer [CLS]-Token an die Eingabesequenz (Video + Query) angehängt. Dieser Token aggregiert die visuellen und textuellen Informationen und wird durch einen Klassifikationskopf (Cross-Entropy Loss) direkt auf die Aktionsklasse abgebildet.

Vorteil: Vorhersage in einem einzigen Vorwärtsdurchlauf (Single-Step), keine Token-Generierung, keine semantische Überlappung durch Subwörter.

B. Generative Assistenz (Auxiliary Objective)

Um die semantischen Vorteile der Textgenerierung zu nutzen, ohne die Inferenzgeschwindigkeit zu opfern, wird ein generativer Kopf während des Fine-Tunings hinzugefügt.

Ziel: Der generative Kopf erzeugt als auxiliary task entweder das Ziel-Label oder kontextuelle Informationen (z. B. die vorherige Aktion).
Mechanismus: Der generative Verlust ( $L_{gen}$ ) dient als Regularisierung für die Repräsentationslernen des diskriminativen Modells. Er zwingt das Modell, tiefere semantische Zusammenhänge und Kontext zu verstehen.
Inferenz: Während der Inferenz wird der generative Zweig deaktiviert. Es wird ausschließlich der diskriminative Klassifikator verwendet. Dies behält die hohe Geschwindigkeit bei.

C. Trainingsstrategie

Das Paper vergleicht verschiedene Unifizierungsstrategien (sequenziell vs. parallel) und stellt fest, dass sequenzielles Lernen mit diskriminativem Fokus am effektivsten ist: Zuerst wird die diskriminative Repräsentation gelernt, die dann als Bedingung für die generative Aufgabe dient. Dies verhindert, dass das diskriminative Modell auf die fehleranfälligen generativen Ausgaben „abkürzt".

3. Wichtige Beiträge

Analyse der Leistungslücke: Das Paper demonstriert empirisch, dass generative Klassifikatoren bei geschlossenen Klassifizierungsaufgaben aufgrund semantischer Überlappung in der Textausgabe schlechter abschneiden als diskriminative Ansätze.
Äquivalenz durch Tokenisierung: Es wird gezeigt, dass generative und diskriminative Ansätze funktional äquivalent werden, wenn Aktionslabels als einzelne, nicht-überlappende Tokens im Vokabular behandelt werden (Single-Step-Generierung). Dies unterstreicht die Notwendigkeit, MLLMs für diskriminatives Lernen anzupassen.
GAD-Framework: Einführung des Generation-Assisted Discriminative (GAD) Klassifikators. Dies ist ein einheitliches Framework, das diskriminatives Lernen durch generative Regularisierung verbessert, ohne die Inferenzeffizienz zu beeinträchtigen.
Kompatibilität: Der Ansatz ist voll kompatibel mit bestehenden MLLM-Vorabtrainings und erfordert keine Änderungen am Pretraining-Prozess.

4. Ergebnisse

Die Methode wurde auf fünf Datensätzen (THUMOS'14, CrossTask, EPIC-Kitchens-100, Ego4D GoalStep, COIN) für vier Aufgaben (Schritt-Erkennung, Vorhersage, Aufgaben-Erkennung, Online-Aktions-Detektion) evaluiert.

Genauigkeit: GAD erzielt State-of-the-Art (SOTA) Ergebnisse.
- Auf COIN: +2,5% Top-1 Genauigkeit gegenüber rein generativen Methoden.
- Auf EPIC-Kitchens-100: +6,8% F1-Score und 1,8-fache Geschwindigkeitssteigerung.
- Auf Ego4D GoalStep: +1,5% F1-Score und 3-fache Geschwindigkeitssteigerung.
Effizienz: Der diskriminative Ansatz ist deutlich schneller als generative Ansätze, da er keine autoregressive Dekodierung benötigt. Auf dem COIN-Datensatz ist GAD 3-mal schneller in der Inferenz.
Modellgröße: Ein 1B-Parameter-Modell (Llama3.2-1B) mit GAD übertrifft oft 8B-Modelle, die rein generativ arbeiten.
Fehleranalyse: Generative Modelle neigen zu vielfältigeren Fehlern (höhere Entropie bei Fehlklassifikationen), da sie durch semantisch ähnliche Wörter (z. B. „add sugar" vs. „add meat") verwirrt werden. GAD reduziert diese Fehlerdiversität erheblich.

5. Bedeutung und Fazit

Dieses Paper stellt einen Paradigmenwechsel in der Anwendung von MLLMs auf geschlossene Klassifizierungsaufgaben dar. Es widerlegt die Annahme, dass generative Textausgabe für Videoverständnis immer überlegen sei, und zeigt stattdessen, dass diskriminative Formulierungen für geschlossene Sets effizienter und genauer sind.

Die Hauptinnovation liegt in der GAD-Architektur, die die Stärken beider Welten vereint:

Sie nutzt generative Modellierung als Trainings-Tool, um semantisch reichhaltige Repräsentationen zu lernen.
Sie nutzt diskriminative Klassifikation als Inferenz-Tool, um maximale Geschwindigkeit und Präzision zu gewährleisten.

Dieser Ansatz ermöglicht es, MLLMs für Echtzeit-Anwendungen (wie Online-Aktionsdetektion) zu nutzen, ohne auf die semantische Tiefe großer Sprachmodelle verzichten zu müssen, und setzt neue Maßstäbe für Effizienz und Genauigkeit im Bereich des temporalen Aktionsverständnisses.