DeCLIP: Decoupled Prompting for CLIP-based Multi-Label Class-Incremental Learning

Der Artikel stellt DeCLIP vor, ein replay-freies und parameter-effizientes Framework, das durch entkoppeltes, klassenspezifisches Prompting und adaptive Ähnlichkeitstemperierung das Katastrophenvergessen und die hohe False-Positive-Rate bei CLIP-basiertem Multi-Label-Klassen-incrementellen Lernen effektiv adressiert.

Kaile Du, Zihan Ye, Junzhou Xie, Yixi Shen, Yuyang Li, Fuyuan Hu, Ling Shao, Guangcan Liu, Joost van de Weijer, Fan Lyu

Veröffentlicht 2026-03-09
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie lernen eine neue Sprache, aber mit einem sehr seltsamen Lehrer und einer unmöglichen Aufgabe.

Die Aufgabe: Sie müssen nicht nur neue Wörter lernen, wenn Sie eine neue Sprache hören, sondern Sie müssen auch alle alten Wörter behalten. Das ist wie bei einem Multi-Label Class-Incremental Learning (MLCIL)-System: Ein KI-Modell muss ständig neue Kategorien lernen (z. B. erst "Hunde", dann "Katzen", dann "Autos"), während es gleichzeitig Bilder erkennt, auf denen oft mehrere Dinge gleichzeitig zu sehen sind (ein Hund und ein Auto auf einem Bild).

Das Problem:
Der Lehrer in diesem Szenario ist CLIP, eine sehr kluge KI, die Bilder und Texte versteht. Aber CLIP ist wie ein Schüler, der nur gelernt hat, ein Bild mit einem Wort zu verbinden (z. B. ein Bild von einem Hund = das Wort "Hund").

Wenn Sie ihm jetzt ein Bild zeigen, auf dem ein Hund und ein Auto sind, und sagen "Das ist ein Hund", verwirrt sich CLIP. Er denkt: "Moment, ich habe nur gelernt, dass 'Hund' zu diesem Bild passt. Aber da ist ja auch ein Auto! Wenn ich 'Hund' sage, darf ich dann auch 'Auto' sagen? Oder ist das Bild falsch?"

Das führt zu zwei großen Problemen:

  1. Vergessen: Wenn er neue Wörter lernt, vergisst er oft die alten.
  2. Übermut (False Positives): Weil er unsicher ist, rät er wild herum. Er sagt vielleicht: "Das ist ein Hund!" (stimmt), aber auch "Das ist ein Elefant!" (stimmt nicht), nur weil er unsicher ist. Er wird zu selbstbewusst bei falschen Vermutungen.

Bisherige Methoden versuchten, dem KI-Modell zu helfen, indem sie ihm eine Art "Spickzettel" (Prompts) gaben. Aber diese Spickzettel waren oft zu allgemein. Ein Spickzettel für "Tier" wurde für Hund, Katze und Elefant benutzt. Das führte zu Verwirrung, weil die Bedeutungen durcheinandergerieten.


Die Lösung: DeCLIP (Der "Entwirrer")

Die Forscher haben DeCLIP entwickelt. Man kann sich das wie einen sehr organisierten Bibliothekar vorstellen, der das Chaos in der Bibliothek der KI auflöst.

1. Der "Ein-zu-Eins"-Spickzettel (Decoupled Prompting)

Statt einen allgemeinen Spickzettel für alle Tiere zu haben, gibt DeCLIP jeder einzelnen Kategorie ihren eigenen, exklusiven Spickzettel.

  • Die Analogie: Stellen Sie sich vor, Sie haben eine große Party. Früher saßen alle Gäste an einem großen Tisch und redeten durcheinander (das war das alte Problem). DeCLIP setzt jeden Gast an einen eigenen kleinen Tisch mit einem persönlichen Assistenten.
  • Wie es funktioniert: Wenn das Bild einen Hund und ein Auto zeigt, schaut der KI-Modell nicht mehr auf das ganze Bild als Ganzes. Stattdessen sagt es: "Okay, ich schaue jetzt nur auf den 'Hund-Tisch'. Passt das Bild zu meinem Hund-Spickzettel? Ja! Okay, jetzt schaue ich auf den 'Auto-Tisch'. Passt das zum Auto-Spickzettel? Ja!"
  • Der Vorteil: Die Bedeutungen werden entkoppelt. Der Hund verwechselt sich nicht mehr mit dem Auto. Und weil jeder Spickzettel fest an seinem Tisch bleibt, vergisst die KI die alten Wörter nicht, wenn neue Gäste kommen. Sie müssen keine alten Bilder mehr speichern (kein "Replay"), was Speicherplatz spart.

2. Der "Temperatur-Regler" für das Selbstvertrauen (Adaptive Similarity Tempering)

Das zweite große Problem war, dass die KI zu selbstbewusst bei falschen Antworten wurde (sie sagte "Elefant", obwohl da keiner war).

  • Die Analogie: Stellen Sie sich vor, die KI ist ein Schüler, der eine Prüfung schreibt. Wenn er unsicher ist, neigt er dazu, wild zu raten und dabei laut zu schreien: "Ich bin zu 100% sicher, dass das ein Elefant ist!" – obwohl er es gar nicht ist.
  • Die Lösung (AST): DeCLIP hat einen cleveren "Temperatur-Regler" eingebaut. Wenn die KI merkt, dass sie unsicher ist (weil sie noch nicht alle Wörter kennt), kühlt er ihre Begeisterung ab.
  • Wie es funktioniert: Der Regler sagt: "Hey, du bist bei diesem Bild nicht 100% sicher, dass es ein Elefant ist. Also lass uns deine Sicherheit von 100% auf 2% herunterdrehen." Er zwingt die KI, ihre Unsicherheit zuzugeben, statt blindlings falsche Dinge zu behaupten. Das passiert automatisch, ohne dass man die KI für jede neue Aufgabe neu einstellen muss.

Warum ist das so toll?

  1. Kein Gedächtnisverlust: Die KI vergisst nicht, was sie gelernt hat, weil jeder "Spickzettel" fest verankert ist.
  2. Kein Speicherplatz: Früher musste man alte Bilder speichern, um die KI daran zu erinnern. DeCLIP braucht das nicht.
  3. Weniger Fehler: Die KI macht viel weniger "Halluzinationen" (sie behauptet nicht, Dinge zu sehen, die nicht da sind).
  4. Effizient: Es braucht sehr wenig Rechenleistung, um diese neuen "Spickzettel" zu lernen.

Zusammenfassend:
DeCLIP ist wie ein genialer Tutor, der einem KI-Modell beibringt, wie man komplexe Bilder mit vielen Dingen gleichzeitig versteht, ohne dabei den Überblick zu verlieren oder zu viel zu raten. Es trennt die Dinge sauber voneinander (Hund ist Hund, Auto ist Auto) und hält die KI bescheiden genug, um nicht zu viel zu behaupten, wenn sie unsicher ist. Das Ergebnis ist eine KI, die schneller lernt, besser vergisst und weniger Fehler macht.