Prompt Tuning for CLIP on the Pretrained Manifold

Die Arbeit stellt ManiPT vor, ein Framework für das Prompt-Tuning von CLIP-Modellen, das durch kosinusbasierte Konsistenzbeschränkungen und strukturelle Verzerrungen die gelernten Repräsentationen auf der vortrainierten Mannigfaltigkeit hält, um bei begrenzten Daten die Generalisierungsfähigkeit zu verbessern und Overfitting zu vermeiden.

Xi Yang, Yuanrong Xu, Weigang Zhang, Guangming Lu, David Zhang, Jie Wen

Veröffentlicht 2026-02-24
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen genialen, weltreisenden Fotografen namens CLIP. Dieser Fotograf hat in den letzten Jahren Milliarden von Bildern und Texten gesehen. Er weiß genau, wie eine Katze aussieht, wie ein Auto fährt oder was ein "trauriger Himmel" bedeutet. Sein Wissen ist so tief verankert, dass er fast alles versteht, ohne jemals speziell dafür trainiert worden zu sein.

Das Problem entsteht, wenn du diesem Fotografen plötzlich nur ein paar wenige Fotos von einer ganz neuen Sache zeigst – sagen wir, von einer sehr speziellen Art von Hund, die es nur in deinem Garten gibt.

Das Problem: Der "Weg-Verlust" (Manifold Drift)

Normalerweise würde der Fotograf versuchen, sich an diese wenigen neuen Fotos anzupassen. Aber hier passiert etwas Tückisches: Weil er nur so wenige Beispiele hat, fängt er an, Kurzschlüsse zu machen.

Stell dir vor, der Fotograf lernt nicht, dass der neue Hund ein Hund ist, sondern lernt stattdessen: "Aha! Alle Hunde auf diesen wenigen Fotos stehen auf rotem Teppich. Also muss 'Hund' bedeuten 'roter Teppich'."

In der Fachsprache nennt man das Overfitting (Überanpassung). Der Fotograf verlässt seinen sicheren, breiten Erfahrungsweg (die "Manifold") und stolpert in eine Sackgasse, die nur für deine wenigen Fotos funktioniert. Wenn du ihm dann ein Foto von einem Hund auf blauem Teppich zeigst, erkennt er ihn nicht mehr. Er hat sein großes Wissen vergessen und sich auf einen Zufall festgelegt.

Die Lösung: ManiPT – Der "Sicherheitsgurt"

Die Autoren dieses Papers haben eine Methode namens ManiPT entwickelt. Man kann sich das wie einen Sicherheitsgurt und ein Navigationssystem für den Fotografen vorstellen.

ManiPT besteht aus drei cleveren Tricks, um den Fotografen auf Kurs zu halten:

  1. Der Sicherheitsgurt (Kosinus-Konsistenz):
    Stell dir vor, der Fotograf hat einen unsichtbaren Gummiband, das ihn an seine ursprüngliche, große Erfahrungswelt bindet. Wenn er versucht, sich zu sehr auf den "roten Teppich" zu versteifen und zu weit weg von seinem allgemeinen Wissen zu wandern, zieht das Gummiband ihn sanft zurück.

    • Einfach gesagt: Der Algorithmus sorgt dafür, dass die neuen Lernschritte nicht zu weit von dem entfernt sind, was der Fotograf schon sicher weiß. Er darf sich anpassen, aber er darf sein Fundament nicht verlassen.
  2. Der Schritt-für-Schritt-Ansatz (Strukturelle Verzerrung):
    Statt den Fotografen zu zwingen, alles neu zu lernen, sagt ManiPT: "Behalte dein altes Wissen bei und füge nur winzige, vorsichtige Korrekturen hinzu."

    • Die Analogie: Stell dir vor, du hast eine perfekte Landkarte (das alte Wissen). Du musst nur einen kleinen Pfad zu einem neuen Haus finden. ManiPT sagt: "Nimm die Landkarte, lege sie auf den Tisch und zeichne nur den kleinen Weg zum Haus dazu." Du wirfst die Landkarte nicht weg. So bleibt der Fotograf stabil, auch wenn er nur wenig neue Informationen hat.
  3. Der weise Mentor (LLM-Wissen):
    Oft fehlt dem Fotografen die genaue Beschreibung des neuen Hundes. ManiPT fragt einen KI-Mentor (ein Large Language Model), der ihm eine schöne, detaillierte Beschreibung des Hundes gibt (z. B. "ein vierbeiniges Tier mit Fell und wedelndem Schwanz").

    • Der Effekt: Der Fotograf lernt nicht nur aus den wenigen Fotos, sondern auch aus dieser klaren, stabilen Beschreibung. Das verhindert, dass er sich auf zufällige Details (wie den roten Teppich) konzentriert, sondern auf das Wesentliche.

Warum ist das so wichtig?

Ohne ManiPT würde der Fotograf bei wenigen Beispielen oft scheitern, weil er sich zu sehr auf die wenigen Trainingsdaten fixiert. Mit ManiPT bleibt er robust. Er kann auch Bilder erkennen, die er noch nie gesehen hat (z. B. Hunde auf blauem Teppich), weil er sein großes, allgemeines Wissen bewahrt hat und nur kleine, sinnvolle Anpassungen vorgenommen hat.

Zusammenfassung in einem Satz:
ManiPT ist wie ein erfahrener Reiseführer, der einen Anfänger daran hindert, sich in einer kleinen Gasse zu verirren, indem er ihn sanft auf dem breiten, sicheren Hauptweg hält und ihm gleichzeitig hilft, kleine neue Abzweigungen sicher zu finden.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →