Test-Time Computing for Referring Multimodal Large Language Models

Die Arbeit stellt ControlMLLM++ vor, einen Testzeit-Anpassungsrahmen, der lernbare visuelle Prompts in eingefrorene multimodale Sprachmodelle injiziert, um durch die Optimierung latenter visueller Token während der Inferenz eine feinkörnige, regionsbasierte visuelle Schlussfolgerung ohne Nachtraining zu ermöglichen.

Mingrui Wu, Hao Chen, Jiayi Ji, Xiaoshuai Sun, Zhiyuan Liu, Liujuan Cao, Ming-Ming Cheng, Rongrong Ji

Veröffentlicht 2026-02-24
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen extrem intelligenten, aber etwas sturen Kunstexperten (das ist das Multimodale Large Language Model oder MLLM). Dieser Experte kann Bilder sehen und darüber sprechen, aber er hat ein kleines Problem: Wenn Sie ihm sagen: „Erzähl mir von dem roten Hut", schaut er oft auf das ganze Bild und erzählt Ihnen vielleicht, dass es einen Mann gibt, der eine Jacke trägt, und erwähnt den Hut nur am Rande. Er versteht nicht genau, wo Sie hinschauen wollen.

Bisherige Lösungen waren wie ein langer, teurer Schulungskurs: Man musste den Experten wochenlang mit tausenden Beispielen trainieren, damit er lernt, genau hinzuschauen. Das kostet viel Zeit, Geld und Rechenleistung.

ControlMLLM++ ist eine völlig neue Idee. Es ist wie ein Zauberstab für den Testzeitpunkt.

Hier ist die einfache Erklärung, wie es funktioniert:

1. Der „Zauberstab" statt der Schulung (Test-Time Computing)

Statt den Experten neu zu schulen, nehmen wir ihn einfach so, wie er ist. Wenn Sie ihm ein Bild zeigen und sagen: „Schau hier hin!", fügen wir ihm für diesen einen Moment eine unsichtbare, lernbare „Gedankenstütze" (ein latenter Variabler) hinzu.

Stellen Sie sich das so vor: Der Experte hat eine Brille auf. Normalerweise sieht er alles unscharf. ControlMLLM++ passt die Gläser dieser Brille in Echtzeit an, während er das Bild betrachtet, damit sein Fokus genau auf dem Bereich landet, den Sie mit einem Pfeil, einem Kasten oder einem Strich markiert haben. Sobald er fertig ist, nimmt man die Brille wieder ab – der Experte ist wieder der gleiche wie vorher, hat aber für diesen Moment perfekt verstanden, was Sie wollten.

2. Die „Landkarte der Aufmerksamkeit" (Aufmerksamkeitskarten)

Wie weiß das System, wohin es schauen soll?
Stellen Sie sich vor, der Experte hat im Kopf eine unsichtbare Landkarte, die zeigt, welche Wörter mit welchen Bildteilen verbunden sind. Wenn Sie sagen „Hut", leuchtet auf dieser Landkarte der Bereich des Hutes auf.
Das System nutzt diese Landkarte als Kompass. Es optimiert die „Gedankenstütze" so lange, bis die Landkarte hell aufleuchtet genau dort, wo Sie es haben wollen (z. B. auf dem roten Hut), und dunkel bleibt, wo Sie es nicht wollen.

3. Die zwei Geheimwaffen (Optim++ und PromptDebias)

Das ursprüngliche System funktionierte gut, war aber manchmal etwas chaotisch. ControlMLLM++ hat zwei Verbesserungen, wie ein erfahrener Koch, der sein Rezept perfektioniert:

  • Optim++ (Der effiziente Koch):
    Früher hat das System versucht, alles auf der Landkarte gleichzeitig zu optimieren. Das war wie ein Koch, der versucht, 50 verschiedene Gewürze gleichzeitig zu mischen – das dauert lange und wird ungenau.
    Optim++ sagt: „Nein, wir konzentrieren uns nur auf die wichtigsten Gewürze (die mittleren Schichten des Gehirns) und den entscheidenden Moment, wenn die Antwort beginnt." Das macht den Prozess viel schneller und präziser.

  • PromptDebias (Der ehrliche Übersetzer):
    Manchmal ist der Experte zu sehr auf das vertraut, was er glaubt, dass man sagt, und ignoriert das Bild. Wenn Sie fragen: „Was ist ungewöhnlich?", antwortet er vielleicht automatisch mit einem Klischee, statt das Bild wirklich zu sehen.
    PromptDebias ist wie ein ehrlicher Kritiker, der neben ihm steht. Er sagt: „Warte, du hast gerade nur auf das Wort gehört, schau dir das Bild an!" Er hilft dem System, sich nicht von der Formulierung der Frage blenden zu lassen, sondern wirklich das Bild zu analysieren.

4. Warum ist das so cool? (Die Vorteile)

  • Kein Training nötig: Sie können das System sofort auf neue Bilder anwenden, ohne es vorher zu trainieren. Es ist wie ein Werkzeugkasten, den Sie immer dabei haben.
  • Vielseitig: Sie können mit einem Kasten (Bounding Box), einem Pinselstrich (Scribble), einem Punkt oder einer Maske zeigen, was gemeint ist. Das System versteht alle diese Zeichen.
  • Keine Halluzinationen: Da das System genau auf den markierten Bereich schaut, erfindet es weniger Dinge, die nicht da sind (z. B. es sagt nicht, dass der Hut blau ist, wenn er grün ist).

Zusammenfassung in einer Metapher

Stellen Sie sich vor, Sie sind ein Tourist in einer fremden Stadt (das Bild) und haben einen sehr klugen, aber etwas abwesenden Guide (das KI-Modell).

  • Das alte Problem: Der Guide redet über die ganze Stadt, während Sie nur den kleinen Brunnen sehen wollen.
  • Die alte Lösung: Sie müssten den Guide monatelang trainieren, damit er lernt, auf Brunnen zu achten.
  • Die ControlMLLM++-Lösung: Sie geben dem Guide für diesen einen Spaziergang eine spezielle Sonnenbrille (die latente Variable). Diese Brille blendet alles aus, außer dem Brunnen. Der Guide sieht sofort genau das, was Sie wollen, und gibt Ihnen eine perfekte Beschreibung – ohne dass er jemals zuvor etwas Neues gelernt hat.

Dieser Ansatz macht KI viel flexibler, schneller und genauer, wenn es darum geht, über bestimmte Teile eines Bildes zu sprechen.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →