Enhancing Multi-Image Understanding through Delimiter Token Scaling

Die vorgestellte Methode verbessert das Verständnis von Mehrbild-Eingaben in großen Vision-Sprachmodellen durch eine Skalierung der versteckten Zustände von Trennzeichen-Tokens, wodurch Informationslecks zwischen Bildern verhindert und die Leistung auf verschiedenen Benchmarks ohne zusätzliche Trainings- oder Inferenzkosten gesteigert wird.

Minyoung Lee, Yeji Park, Dongjun Hwang, Yejin Kim, Seong Joon Oh, Junsuk Choe

Veröffentlicht 2026-02-26
📖 3 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Der „verwirrte Koch"

Stellen Sie sich vor, Sie sind ein genialer Koch (das ist die künstliche Intelligenz), der fantastische Gerichte aus einem einzigen Bild zubereiten kann. Wenn Sie ein Foto von einem Apfel sehen, wissen Sie genau, was ein Apfel ist.

Aber was passiert, wenn Sie plötzlich drei verschiedene Fotos gleichzeitig auf den Tisch bekommen? Vielleicht ein Foto von einem Apfel, eines von einem Hund und eines von einem Auto?

Das Problem ist: Die KI wird verwirrt. Sie fängt an, die Informationen zu vermischen. Sie könnte denken, der Hund sitzt auf dem Apfel oder das Auto hat Räder wie ein Hund. In der Fachsprache nennen die Forscher das „Cross-Image Information Leakage" (Informationen laufen über die Bildgrenzen hinweg aus). Die KI kann die Bilder nicht sauber trennen.

Die alte Lösung: Der unscharfe Trenner

Bisher haben die KI-Modelle versucht, das Problem zu lösen, indem sie zwischen den Bildern kleine unsichtbare „Trennzeichen" (Delimiters) einfügen. Das ist so, als würde der Koch zwischen den Fotos ein kleines Schildchen mit „HIER ENDET DAS APFEL-BILD" hinstellen.

Die Forscher haben aber herausgefunden: Diese Schildchen funktionieren nicht richtig. Sie sind zu schwach. Der Koch ignoriert sie fast und schaut trotzdem auf das falsche Bild, wenn er eine Frage zum ersten Bild beantworten soll.

Die neue Lösung: Der „Super-Trenner"

Die Forscher von diesem Papier haben eine clevere, aber einfache Idee gefunden, um diese Schildchen zu stärken, ohne den Koch neu ausbilden zu müssen.

Stellen Sie sich vor, diese Trennzeichen sind wie Wächter an den Grenzen der Bilder. Normalerweise stehen sie nur da und schauen zu. Die neue Methode ist, diesen Wächtern eine riesige Megafon-Stimme zu geben.

  1. Die Verstärkung: Die Forscher nehmen die „Stimme" (die versteckten Daten) dieser Trennzeichen und machen sie lauter (sie skalieren sie).
  2. Der Effekt: Durch diese Lautstärke werden die Wächter zu unschlagbaren Anziehungspunkten.
    • Alle Informationen innerhalb eines Bildes hören sofort auf den Wächter dieses Bildes und bleiben dort.
    • Die Informationen aus dem anderen Bild werden vom lauten Wächter des ersten Bildes so stark abgestoßen, dass sie nicht mehr „hineinlecken" können.

Warum ist das genial?

  • Kein neues Training: Man muss den Koch nicht neu lernen lassen. Man gibt ihm nur eine neue Anweisung, wie er die Schildchen behandelt. Das kostet keine Zeit und kein Geld.
  • Kein langsamerer Prozess: Es dauert nicht länger, ein Bild zu betrachten.
  • Es funktioniert überall: Es hilft nicht nur bei Bildern, sondern auch bei Texten. Wenn Sie drei verschiedene Dokumente haben, hilft diese Methode der KI, zu verstehen, welcher Satz zu welchem Dokument gehört, ohne die Informationen zu verwechseln.

Zusammenfassend:
Die Forscher haben entdeckt, dass die KI bei mehreren Bildern vergesslich wird. Statt die KI komplett neu zu programmieren, haben sie einfach die „Trennwände" zwischen den Bildern verstärkt. Dadurch merkt sich die KI endlich: „Aha, das hier gehört zum Bild 1, und das da gehört zum Bild 2!" – und liefert viel genauere Antworten.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →