Random Wins All: Rethinking Grouping Strategies for Vision Tokens

Die Arbeit stellt fest, dass eine einfache zufällige Gruppierungsstrategie für Vision-Token komplexe, speziell entworfene Methoden übertrifft, sofern vier Schlüsselkriterien wie Positionsinformation und globale Rezeptivfelder erfüllt sind, und demonstriert ihre Wirksamkeit über verschiedene visuelle und multimodale Aufgaben hinweg.

Qihang Fan, Yuang Ai, Huaibo Huang, Ran He

Veröffentlicht 2026-03-03
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen riesigen Haufen Lego-Steine, aus denen du ein komplexes Modell bauen musst. In der Welt der künstlichen Intelligenz (KI) sind diese Steine die „Bilder" oder „Tokens", die ein Computer analysiert.

Das Problem mit den modernen KI-Modellen (den sogenannten Vision Transformern) ist, dass sie versuchen, jeden einzelnen Stein mit jedem anderen Stein zu vergleichen, um zu verstehen, wie sie zusammenpassen. Das ist wie ein riesiges Meeting, bei dem jeder mit jedem spricht. Je mehr Steine du hast, desto mehr Gespräche finden statt – und das wird extrem langsam und teuer (das nennt man „quadratische Komplexität").

Um dieses Problem zu lösen, haben Forscher bisher sehr komplizierte Pläne entwickelt:

  • Der „Swin"-Ansatz: Man teilt die Steine in feste Fenster ein. Nur die Steine im selben Fenster dürfen miteinander reden.
  • Der „Quadtree"-Ansatz: Man baut eine Baumstruktur, um die Steine nach Wichtigkeit zu sortieren.
  • Der „BiFormer"-Ansatz: Eine Mischung aus beidem, die versucht, die wichtigsten Steine zu finden.

All diese Methoden sind wie hochkomplexe Verkehrsleitsysteme, die versuchen, den Datenverkehr perfekt zu regeln.

Die verrückte Idee: „Zufall ist der beste Plan"

Die Autoren dieses Papers stellen eine schockierende Frage: Müssen diese komplizierten Pläne überhaupt existieren?

Ihre Antwort ist ein einfaches „Nein". Sie schlagen eine Methode vor, die sie „Random Wins All" (Zufall gewinnt alles) nennen.

Die Analogie:
Stell dir vor, du hast eine große Klasse Schüler.

  • Die alten Methoden: Der Lehrer versucht, die Schüler basierend auf ihrem Sitzplatz, ihrer Kleidung oder ihrem IQ in perfekte Gruppen einzuteilen, damit sie effizient zusammenarbeiten. Das kostet viel Zeit und Nerven.
  • Die neue Methode (Random Grouping): Der Lehrer schließt die Augen, wirft die Namen der Schüler in einen Hut und zieht sie einfach zufällig heraus, um Gruppen zu bilden.

Das klingt chaotisch, oder? Aber hier kommt der Clou: Es funktioniert besser als alles andere.

Warum funktioniert das Chaos so gut?

Die Forscher haben herausgefunden, dass das Zufallsprinzip nur dann brillant funktioniert, wenn vier bestimmte „Geheimzutaten" vorhanden sind. Stell dir das wie das Rezept für einen perfekten Kuchen vor:

  1. Ein Orientierungssystem (Positionsinformation):
    Wenn du die Schüler zufällig in Gruppen wirfst, musst du ihnen trotzdem sagen, wo sie im Raum stehen. Ohne diese Information wären sie völlig verloren. Die KI braucht also eine Art „Karte", um zu wissen, welcher Stein wo war, auch wenn er zufällig in eine neue Gruppe geworfen wurde.

  2. Vielfalt im Team (Kopf-Feature-Vielfalt):
    Stell dir vor, jede Gruppe hat mehrere Betreuer (die „Köpfe" im Transformer). Wenn alle Betreuer genau dasselbe tun und dieselben Zufallsgruppen bilden, ist das langweilig und ineffizient. Die Methode funktioniert nur, wenn jeder Betreuer eine andere Zufallsliste hat. So lernen die Gruppen unterschiedliche Dinge und ergänzen sich perfekt.

  3. Der Blick über den Tellerrand (Globaler Sichtfeld):
    Frühere Methoden haben die Gruppen so streng getrennt, dass eine Gruppe nichts von der anderen wusste. Die Zufallsmethode ist so wild, dass sie versehentlich Steine aus dem ganzen Bild mischt. Dadurch behält die KI den „großen Zusammenhang" im Blick, auch wenn sie nur kleine Gruppen betrachtet.

  4. Ein fester Rhythmus (Festes Gruppierungsmuster):
    Das ist der wichtigste Punkt: Auch wenn die Gruppen zufällig sind, muss das Zufallsspiel immer gleich ablaufen. Wenn du heute Schüler A mit B zusammenwirfst, muss das morgen auch so sein. Wenn sich das Muster bei jedem Bild komplett ändert, wird die KI verwirrt. Es braucht also eine „stabile Zufälligkeit".

Das Ergebnis

Die Forscher haben diese einfache „Zufalls-Methode" auf viele verschiedene KI-Modelle angewendet (für Bilderkennung, Objekterkennung, 3D-Punktwolken und sogar für KI, die Bilder beschreibt).

Das Ergebnis war verblüffend:

  • Die Modelle wurden schneller, weil sie keine Zeit mit komplizierten Sortier-Algorithmen verschwenden.
  • Die Modelle wurden genauer, weil sie durch die zufällige Mischung überraschende Zusammenhänge fanden, die die strengen alten Methoden übersehen haben.
  • Sie funktionieren sogar besser als die komplexesten aktuellen State-of-the-Art-Modelle.

Fazit in einem Satz

Die Botschaft der Forscher ist: Manchmal ist der beste Weg nicht der komplizierteste Plan, sondern ein einfaches, zufälliges Chaos – solange man ein paar wichtige Regeln (wie eine Karte und einen festen Rhythmus) beachtet.

Sie haben bewiesen, dass wir nicht immer die perfekten Verkehrsleitsysteme brauchen; manchmal reicht es, einfach die Autos zufällig auf die Straße zu lassen, solange sie alle die gleichen Straßenregeln kennen.