A Study on Inference Latency for Vision Transformers on Mobile Devices

Diese Studie analysiert die Inferenz-Latenz von Vision Transformern auf mobilen Geräten im Vergleich zu CNNs und entwickelt darauf aufbauend einen Datensatz, der eine präzise Vorhersage der Latenz neuer ViT-Architekturen ermöglicht.

Zhuojin Li, Marco Paolieri, Leana Golubchik

Veröffentlicht 2026-02-20
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

📱 Das große Rennen: Warum "Vision Transformers" auf dem Handy manchmal stolpern

Stellen Sie sich vor, Sie haben zwei verschiedene Arten von Künstlichen Intelligenzen (KI), die Bilder auf Ihrem Smartphone erkennen sollen (z. B. um zu sagen: "Das ist eine Katze").

  1. Die alten Kämpfer (CNNs): Das sind wie erfahrene Handwerker. Sie schauen sich ein Bild an und arbeiten sich Stück für Stück von links nach rechts, von oben nach unten durch. Sie sind sehr effizient und kennen die Regeln ihres Handwerks genau.
  2. Die neuen Stars (Vision Transformers oder ViTs): Das sind wie brillante Genies, die das ganze Bild auf einmal betrachten. Sie schauen sich jeden einzelnen Fleck des Bildes an und fragen sich: "Wie hängt dieser Fleck mit jedem anderen Fleck zusammen?" Das macht sie extrem schlau und präzise, aber es ist auch eine riesige Aufgabe.

Das Problem: Diese Genies (ViTs) sind auf einem leistungsfähigen Computer im Rechenzentrum (der Cloud) super schnell. Aber auf Ihrem kleinen Smartphone? Da werden sie oft langsam, zäh und verbrauchen viel Akku. Die Forscher aus dieser Studie wollten herausfinden: Warum ist das so, und wie können wir das ändern?


🔍 Was haben die Forscher entdeckt? (Die drei großen Geheimnisse)

Die Forscher haben 190 verschiedene "Genie-Modelle" (ViTs) und 102 "Handwerker-Modelle" (CNNs) auf verschiedenen Handys getestet. Hier sind ihre wichtigsten Entdeckungen, erklärt mit einfachen Vergleichen:

1. Der Speicher-Engpass (Die überfüllte Bibliothek)

  • Die Analogie: Stellen Sie sich vor, ein Handwerker (CNN) braucht nur ein kleines Werkzeugkästchen. Ein Genie (ViT) hingegen braucht eine ganze Bibliothek voller Bücher, um alle Zusammenhänge zu verstehen.
  • Die Erkenntnis: Handys haben wenig RAM (Arbeitsspeicher). Die ViTs brauchen viel mehr Platz als CNNs, selbst wenn sie ähnlich "klug" aussehen. Wenn der Speicher voll ist, muss das Handy ständig hin- und herlaufen, um Daten zu holen. Das kostet Zeit.
  • Das Ergebnis: ViTs sind oft speicherhungrig. Wenn Sie die Speicherbandbreite (die Geschwindigkeit, mit der Daten fließen) erhöhen, werden ViTs viel schneller. Aber wenn Sie nur den Prozessor (den Motor) schneller machen, hilft das weniger.

2. Der "GELU"-Zaubertrank (Die Laune der Aktivierungsfunktion)

  • Die Analogie: In der KI gibt es eine Funktion namens "GELU", die wie ein Torwächter funktioniert. Sie entscheidet, welche Informationen weitergeleitet werden.
  • Die Erkenntnis: Der Wächter ist launisch! Wenn er bestimmte Zahlen sieht, ist er schnell. Bei anderen Zahlen wird er langsam und überlegt lange. Das ist wie ein Kellner, der bei einer Bestellung von "Pizza" sofort losläuft, aber bei "Pizza mit Ananas" erst 5 Minuten lang nachdenkt.
  • Das Problem: Man kann die Rechenzeit nicht einfach durch Zählen der Aufgaben (FLOPs) vorhersagen, weil die "Laune" des Wächters von den echten Bildinhalten abhängt. Das macht die Vorhersage schwierig.

3. Der Übersetzer-Problem (ML-Frameworks)

  • Die Analogie: Stellen Sie sich vor, Sie haben zwei verschiedene Übersetzer (z. B. PyTorch und TensorFlow), die die Befehle der KI für das Handy übersetzen müssen.
  • Die Erkenntnis: Manchmal übersetzt der eine Übersetzer einen Satz perfekt und schnell. Der andere übersetzt denselben Satz umständlich und langsam, weil er die Daten erst umsortieren muss (z. B. von "Reihenweise" zu "Spaltenweise").
  • Das Ergebnis: Es kommt sehr darauf an, welche Software-Brille (Framework) Sie aufsetzen. Ein und dasselbe Modell kann auf demselben Handy doppelt so lange brauchen, nur weil eine andere Software genutzt wird.

🛠️ Die Lösung: Ein "Wetterbericht" für KI-Modelle

Da es zu teuer und zu langsam wäre, jedes neue KI-Model auf echten Handys zu testen, haben die Forscher eine clevere Idee entwickelt:

  1. Der Bauplan (Suchraum): Sie haben einen riesigen Baukasten erstellt, mit dem sie 1.000 künstliche KI-Modelle zusammenbauen konnten. Diese Modelle nutzen die besten Bausteine der aktuellen Forschung.
  2. Das Mess-Experiment: Sie haben diese 1.000 Modelle auf 6 verschiedenen Handys (von Google, Samsung, Apple etc.) getestet und gemessen, wie lange sie brauchen.
  3. Der Kristallkugel-Effekt (Vorhersage): Mit diesen Daten haben sie einen einfachen "Wetterbericht" (einen mathematischen Vorhersage-Algorithmus) trainiert.

Was kann dieser Wetterbericht?
Er kann Ihnen sagen: "Wenn Sie ein KI-Modell mit diesen Eigenschaften bauen, wird es auf Ihrem iPhone XS etwa 50 Millisekunden brauchen."
Das ist unglaublich genau (oft mit weniger als 5% Fehler), auch für Modelle, die noch gar nicht existieren!


🚀 Warum ist das wichtig?

Diese Studie ist wie ein Werkzeugkasten für Entwickler:

  • Schnelleres Design: Statt wochenlang Modelle zu bauen und auf dem Handy zu testen, können Entwickler jetzt den "Wetterbericht" nutzen, um sofort zu sehen, welche Modelle schnell und welche zu langsam sind.
  • Bessere Apps: Das bedeutet, dass wir in Zukunft schärfere, schnellere KI-Apps auf unseren Handys haben werden (z. B. für Augmented Reality oder sofortige Bildanalyse), ohne dass das Handy überhitzt oder der Akku leer ist.

Kurz gesagt: Die Forscher haben herausgefunden, warum die neuen KI-Genies auf Handys manchmal träge sind, und haben eine Methode entwickelt, um genau vorherzusagen, wie schnell sie sein werden – bevor sie überhaupt gebaut werden.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →