Effect of Patch Size on Fine-Tuning Vision Transformers in Two-Dimensional and Three-Dimensional Medical Image Classification

Diese Studie zeigt, dass das Fine-Tuning von Vision-Transformern mit kleineren Patch-Größen (1, 2 und 4) die Klassifizierungsleistung in medizinischen 2D- und 3D-Bilddatensätzen signifikant verbessert, wobei eine Ensemble-Methode diese Ergebnisse weiter steigert.

Massoud Dehghan, Ramona Woitek, Amirreza Mahbod

Veröffentlicht 2026-02-24
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie versuchen, ein riesiges, komplexes Gemälde zu verstehen, um zu sagen, ob es ein Porträt oder eine Landschaft darstellt. Wie gehen Sie vor?

In der Welt der künstlichen Intelligenz (KI), speziell bei Modellen namens Vision Transformers (ViT), gibt es eine wichtige Entscheidung: Wie zerschneiden Sie das Bild, um es zu analysieren?

Diese Forschungsarbeit von Massoud Dehghan und seinem Team beantwortet genau diese Frage für medizinische Bilder (wie Röntgenaufnahmen oder MRTs). Hier ist die Erklärung in einfachen Worten:

1. Das Problem: Der "Puzzle-Effekt"

Stellen Sie sich ein medizinisches Bild wie ein riesiges Puzzle vor.

  • Der alte Ansatz: Früher haben die KI-Modelle das Bild in sehr große Puzzleteile geschnitten (z. B. 14x14 Pixel pro Teil). Das ist wie wenn man ein Bild nur in vier riesige Blöcke teilt. Man sieht die groben Umrisse, aber feine Details – wie ein winziger Tumor oder eine kleine Risslinie – gehen verloren.
  • Die neue Frage: Was passiert, wenn wir die Puzzleteile viel kleiner machen? Wenn wir das Bild in Tausende von winzigen Mosaiksteinchen zerlegen?

2. Die Entdeckung: "Je kleiner die Teile, desto schärfer das Bild"

Die Forscher haben das an 12 verschiedenen medizinischen Datensätzen getestet (sowohl flache 2D-Bilder wie Röntgenaufnahmen als auch 3D-Volumen wie CT-Scans).

Das Ergebnis war überraschend klar:

  • Große Teile (wie 14x14 oder 28x28): Die KI war oft verwirrt. Sie sah das "Große Ganze", verpasste aber die wichtigen Details. Die Diagnose war oft falsch.
  • Kleine Teile (1x1, 2x2 oder 4x4): Die KI wurde zum Meisterdetektiv. Sie konnte winzige Texturen und feine Strukturen erkennen. Die Diagnosegenauigkeit sprang enorm an.

Eine Analogie:
Stellen Sie sich vor, Sie versuchen, einen Text zu lesen.

  • Mit großen Patch-Größen ist es, als würden Sie nur die Buchstaben in Blöcken von 100 Buchstaben sehen. Sie erkennen vielleicht, dass es ein Text ist, aber Sie können keine Wörter lesen.
  • Mit kleinen Patch-Größen sehen Sie jeden einzelnen Buchstaben. Plötzlich können Sie jedes Wort lesen und den Sinn des Satzes perfekt verstehen.

3. Der Preis: Der "Rechen-Kraft-Verbrauch"

Es gibt aber einen Haken.

  • Wenn Sie ein Bild in winzige Teile zerlegen, muss die KI viel mehr "Gedankenarbeit" leisten. Sie muss die Beziehungen zwischen Tausenden von kleinen Teilen berechnen, nicht nur zwischen wenigen großen.
  • Bei 2D-Bildern: Der Rechenaufwand steigt, ist aber noch machbar.
  • Bei 3D-Bildern (wie ein Würfel aus CT-Daten): Hier explodiert der Aufwand förmlich. Wenn Sie die Teile halbieren, vervielfacht sich der Rechenaufwand nicht nur doppelt, sondern 64-fach! Das ist wie der Unterschied zwischen einem kleinen Fahrrad und einem Raketenantrieb.

4. Die Lösung: Der "Experten-Rat" (Ensemble)

Da kleine Teile so viel Rechenleistung brauchen, haben die Forscher einen cleveren Trick angewendet:
Sie haben drei verschiedene Modelle trainiert (eines mit sehr kleinen Teilen, eines mit mittleren, eines mit etwas größeren) und deren Meinungen zusammengeführt.

  • Stellen Sie sich vor: Anstatt nur einen Arzt zu fragen, holen Sie sich die Meinung von drei Spezialisten. Einer schaut ganz genau hin, einer schaut etwas weiter weg, und einer schaut auf die Struktur. Wenn alle drei zustimmen, ist die Diagnose fast sicher richtig.
  • Dieses "Zusammenführen" (Ensemble) hat die Genauigkeit in fast allen Fällen noch weiter verbessert.

5. Warum ist das wichtig?

Bisher dachten viele Forscher, dass man für medizinische Bilder große "Puzzleteile" verwenden müsse, um die Rechenleistung zu sparen. Diese Studie zeigt: Nein, das ist nicht nötig.

  • Die Botschaft: Selbst mit einer einzigen, normalen Grafikkarte (wie sie viele Forscher haben) kann man diese feine Analyse durchführen, wenn man die Bilder nicht zu groß wählt.
  • Der Gewinn: Wir können KI-Modelle bauen, die Krankheiten viel früher und genauer erkennen, weil sie die feinen Details sehen, die bisher übersehen wurden.

Zusammenfassung in einem Satz

Die Studie zeigt, dass man medizinische Bilder für KI besser wie ein feines Mosaik (viele kleine Steine) und nicht wie grobe Kacheln behandeln sollte, um Krankheiten präziser zu erkennen – auch wenn das mehr Rechenleistung kostet, lohnt es sich für die Genauigkeit der Diagnose.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →