Effect of Patch Size on Fine-Tuning Vision Transformers in Two-Dimensional and Three-Dimensional Medical Image Classification

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie versuchen, ein riesiges, komplexes Gemälde zu verstehen, um zu sagen, ob es ein Porträt oder eine Landschaft darstellt. Wie gehen Sie vor?

In der Welt der künstlichen Intelligenz (KI), speziell bei Modellen namens Vision Transformers (ViT), gibt es eine wichtige Entscheidung: Wie zerschneiden Sie das Bild, um es zu analysieren?

Diese Forschungsarbeit von Massoud Dehghan und seinem Team beantwortet genau diese Frage für medizinische Bilder (wie Röntgenaufnahmen oder MRTs). Hier ist die Erklärung in einfachen Worten:

1. Das Problem: Der "Puzzle-Effekt"

Stellen Sie sich ein medizinisches Bild wie ein riesiges Puzzle vor.

Der alte Ansatz: Früher haben die KI-Modelle das Bild in sehr große Puzzleteile geschnitten (z. B. 14x14 Pixel pro Teil). Das ist wie wenn man ein Bild nur in vier riesige Blöcke teilt. Man sieht die groben Umrisse, aber feine Details – wie ein winziger Tumor oder eine kleine Risslinie – gehen verloren.
Die neue Frage: Was passiert, wenn wir die Puzzleteile viel kleiner machen? Wenn wir das Bild in Tausende von winzigen Mosaiksteinchen zerlegen?

2. Die Entdeckung: "Je kleiner die Teile, desto schärfer das Bild"

Die Forscher haben das an 12 verschiedenen medizinischen Datensätzen getestet (sowohl flache 2D-Bilder wie Röntgenaufnahmen als auch 3D-Volumen wie CT-Scans).

Das Ergebnis war überraschend klar:

Große Teile (wie 14x14 oder 28x28): Die KI war oft verwirrt. Sie sah das "Große Ganze", verpasste aber die wichtigen Details. Die Diagnose war oft falsch.
Kleine Teile (1x1, 2x2 oder 4x4): Die KI wurde zum Meisterdetektiv. Sie konnte winzige Texturen und feine Strukturen erkennen. Die Diagnosegenauigkeit sprang enorm an.

Eine Analogie:
Stellen Sie sich vor, Sie versuchen, einen Text zu lesen.

Mit großen Patch-Größen ist es, als würden Sie nur die Buchstaben in Blöcken von 100 Buchstaben sehen. Sie erkennen vielleicht, dass es ein Text ist, aber Sie können keine Wörter lesen.
Mit kleinen Patch-Größen sehen Sie jeden einzelnen Buchstaben. Plötzlich können Sie jedes Wort lesen und den Sinn des Satzes perfekt verstehen.

3. Der Preis: Der "Rechen-Kraft-Verbrauch"

Es gibt aber einen Haken.

Wenn Sie ein Bild in winzige Teile zerlegen, muss die KI viel mehr "Gedankenarbeit" leisten. Sie muss die Beziehungen zwischen Tausenden von kleinen Teilen berechnen, nicht nur zwischen wenigen großen.
Bei 2D-Bildern: Der Rechenaufwand steigt, ist aber noch machbar.
Bei 3D-Bildern (wie ein Würfel aus CT-Daten): Hier explodiert der Aufwand förmlich. Wenn Sie die Teile halbieren, vervielfacht sich der Rechenaufwand nicht nur doppelt, sondern 64-fach! Das ist wie der Unterschied zwischen einem kleinen Fahrrad und einem Raketenantrieb.

4. Die Lösung: Der "Experten-Rat" (Ensemble)

Da kleine Teile so viel Rechenleistung brauchen, haben die Forscher einen cleveren Trick angewendet:
Sie haben drei verschiedene Modelle trainiert (eines mit sehr kleinen Teilen, eines mit mittleren, eines mit etwas größeren) und deren Meinungen zusammengeführt.

Stellen Sie sich vor: Anstatt nur einen Arzt zu fragen, holen Sie sich die Meinung von drei Spezialisten. Einer schaut ganz genau hin, einer schaut etwas weiter weg, und einer schaut auf die Struktur. Wenn alle drei zustimmen, ist die Diagnose fast sicher richtig.
Dieses "Zusammenführen" (Ensemble) hat die Genauigkeit in fast allen Fällen noch weiter verbessert.

5. Warum ist das wichtig?

Bisher dachten viele Forscher, dass man für medizinische Bilder große "Puzzleteile" verwenden müsse, um die Rechenleistung zu sparen. Diese Studie zeigt: Nein, das ist nicht nötig.

Die Botschaft: Selbst mit einer einzigen, normalen Grafikkarte (wie sie viele Forscher haben) kann man diese feine Analyse durchführen, wenn man die Bilder nicht zu groß wählt.
Der Gewinn: Wir können KI-Modelle bauen, die Krankheiten viel früher und genauer erkennen, weil sie die feinen Details sehen, die bisher übersehen wurden.

Zusammenfassung in einem Satz

Die Studie zeigt, dass man medizinische Bilder für KI besser wie ein feines Mosaik (viele kleine Steine) und nicht wie grobe Kacheln behandeln sollte, um Krankheiten präziser zu erkennen – auch wenn das mehr Rechenleistung kostet, lohnt es sich für die Genauigkeit der Diagnose.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Vision Transformer (ViT) und deren Varianten haben sich in vielen Computer-Vision-Aufgaben als State-of-the-Art etabliert und dienen als Rückgrat großer multimodaler Modelle. Ein kritischer, aber in der medizinischen Bildanalyse oft vernachlässigter Designparameter ist die Patch-Größe (Patch Size).

Herausforderung: Die meisten ViT-basierten Ansätze verwenden eine feste Patch-Größe (häufig 14×14 oder 16×16). Es ist jedoch unklar, wie sich die systematische Variation der Patch-Größe auf die Klassifizierungsleistung auswirkt, insbesondere bei medizinischen Daten, die sowohl 2D- (z. B. Röntgen, Dermatoskopie) als auch 3D-Modalitäten (z. B. CT, MRT) umfassen.
Lücke in der Literatur: Bisherige Studien konzentrierten sich oft auf natürliche Bilder, trainierten Modelle von Grund auf neu (was bei kleinen medizinischen Datensätzen unpraktisch ist) oder ignorierten den systematischen Einfluss der Patch-Größe zugunsten von Architekturoptimierungen. Zudem fehlt oft eine Untersuchung unter realistischen Rechenbedingungen (einzelne GPU), da feinere Patches die Rechenkomplexität quadratisch (2D) bzw. kubisch (3D) erhöhen.

2. Methodik

Die Autoren führten eine umfassende Evaluierung durch, um den Einfluss verschiedener Patch-Größen auf die Feinabstimmung (Fine-Tuning) von ViTs zu untersuchen.

Datensätze: Es wurden 12 Datensätze aus der MedMNIST V2-Sammlung verwendet:
- 7 2D-Datensätze (z. B. BreastMNIST, DermaMNIST, OCTMNIST).
- 5 3D-Datensätze (z. B. AdrenalMNIST3D, FractureMNIST3D).
- Um die Experimente auf einer einzelnen GPU durchzuführen, wurden alle Bilder/Volumina auf die kleinste verfügbare Auflösung skaliert: 28×28 (2D) und 28×28×28 (3D).
Modellarchitektur: Es wurde das ViT-Small-Modell (ca. 22 Mio. Parameter) verwendet, das mit ImageNet-Vorgewichten initialisiert wurde.
- Für 2D-Daten wurde der Klassifikationskopf angepasst.
- Für 3D-Daten wurden die 2D-Vorgewichte mittels „Weight Inflation" (Wiederholung der Gewichte entlang der Tiefenachse) und trilinearer Interpolation der Positional Embeddings auf 3D erweitert.
Experimentelles Setup:
- Patch-Größen: Es wurden Patches der Größe $P \in \{28, 14, 7, 4, 2, 1\}$ getestet. Dies entspricht einer Aufteilung des Bildes in $1\times1$ bis $28\times28$ Patches.
- Hardware: Ein einzelner NVIDIA RTX 4090 GPU.
- Training: Fine-Tuning über 80 Epochen mit dem AdamW-Optimierer.
- Ensemble-Strategie: Eine einfache Mittelwertbildung (Averaging) der Vorhersagen der Modelle mit den Patch-Größen 1, 2 und 4 wurde als Ensemble-Modell getestet.
Metriken: Genauigkeit (Acc.), Balanced Accuracy (Bal. Acc.), AUC und GFLOPs (Rechenkosten).

3. Wichtige Beiträge

Systematische Evaluierung: Erste umfassende Studie, die den Einfluss von Patch-Größen auf ViTs sowohl für 2D- als auch für 3D-medizinische Bilddaten untersucht.
Fokus auf Fine-Tuning: Im Gegensatz zu vielen Studien, die Modelle von Grund auf trainieren, wird der im medizinischen Bereich übliche Ansatz des Fine-Tunings auf vorgewichteten Modellen analysiert.
Praktische Machbarkeit: Demonstration, dass detaillierte Tokenisierungsstudien auch auf einer einzelnen, moderaten GPU möglich sind, wenn geeignete Datensatzgrößen gewählt werden.
Open Source: Der vollständige Code ist auf GitHub verfügbar, um Reproduzierbarkeit zu gewährleisten.

4. Ergebnisse

Die Ergebnisse zeigen einen klaren Trend: Kleinere Patch-Größen führen zu besseren Klassifizierungsergebnissen, gehen jedoch mit höheren Rechenkosten einher.

2D-Datensätze:
- Kleinere Patches (1, 2, 4) erzielten konsistent bessere Ergebnisse als große Patches (14, 28).
- Patch-Größe 2 erzielte oft die besten Gesamtergebnisse.
- Verbesserung: Im Vergleich zu Patch-Größe 28 konnte die Balanced Accuracy um bis zu 12,78 % (im OrganMNIST-Datensatz) gesteigert werden.
- Das Ensemble (Patches 1, 2, 4) lieferte in den meisten Fällen die absolut besten Ergebnisse.
3D-Datensätze:
- Der Trend war noch ausgeprägter. Patch-Größe 1 erzielte die besten Ergebnisse.
- Verbesserung: Die Balanced Accuracy konnte um bis zu 23,78 % (im VesselMNIST3D-Datensatz) und die Genauigkeit um bis zu 10 % im Vergleich zu größeren Patches (14/28) verbessert werden.
- Große Patches (14 und 28) führten zu signifikant schlechteren Ergebnissen, da sie feine räumliche Details in den Volumendaten verlieren.
Rechenkosten (GFLOPs):
- Die Rechenkosten steigen drastisch mit kleineren Patches.
- Bei 2D: Reduktion von Patch 28 auf 1 erhöht die Kosten von ~0,04 auf ~16,71 GFLOPs (Faktor ~420).
- Bei 3D: Reduktion von Patch 28 auf 1 erhöht die Kosten von ~0,40 auf über 800 GFLOPs pro Volumen.
- Die Komplexität steigt in 3D um den Faktor $N^6$ , wenn die Patch-Größe um den Faktor $N$ reduziert wird.
Attention Maps: Visuelle Analysen zeigten, dass Modelle mit kleineren Patches (z. B. 2) fokussiertere und detailliertere Aufmerksamkeit auf diagnostisch relevante Regionen legen, während Modelle mit großen Patches (28) eher uniforme und weniger informative Muster aufweisen.

5. Bedeutung und Fazit

Praktische Implikation: Für medizinische Bildanalysen ist die Wahl einer kleinen Patch-Größe (insbesondere 1, 2 oder 4) entscheidend, um feinkörnige pathologische Merkmale zu erfassen. Die Standard-Patch-Größe von 14 oder 16 ist für medizinische Aufgaben oft suboptimal.
Trade-off: Es besteht ein klarer Kompromiss zwischen Leistung und Rechenkosten. Während kleinere Patches die Genauigkeit massiv steigern, explodieren die Rechenanforderungen, besonders bei 3D-Volumen.
Limitationen: Die Studie basierte auf skalierten Datensätzen (28³). Es bleibt offen, ob diese Trends bei hochauflösenden klinischen Rohdaten (z. B. 512×512 oder 512³) mit noch größeren Modellen (ViT-Large/Huge) unter realen Hardware-Beschränkungen gleichermaßen gelten.
Zusammenfassung: Die Arbeit liefert praktische Leitlinien für das Design von ViT-Pipelines in der Medizin: Feinere Tokenisierung führt zu besseren Ergebnissen, und ein Ensemble von Modellen mit kleinen Patch-Größen kann die Leistung weiter steigern, erfordert jedoch erhebliche Rechenressourcen.

Effect of Patch Size on Fine-Tuning Vision Transformers in Two-Dimensional and Three-Dimensional Medical Image Classification

1. Das Problem: Der "Puzzle-Effekt"

2. Die Entdeckung: "Je kleiner die Teile, desto schärfer das Bild"

3. Der Preis: Der "Rechen-Kraft-Verbrauch"

4. Die Lösung: Der "Experten-Rat" (Ensemble)

5. Warum ist das wichtig?

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation