Scaling Laws in Patchification: An Image Is Worth 50,176 Tokens And More

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een schilderij bekijkt. De kunstenaar heeft elke penseelstreek met zorg gemaakt, van de kleinste details tot de grote vormen.

Voor de meeste moderne kunstenaars (in dit geval: kunstmatige intelligentie) die naar deze schilderijen kijken, is het echter te veel werk om naar elk detail te kijken. Dus, in plaats van het hele schilderij in één keer te bekijken, knippen ze het in grote, vierkante stukken (zoals een puzzel). Ze kijken alleen naar het gemiddelde van elk stukje. Dit noemen ze in de tech-wereld "patchification".

Deze methode werkt snel en bespaart veel energie, maar het heeft een groot nadeel: je mist de fijne details. Het is alsof je een foto van een gezicht bekijkt, maar je kijkt alleen naar vierkante blokjes van 16 bij 16 pixels. Je ziet misschien dat er een neus is, maar je mist de vorm van de neusvleugels of de textuur van de huid.

Wat hebben deze onderzoekers ontdekt?

De onderzoekers van dit paper hebben een interessante vraag gesteld: "Wat gebeurt er als we stoppen met die grote blokjes en in plaats daarvan naar elk individueel 'pixel' kijken?"

Ze hebben een nieuwe wet ontdekt, die ze de "Patchification Scaling Law" noemen. Hier is de uitleg in simpele taal:

1. Hoe kleiner de blokjes, hoe slimmer de AI

Stel je voor dat je een boek leest.

De oude manier: Je leest het boek, maar je mag alleen elk woord samenvatten tot één letter. Je leest "H-e-l-e" in plaats van "H-e-l-l-o". Je begrijpt de tekst, maar je mist de nuances.
De nieuwe manier: Je leest het boek letter voor letter, zonder iets weg te laten.

De onderzoekers hebben getest wat er gebeurt als ze de grootte van die "blokjes" (de patch) kleiner maken. Ze begonnen met grote blokjes (16x16 pixels) en maakten ze steeds kleiner: 8x8, 4x4, 2x2, en uiteindelijk 1x1 (elk individueel puntje op het scherm).

Het resultaat was verrassend: Hoe kleiner de blokjes, hoe beter de AI werd. Zelfs bij de kleinste maat (1 pixel) bleef de prestatie verbeteren. Het leek erop dat de AI eindelijk alle informatie kon gebruiken die er eigenlijk in het beeld zat.

2. Een foto is meer dan 50.000 woorden

In de wereld van AI wordt een afbeelding vaak omgezet in een reeks "woorden" (tokens) die de computer begrijpt.

Met de oude methode (grote blokjes) werd een foto omgezet in ongeveer 196 "woorden".
Met de nieuwe methode (1 pixel per token) werd dezelfde foto omgezet in 50.176 "woorden".

Dat klinkt als een enorme hoeveelheid informatie om te verwerken, maar de onderzoekers hebben bewezen dat het kan. Ze lieten een AI-model een foto zien die bestond uit 50.000 losse stukjes informatie, en het model werd hierdoor slimmer dan ooit tevoren. Het haalde een score van 84,6% op een bekende test (ImageNet), wat een zeer hoog niveau is.

3. Je hebt geen "vertaler" meer nodig

Bij de oude methode was het zo dat de AI het beeld in grote blokjes zag, en daarna een extra "hoofd" (een decoder) nodig had om die ruwe informatie weer om te zetten in een fijn beeld (bijvoorbeeld voor het herkennen van objecten of het kleuren van een kaart).

De onderzoekers ontdekten iets fascinerends: Als je de AI direct laat kijken naar de kleine pixels, heeft die extra "vertaler" bijna geen nut meer.
De AI kan de details zelf al zo goed zien, dat de extra stappen overbodig worden. Het is alsof je een vertaler nodig hebt om een gesprek te voeren, maar als je zelf de taal perfect spreekt, kun je het gesprek direct voeren zonder tussenpersoon.

Waarom hebben we dit niet eerder gedaan?

Je vraagt je misschien af: "Waarom doen we dit niet altijd al?"
Het antwoord is simpel: Rekenkracht.

Vijf jaar geleden was het te duur en te traag om naar 50.000 stukjes tegelijk te kijken. Het was alsof je probeerde een hele bibliotheek in één seconde te lezen; je computer zou het niet aankunnen.
Maar dankzij snellere computers (zoals de nieuwste grafische kaarten) en slimme nieuwe algoritmen, is het nu mogelijk om deze "overkill" aan informatie te verwerken. De onderzoekers zeggen eigenlijk: "We hebben nu genoeg kracht om de volledige foto te zien, dus laten we stoppen met het weglaten van details."

De conclusie in één zin

Deze paper zegt dat we in de toekomst van beeldherkenning moeten stoppen met het "samenvatten" van afbeeldingen in grote blokjes. In plaats daarvan moeten we leren van elk individueel puntje op het scherm. Hoe meer details we toestaan, hoe slimmer de computer wordt, en hoe minder complexe extra stappen we nodig hebben.

Het is een oproep om de "pixel" te eren: Eén pixel is meer waard dan je denkt.

Scaling Laws in Patchification: An Image Is Worth 50,176 Tokens And More

1. Hoe kleiner de blokjes, hoe slimmer de AI

2. Een foto is meer dan 50.000 woorden

3. Je hebt geen "vertaler" meer nodig

Waarom hebben we dit niet eerder gedaan?

De conclusie in één zin

Probleemstelling

Methodologie

Belangrijkste Bijdragen en Ontdekkingen

Resultaten

Betekenis en Conclusie

Scaling Laws in Patchification: An Image Is Worth 50,176 Tokens And More

1. Hoe kleiner de blokjes, hoe slimmer de AI

2. Een foto is meer dan 50.000 woorden

3. Je hebt geen "vertaler" meer nodig

Waarom hebben we dit niet eerder gedaan?

De conclusie in één zin

Probleemstelling

Methodologie

Belangrijkste Bijdragen en Ontdekkingen

Resultaten

Betekenis en Conclusie

Meer zoals dit

Evaluating Generalization and Robustness in Russian Anti-Spoofing: The RuASD Initiative

KAIJU: An Executive Kernel for Intent-Gated Execution of LLM Agents

What Are Adversaries Doing? Automating Tactics, Techniques, and Procedures Extraction: A Systematic Review

Cardinality is Not Enough: Super Host Detection via Segmented Cardinality Estimation

A Dynamic Toolkit for Transmission Characteristics of Precision Reducers with Explicit Contact Geometry