Pixelis: Reasoning in Pixels, from Seeing to Acting

Het artikel introduceert Pixelis, een pixel-gebaseerd agentensysteem dat visuele intelligentie verbetert door direct te handelen op afbeeldingen en video's via uitvoerbare bewerkingen en te leren uit de gevolgen daarvan, wat leidt tot betere prestaties op benchmarks en veilig aanpassingsvermogen zonder externe feedback.

Yunpeng Zhou

Gepubliceerd 2026-03-27
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Pixelis: Van "Kijken" naar "Doen" met een digitale vergrootglas

Stel je voor dat je een heel slimme kunstenaar hebt die alleen maar naar schilderijen kan kijken en erover kan praten. Hij kan zeggen: "Oh, daar zit een hondje," of "Die boom is groen." Maar als je vraagt: "Kun je die hond eens van dichterbij bekijken?" of "Kun je tellen hoeveel ballonnen er zijn?", dan kan hij dat niet. Hij blijft passief kijken. Hij is als een toerist die alleen foto's maakt, maar nooit de stad in loopt om de geuren te ruiken of de straten te verkennen.

Pixelis is de oplossing voor dit probleem. Het is een nieuwe soort kunstmatige intelligentie (AI) die niet alleen kijkt, maar doet. Het is alsof we die toerist een setje gereedschappen geven: een vergrootglas, een schaar, een camera en een notitieblok. Pixelis gebruikt deze gereedschappen om actief in de afbeelding te werken, dingen te vinden, te meten en te controleren, en leert van wat er gebeurt.

Hier is hoe het werkt, stap voor stap:

1. De Drie Leren-fases (Het Opleidingsplan)

Pixelis wordt niet in één keer slim. Het doorloopt drie fases, net als een leerling die eerst de theorie leert, dan oefent, en tenslotte zelfstandig aan de slag gaat.

  • Fase 1: De "Leerling" (Supervised Fine-Tuning)
    In deze fase leert Pixelis de taal van de gereedschappen. Stel je voor dat het een kind is dat leert hoe je een schaar vasthoudt. Het kijkt naar voorbeelden van hoe een mens een afbeelding analyseert: "Eerst zoom ik in, dan knip ik dit stukje uit, en daarna lees ik de tekst." Het leert de regels van deze "gereedschaps-taal" door na te doen wat een expert doet. Het leert niet alleen wat er te zien is, maar hoe je dat moet vinden.

  • Fase 2: De "Nieuwsgierige Ontdekker" (Curiosity-Coherence RFT)
    Nu Pixelis de gereedschappen kent, moet het leren wanneer ze te gebruiken.

    • Nieuwsgierigheid: Soms moet je iets van dichterbij bekijken omdat het raar lijkt. Pixelis wordt beloond als het iets ontdekt dat het niet direct begreep (een "verrassing").
    • Samenhang: Maar je mag niet wild om je heen springen. Je mag niet eerst inzoomen op een hond, dan plotseling een boom lezen, en daarna weer naar de hond kijken zonder reden. Pixelis leert dat elke stap logisch moet volgen op de vorige. Het is als het bouwen van een huis: je legt eerst de fundering, dan de muren. Je bouwt niet eerst het dak en daarna de fundering. Deze fase zorgt ervoor dat de "denkpaden" van Pixelis kort, logisch en efficiënt zijn.
  • Fase 3: De "Slimme Reiziger" (Test-Time RL)
    Dit is het magische deel. Als Pixelis een nieuwe, moeilijke afbeelding ziet waar het nog nooit eerder naar heeft gekeken, moet het zich aanpassen.

    • Het kijkt naar zijn eigen eerdere successen: "Hoe heb ik dit soort problemen eerder opgelost?"
    • Het stemt af op de beste antwoorden van een groepje "vergelijkbare" oplossingen (een meerderheidsstemming).
    • De Veiligheidsriem: Het belangrijkste is dat het niet "dwaalt". Stel je voor dat je een auto rijdt en plotseling een nieuwe route probeert. Je wilt niet dat je de weg kwijtraakt. Pixelis heeft een onzichtbare veiligheidsgordel (een "KL-corridor"). Als het te ver afwijkt van wat het al weet, wordt het zachtjes teruggeleid naar de veilige weg. Zo leert het van nieuwe situaties zonder zijn oude kennis te vergeten of gekke fouten te maken.

2. Waarom is dit zo speciaal? (De Metaforen)

  • Van "Woorden" naar "Pixels":
    Normale AI's werken met "woorden" (tokens). Ze denken in zinnen. Pixelis werkt met pixels (de kleine puntjes waar een foto uit bestaat).

    • Vergelijking: Een gewone AI zegt: "Er is een auto." Pixelis zegt: "Ik zie een rode vorm op coördinaat X,Y, ik zoom erin, ik meet de wielen, en ja, het is een auto." Het werkt direct met de fysieke wereld van de afbeelding, niet alleen met beschrijvingen.
  • De "Audit" (Controle):
    Omdat Pixelis gereedschappen gebruikt, kunnen we precies zien wat het heeft gedaan. Het is alsof het een dagboek bijhoudt: "Ik heb ingezoomd op punt A, ik heb tekst gelezen op punt B." Als het een fout maakt, kunnen we precies zien waar het misging. Dit maakt de AI betrouwbaarder en transparanter.

  • Korte en Schone Paden:
    Vroeger maakten AI's soms lange, verwarrende lijnen van gedachten (bijvoorbeeld: "Ik denk dat het een hond is... nee wacht, misschien een wolf... laat me nog eens kijken..."). Pixelis leert door de "Nieuwsgierigheid" en "Samenhang" om deze paden kort en doelgericht te houden. Het komt sneller tot het juiste antwoord zonder in de war te raken.

3. Het Resultaat

In tests heeft Pixelis laten zien dat het beter is dan eerdere modellen, vooral bij taken die kijken, meten en tijd nodig hebben (zoals video's analyseren).

  • Het maakt minder fouten.
  • Het gebruikt minder stappen om tot een antwoord te komen (efficiënter).
  • Het kan zich aanpassen aan nieuwe situaties zonder dat er iemand handmatig hoeft in te grijpen.

Kortom: Pixelis is de overstap van een passieve toeschouwer die alleen beschrijft wat hij ziet, naar een actieve onderzoeker die met gereedschappen in de afbeelding werkt, leert van zijn fouten, en de wereld om hem heen (in dit geval de digitale wereld van pixels) echt begrijpt door er daadwerkelijk mee te interageren. Het is de stap van "kijken" naar "doen".

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →