DeepEyesV2: Toward Agentic Multimodal Model

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar soms wat passieve assistent hebt. Hij kan foto's bekijken en teksten lezen, maar als hij een vraag krijgt die moeilijk is, blijft hij vaak steken. Hij zegt: "Ik denk dat dit een bloem is," maar durft niet echt te controleren of het klopt, of hij probeert het te berekenen zonder een rekenmachine.

Het artikel over DeepEyesV2 introduceert een nieuwe versie van zo'n assistent die niet alleen kijkt en leest, maar ook actief aan de slag gaat. Het is alsof we deze assistent hebben getraind om niet alleen een bril te dragen, maar ook een gereedschapskist mee te nemen.

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De "Luie" Assistent

Vroeger waren slimme modellen (zoals de vorige versie van DeepEyes) als een student die alleen uit zijn hoofd leert. Als hij een vraag kreeg over een foto, probeerde hij het antwoord te raden. Als hij een rekenfout maakte of een detail niet zag, gaf hij het op of gaf een verkeerd antwoord. Hij durfde geen hulpmiddelen te gebruiken, zoals een vergrootglas (om een foto in te zoomen) of Google (om iets op te zoeken).

2. De Oplossing: Twee Stappen naar een "Agent"

De onderzoekers van DeepEyesV2 hebben ontdekt dat je zo'n assistent niet zomaar kunt zeggen: "Ga nu zelfstandig werken!" als hij nog niet weet hoe. Als je dat probeert, begint hij te klooien met code die niet werkt of geeft hij op.

Daarom hebben ze een twee-stappenplan bedacht:

Stap 1: De "Koude Start" (De Oefensessie)
Stel je voor dat je iemand leert autorijden. Je kunt niet direct op de snelweg beginnen. Eerst moet je op een parkeerplaats oefenen.
In deze fase trainen ze het model met speciale voorbeelden waar het moet leren hoe het gereedschap gebruikt moet worden. Het leert: "Oh, als ik een bloem moet herkennen, moet ik eerst de foto inzoomen en dan op Google zoeken." Het leert de basisbewegingen van het gereedschap zonder dat het al te moeilijk is.
Stap 2: Versterkt Leren (De Snelweg)
Nu het model de basisbewegingen kent, laten ze het los op een moeilijker parcours. Hier krijgen ze beloningen (punten) als ze het juiste antwoord vinden door slim gebruik te maken van de tools.
Als het model zelfstandig beslist: "Ik ga eerst een stukje van de foto afsnijden, dan een berekening maken, en pas dan zoeken," krijgt het een sterretje. Als het domweg raadt, krijgt het geen ster. Zo leert het model wanneer het gereedschap nodig is en wanneer het gewoon kan denken.

3. De Gereedschapskist

DeepEyesV2 heeft drie hoofdtools in zijn koffer:

De Code-uitvoerder (De Rekenmachine & Schaar): Hij kan Python-code schrijven om foto's te knippen, kleuren te meten of moeilijke wiskundeproblemen op te lossen. Het is alsof hij een schaar en een rekenmachine in zijn hand heeft.
De Zoekmachine (De Bibliotheek): Als hij iets niet weet, zoekt hij op internet. Hij kan zoeken op tekst ("Wie is deze persoon?") of op afbeelding ("Wat voor bloem is dit?").
De Denker (Het Brein): Hij combineert alles. Hij kijkt naar de foto, knipt het relevante stukje af, zoekt de naam op, en gebruikt de uitkomst om de vraag te beantwoorden.

4. De Nieuwe Test: RealX-Bench

Om te zien of deze nieuwe assistent echt slim is, hebben de onderzoekers een nieuwe test ontwikkeld genaamd RealX-Bench.
Stel je voor dat de oude tests vragen stelden als: "Wat zie je op deze foto?" (Te makkelijk) of "Wat is 2+2?" (Te simpel).
De nieuwe test is als een echte detective-case: "Kijk naar deze foto van een beursgrafiek. Vergelijk de prijsdaling van dit bedrijf met die van Tootsie Roll op dezelfde dag. Welke is groter?"
Om dit op te lossen, moet je:

De grafiek op de foto goed lezen (Perceptie).
De naam van het bedrijf opzoeken (Zoeken).
De cijfers vergelijken en rekenen (Redeneren).

De meeste oude modellen faalden hierop. DeepEyesV2 slaagde erin om deze complexe puzzels op te lossen door zijn tools slim te combineren.

5. Het Grote Resultaat: Slimme Keuzes

Het mooiste aan DeepEyesV2 is dat hij niet elke keer gereedschap gebruikt.

Als de vraag simpel is ("Wat is de kleur van de auto?"), kijkt hij gewoon en geeft het antwoord.
Als de vraag moeilijk is ("Hoeveel medicinale kruiden staan er in dit liedje?"), pakt hij zijn schaar, zoekt hij de tekst op en telt hij ze.

Het model leert dus adaptief te zijn. Het weet precies wanneer het zijn gereedschapskist moet openen en wanneer hij gewoon zijn hersenen kan gebruiken.

Kortom: DeepEyesV2 is een multimodale assistent die niet alleen kijkt en luistert, maar ook actief werkt. Door eerst te oefenen en daarna te leren door fouten te maken en beloningen te krijgen, is hij in staat om complexe, echte wereldproblemen op te lossen die voor eerdere modellen te moeilijk waren. Het is de stap van een "slimme lezer" naar een "slimme doener".

DeepEyesV2: Toward Agentic Multimodal Model

1. Het Probleem: De "Luie" Assistent

2. De Oplossing: Twee Stappen naar een "Agent"

3. De Gereedschapskist

4. De Nieuwe Test: RealX-Bench

5. Het Grote Resultaat: Slimme Keuzes

Probleemstelling

Methodologie

1. Twee-staps trainingspipeline

2. Dataset Curation

3. Evaluatie: RealX-Bench

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

DeepEyesV2: Toward Agentic Multimodal Model

1. Het Probleem: De "Luie" Assistent

2. De Oplossing: Twee Stappen naar een "Agent"

3. De Gereedschapskist

4. De Nieuwe Test: RealX-Bench

5. Het Grote Resultaat: Slimme Keuzes

Probleemstelling

Methodologie

1. Twee-staps trainingspipeline

2. Dataset Curation

3. Evaluatie: RealX-Bench

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

A Survey of Reasoning in Autonomous Driving Systems: Open Challenges and Emerging Paradigms

PACED: Distillation at the Frontier of Student Competence

Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

Reversible Lifelong Model Editing via Semantic Routing-Based LoRA