VTC-Bench: Evaluating Agentic Multimodal Models via Compositional Visual Tool Chaining

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat Multimodale Grote Taalmodellen (MLLM's) – die slimme AI's die zowel tekst als plaatjes kunnen begrijpen – net als een pas afgestudeerde student zijn. Ze zijn slim, kunnen een foto beschrijven en vragen beantwoorden, maar als je ze vraagt om een tandem te repareren of een foto te bewerken, raken ze in de war. Ze weten niet welke gereedschappen ze moeten pakken en hoe ze die moeten combineren.

Deze paper introduceert VTC-Bench, een nieuwe "rijbewijstest" voor deze AI's, om te zien of ze echt kunnen werken als een digitale meesterknecht die gereedschappen gebruikt.

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het Probleem: De "Werkbank" is te leeg

Tot nu toe werden AI's getest met simpele vragen: "Wat zie je op deze foto?" of "Hoeveel appels zijn er?".
Maar in het echte leven is het vaak zo: "Verwijder de achtergrond, maak de tekst leesbaar, meet de afstand tussen de twee auto's en teken een pijl eromheen."

Bestaande tests waren alsof je een student alleen een hamer gaf en vroeg of die een spijker kon slaan. Maar in de echte wereld heb je een volledige gereedschapskist nodig: schroevendraaiers, tangen, meetlinten, verf, enzovoort. De oude tests hadden maar een paar simpele gereedschappen en vroegen om simpele klusjes.

2. De Oplossing: VTC-Bench (De Ultieme Gereedschapskist)

De onderzoekers hebben VTC-Bench bedacht. Dit is een enorme testomgeving met 32 verschillende gereedschappen (gebaseerd op OpenCV, een beroemde bibliotheek voor beeldbewerking).

De Gereedschapskist: Denk aan gereedschappen zoals "Draai de foto", "Verander de kleur", "Maak het scherper", "Teken een lijn", of "Tel de objecten".
De Opdrachten: Er zijn 680 moeilijke vragen. Ze zijn ingedeeld in drie niveaus, net als een videospelletje:
1. Niveau 1 (De Voorbereiding): Maak de foto eerst leesbaar. Bijvoorbeeld: een foto die scheef staat, rechttrekken, of een mistige foto helder maken.
2. Niveau 2 (Het Meten): Nu de foto helder is, meet je dingen. Hoe groot is de auto? Hoeveel rode ballen zijn er?
3. Niveau 3 (De Grote Opdracht): Dit is het moeilijkste. Je moet een reeks stappen doen. Bijvoorbeeld: "Draai de foto, maak hem zwart-wit, zoek de randen van het gebouw, en meet de hoogte."

3. Hoe Werkt de Test? (De "Kooktest")

Stel je voor dat je een kok (de AI) vraagt om een ingewikkeld gerecht te maken.

De AI moet niet alleen zeggen wat er op het bord ligt.
De AI moet het recept schrijven en de pan gebruiken.

In de test moet de AI zelf beslissen: "Oh, ik zie dat de tekst vaag is. Ik moet eerst het 'Versterk'-gereedschap gebruiken. Daarna moet ik de 'Draai'-knop indrukken. En tenslotte moet ik de 'Meet'-tool pakken."

Als de AI de verkeerde volgorde kiest, of het verkeerde gereedschap pakt (bijvoorbeeld: "Ik ga een cirkel tekenen" terwijl ik een lijn nodig heb), dan faalt de test.

4. Wat Vonden Ze? (De Resultaten)

De onderzoekers hebben 19 van de slimste AI's ter wereld op deze test laten werken. Het nieuws is niet zo goed als we hoopten:

De "Super-AI's" zakken: Zelfs de allerbeste modellen (zoals Gemini en GPT-4) halen maar een 50%. Dat betekent dat ze bij de helft van de complexe klussen in de war raken.
Ze zijn te lui of te vastgeroest: De AI's proberen vaak dezelfde paar gereedschappen te gebruiken die ze al kennen, zelfs als er een beter gereedschap is. Het is alsof een timmerman altijd een hamer gebruikt, zelfs als hij een schroevendraaier nodig heeft.
Ze plannen slecht: Ze weten niet hoe ze een lange reeks stappen moeten plannen. Ze denken vaak: "Ik doe eerst dit, en dan wel zien we wel." In plaats van: "Ik moet eerst A doen, dan B, en dan C om het juiste antwoord te krijgen."
Open-source vs. Betaalde modellen: De dure, gesloten modellen (zoals van Google en OpenAI) doen het iets beter dan de gratis, open-source modellen, maar zelfs zij hebben moeite met het combineren van veel gereedschappen.

5. De Conclusie: We Hebben Nog Werk

De paper zegt eigenlijk: "We hebben een nieuwe, eerlijke test gemaakt die laat zien dat AI's nog niet klaar zijn om als echte 'agenten' te werken in de echte wereld."

Ze kunnen plaatjes zien, maar ze zijn nog geen meesters in het gebruik van gereedschappen. Ze moeten leren om niet alleen te kijken, maar ook te plannen en de juiste tools te combineren, net als een echte mens dat zou doen.

Kort samengevat:
VTC-Bench is de test die laat zien dat onze slimme AI's nog te veel lijken op een leerling die alleen maar naar de gereedschapskist kijkt, in plaats van een meester die de gereedschappen daadwerkelijk gebruikt om complexe klussen te klaren.

VTC-Bench: Evaluating Agentic Multimodal Models via Compositional Visual Tool Chaining

1. Het Probleem: De "Werkbank" is te leeg

2. De Oplossing: VTC-Bench (De Ultieme Gereedschapskist)

3. Hoe Werkt de Test? (De "Kooktest")

4. Wat Vonden Ze? (De Resultaten)

5. De Conclusie: We Hebben Nog Werk

Titel: VTC-Bench: Evaluatie van Agente Multimodale Modellen via Compositorische Visuele Tool-chaining

1. Het Probleem

2. Methodologie: VTC-Bench

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

VTC-Bench: Evaluating Agentic Multimodal Models via Compositional Visual Tool Chaining

1. Het Probleem: De "Werkbank" is te leeg

2. De Oplossing: VTC-Bench (De Ultieme Gereedschapskist)

3. Hoe Werkt de Test? (De "Kooktest")

4. Wat Vonden Ze? (De Resultaten)

5. De Conclusie: We Hebben Nog Werk

Titel: VTC-Bench: Evaluatie van Agente Multimodale Modellen via Compositorische Visuele Tool-chaining

1. Het Probleem

2. Methodologie: VTC-Bench

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

LABBench2: An Improved Benchmark for AI Systems Performing Biology Research

Linear Programming for Multi-Criteria Assessment with Cardinal and Ordinal Data: A Pessimistic Virtual Gap Analysis

Seven simple steps for log analysis in AI systems

Turing Test on Screen: A Benchmark for Mobile GUI Agent Humanization

AHC: Meta-Learned Adaptive Compression for Continual Object Detection on Memory-Constrained Microcontrollers