Are Multimodal Large Language Models Good Annotators for Image Tagging?

Each language version is independently generated for its own context, not a direct translation.

Titel: Kunnen AI's de nieuwe "etiketteerders" worden? (En hoe TagLLM hen slim maakt)

Stel je voor dat je een enorme berg foto's hebt. Je wilt op elke foto een lijstje maken van alles wat erop te zien is: een hond, een auto, een boom, een regenjas. Dit noemen we "image tagging" (afbeelding-etiketteren).

Vroeger moesten duizenden mensen dit handmatig doen. Ze keken naar de foto's en schreven de namen op. Dit is extreem duur, tijdrovend en saai. Nu hebben we super-slimme AI's (Multimodal Large Language Models, of MLLMs) die naar foto's kunnen kijken en praten. De grote vraag is: Kunnen deze AI's de mensen vervangen?

Dit paper (een wetenschappelijk artikel) onderzoekt precies dat en biedt een slimme oplossing genaamd TagLLM. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De AI is slim, maar soms een beetje "dwaas"

De auteurs hebben gekeken of AI's foto's net zo goed kunnen etiketteren als mensen.

Het goede nieuws: AI's zijn ongelooflijk snel en goedkoop. Ze kosten bijna niets in vergelijking met een team van mensen.
Het slechte nieuws: Als je de AI gewoon vraagt "Wat zie je hier?", maakt hij soms rare fouten. Hij noemt dingen die er niet zijn (hallucinaties) of mist kleine details. Zijn kwaliteit zit ergens tussen de 50% en 80% van wat een mens doet.

De analogie: Stel je voor dat je een AI vraagt om een lijst te maken van de ingrediënten in een soep.

Als je zegt: "Vertel me wat erin zit", noemt hij misschien "kip" terwijl er alleen kippenbouillon in zit, of hij vergeet de peterselie.
Als je zegt: "Is er kip in?", zegt hij "Ja" of "Nee". Dit is nauwkeuriger, maar als je 100 ingrediënten moet checken, moet je 100 keer vragen. Dat duurt eeuwig.

2. De Oplossing: TagLLM (De Slimme Chef)

De auteurs hebben een nieuw systeem bedacht, TagLLM, dat werkt als een slimme chef-kok met twee stappen. In plaats van de AI één grote vraag te stellen, laten ze haar in twee fases werken.

Fase 1: De "Breedte" (Het Net Uitzetten)

In de eerste stap gebruiken ze een trucje genaamd "Divide-and-Conquer" (Verdeel en heers).

Hoe het werkt: In plaats van de AI te vragen naar alle 1000 mogelijke dingen tegelijk (wat haar in de war brengt), verdelen ze de lijst in kleine groepjes. Bijvoorbeeld: "Kijk eens naar alle dieren" en "Kijk eens naar alle voertuigen".
De Analogie: Het is alsof je een grote zoektocht in een bos doet. In plaats van te roepen "Is er een beer, een eekhoorn, een vos, een wolf...?", vraag je eerst: "Zie je een dier?" en daarna: "Zie je een voertuig?".
Het resultaat: De AI maakt een korte lijst met mogelijke dingen. Ze mist misschien niets, maar ze heeft ook een paar dingen op de lijst die er niet zijn. Maar dat is prima, want de lijst is nu veel kleiner dan de hele wereld.

Fase 2: De "Diepte" (De Controle)

Nu komt de tweede stap: Concept-Afstemming.

Het probleem: Soms denkt de AI dat een "hond" een "wolf" is, of dat een "tafel" een "bank" is, omdat de namen op elkaar lijken. De AI verward de naam met het beeld.
De oplossing: TagLLM gebruikt een tweede, nog slimmere AI (zoals ChatGPT-4o) om de namen te "verduidelijken". Ze vragen: "Bedoel je met 'tafel' echt een tafel, of misschien een bureau? En is het zeker geen bank?"
De Analogie: Stel je voor dat je een lijst hebt met "appels". De AI twijfelt of een "rode appel" wel echt een appel is of misschien een tomaat. De tweede AI fungeert als een strenge keurmeester die zegt: "Nee, dit is een tomaat, haal het van de lijst. Dit is een appel, laat het staan."
Het resultaat: De lijst wordt schoongeveegd. De fouten worden verwijderd en de echte dingen blijven over.

3. Wat levert dit op?

De resultaten zijn indrukwekkend:

Kosten: De kosten voor het etiketteren dalen tot een duizendste van wat mensen kosten. (Vooral omdat het alleen nog maar gaat om de kosten van de computerrekenkracht, wat heel goedkoop is).
Kwaliteit: De AI's die getraind worden met deze "AI-lijstjes" werken bijna net zo goed als die met menselijke lijstjes. Ze halen ongeveer 90% tot 95% van het niveau van mensen.
Snelheid: Het proces is razendsnel.

Conclusie

Dit paper zegt eigenlijk: "Ja, AI's kunnen mensen vervangen bij het etiketteren van foto's, maar je moet ze niet zomaar laten werken."

Je moet ze een slimme structuur geven: eerst een breed net uitzetten om niets te missen, en daarna een strenge controle laten doen om de fouten eruit te halen. Met TagLLM doen ze precies dat. Het is alsof je een team van snelle, goedkope stagiairs hebt die eerst een ruwe schets maken, en dan een ervaren meester die de laatste details perfect maakt.

Het einde? We kunnen binnenkort duizenden foto's etiketteren voor een fractie van de prijs, zonder dat de kwaliteit in de war raakt.

Are Multimodal Large Language Models Good Annotators for Image Tagging?

1. Het Probleem: De AI is slim, maar soms een beetje "dwaas"

2. De Oplossing: TagLLM (De Slimme Chef)

Fase 1: De "Breedte" (Het Net Uitzetten)

Fase 2: De "Diepte" (De Controle)

3. Wat levert dit op?

Conclusie

Probleemstelling

Methodologie: Het TagLLM Framework

1. Tweestaps-pijplijn

2. Prompt Engineering Analyse

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Are Multimodal Large Language Models Good Annotators for Image Tagging?

1. Het Probleem: De AI is slim, maar soms een beetje "dwaas"

2. De Oplossing: TagLLM (De Slimme Chef)

Fase 1: De "Breedte" (Het Net Uitzetten)

Fase 2: De "Diepte" (De Controle)

3. Wat levert dit op?

Conclusie

Probleemstelling

Methodologie: Het TagLLM Framework

1. Tweestaps-pijplijn

2. Prompt Engineering Analyse

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation