VIVECaption: A Split Approach to Caption Quality Improvement

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer getalenteerde kunstenaar hebt die fantastische afbeeldingen kan maken, maar die kunstenaar heeft een probleem: hij luistert niet goed naar wat je zegt. Als je hem vraagt om "Een meisje met een blauwe jas in een bos" te tekenen, tekent hij misschien een meisje met een rode jas, of een jongen, of misschien zelfs een monster dat helemaal niet in je opdracht zat.

Dit is precies het probleem dat Adobe-onderzoekers (Varun, Baqiao en Haoran) hebben opgelost met hun nieuwe methode, VIVECaption.

Hier is hoe het werkt, vertaald naar simpele taal:

1. Het Probleem: De "Hallucinerende" Vertaler

Vroeger gebruikten computers (zogenaamde AI-modellen) om afbeeldingen te beschrijven met tekst. Deze computers zijn slim, maar ze hebben een slechte gewoonte: ze hallucineren.

Voorbeeld: Als je een foto toont van een meisje genaamd "Ellie", zegt de computer soms: "Dit is Victoria."
Het gevolg: Als je een kunstenaar (een AI die plaatjes maakt) leert op basis van deze verkeerde beschrijvingen, zal die kunstenaar in de toekomst ook "Victoria" tekenen als je "Ellie" vraagt. De hele keten gaat fout.

2. De Oplossing: Twee Kanten aan de Taak

De auteurs zeggen: "Laten we dit niet proberen op te lossen met één grote, slome computer. Laten we het op twee manieren aanpakken, zoals een team van een detective en een schrijver."

Kant A: De "Gouden Standaard" (De Detective)

Stel je voor dat je een groepje mensen hebt die heel goed zijn in het herkennen van gezichten. Maar eerst moeten ze leren wie wie is.

De Gouden Dataset: De onderzoekers maakten een klein, perfect verzameld boekje met foto's van alle karakters uit een korte film, waarbij ze precies wisten wie er op elke foto stond. Dit noemen ze een "gouden standaard".
Stratified Sampling (De Slimme Keuze): In plaats van willekeurig foto's te kiezen, keken ze eerst welke foto's op elkaar leken (bijvoorbeeld: allemaal foto's van een donker bos) en namen ze er één uit elke groep. Zo zorgden ze dat hun "leermateriaal" eerlijk verdeeld was.
Het Resultaat: Ze trainden een kleine, snelle computer (een "detective") om alleen maar te kijken: "Wie staat er op deze foto? Is het Ellie of Victoria?" Deze detective werd zo getraind dat hij bijna nooit een fout maakt.

Kant B: De Schrijver (De Schrijver)

Nu hebben ze een perfecte detective, maar die kan niet schrijven. Ze hebben ook een schrijver nodig die de foto beschrijft.

De Samenwerking: De detective kijkt eerst naar de foto en zegt: "Ik zie Ellie." Hij geeft dit antwoord door aan de schrijver.
De Schrijver: De schrijver krijgt nu de opdracht: "Beschrijf de foto, maar vergeet niet: er staat Ellie op." Omdat de schrijver weet wie er precies staat, hoeft hij niet te raden. Hij kan zich focussen op de details: "Ellie kijkt bezorgd, ze heeft een blauwe jas aan..."

3. Waarom werkt dit zo goed?

In het verleden probeerden ze één grote computer om zowel te kijken als te schrijven. Dat werkte niet goed; de computer raakte in de war en bedacht dingen.

Met VIVECaption doen ze het als een productielijn:

Stap 1: Een gespecialiseerde detector (de detective) kijkt alleen naar de namen van de personages. Omdat hij specifiek daarvoor is getraind, is hij supergoed.
Stap 2: Een schrijver (de AI) gebruikt die juiste namen om een mooie, gestructureerde beschrijving te maken.

Het is alsof je een chef-kok (de schrijver) vraagt om een gerecht te maken. Als je hem zegt "Gebruik verse aardbeien", maakt hij een taart. Als je per ongeluk zegt "Gebruik aardbeien" (en er staan eigenlijk appels op de plank), maakt hij een slechte taart. Door eerst een keurmeester (de detective) te laten controleren of het echt aardbeien zijn, weet de chef-kok precies wat hij moet doen.

4. De Belangrijkste Les: Kwaliteit boven Alles

De onderzoekers tonen aan dat het niet nodig is om de allerduurste, grootste computers te gebruiken. Als je een klein, goed getraind model hebt dat weet wie er op de foto staat, en je koppelt dat aan een schrijver, krijg je veel betere resultaten dan met een enorme, ongetrainde computer.

Kort samengevat:
VIVECaption is een slimme manier om AI te leren om afbeeldingen beter te beschrijven. Ze doen dit door eerst een "experte" te trainen om personages te herkennen, en die informatie door te geven aan een "schrijver". Hierdoor ontstaan er geen meer verwarrende beschrijvingen, en kunnen toekomstige AI's (die plaatjes maken) eindelijk doen wat je van ze vraagt: precies datgene tekenen wat je in gedachten hebt.

Het is een beetje als het verbeteren van een recept: als je de ingrediëntenlijst (de beschrijving) fout hebt, wordt het gerecht (het plaatje) nooit goed. VIVECaption zorgt ervoor dat de lijst perfect klopt.

Each language version is independently generated for its own context, not a direct translation.

Titel: VIVECaption: Een Gesplitste Aanpak voor Verbetering van Caption-kwaliteit

Auteurs: Varun Ananth, Baqiao Liu, Haoran Cai (Adobe Inc.)

1. Het Probleem

De kwaliteit van bijschriften (captions) is een kritieke bottleneck bij het trainen van hoogwaardige generatieve modellen voor tekst-naar-beeld (T2I) en tekst-naar-video (T2V). Hoewel Visuele Taalmodellen (VLMs) vaak worden ingezet om bijschriften te genereren op basis van visuele data, lijden ze aan ernstige tekortkomingen:

Hallucinaties: Modellen genereren objecten of personages die niet in het beeld staan, gebaseerd op statistische aannames in plaats van visueel bewijs.
Slechte compositie-redenatie: Ze kunnen de relaties tussen objecten in een scène niet correct beschrijven.
Beperkt fijnmazig inzicht: Subtiele details (zoals tekst in een afbeelding) worden vaak gemist.

Dit leidt tot slecht uitgelijnde beeld-caption-paren, wat de prestaties van downstream-modellen verslechtert. Daarnaast is er een groeiende vraag naar "vegan" trainingsdata (data zonder auteursrechtelijk beschermde, van het internet gescrapte inhoud), wat de noodzaak verhoogt om hoogwaardige, zelf gegenereerde datasets te creëren zonder afhankelijk te zijn van bestaande webdata.

2. Methodologie: De VIVECaption Aanpak

Het paper introduceert VIVECaption, een systematische, tweezijdige aanpak om de kwaliteit van bijschriften te verbeteren. De methode bestaat uit twee hoofdcomponenten:

A. Taxonomie van Evaluatiemetrics

De auteurs stellen een classificatie van metrics voor om caption-kwaliteit te meten:

Universele Metrics (Universal):
- Model-vrij: Gebaseerd op algemene regels (bijv. lengte van de caption, structuur).
- Model-gebaseerd: Gebruikt een referentiemodel (bijv. CLIP-score) om de algehele overeenkomst te meten.
- Doel: Snelle "gezondheidscontrole" van datasets en holistische evaluatie.
Instance-gegronde Metrics (Instance-grounded):
- Vereisen een specifieke ground-truth referentie ( $r$ ) per beeld-caption paar (bijv. de exacte lijst van personages in een afbeelding).
- Doel: Dit zijn de beste metrics voor optimalisatie via Supervised Finetuning (SFT), omdat ze directe leerdoelen bieden.

B. Het Tweestaps Proces

De kern van de oplossing is een pipeline die de taak splitst in twee gespecialiseerde stappen:

Zij A: Creatie van een "Gold-Standard" Dataset
- Om instance-gegronde metrics te kunnen gebruiken, moet een dataset met ground-truth labels worden gecreëerd.
- Strategie: In plaats van willekeurig te kiezen, gebruiken de auteurs stratified sampling gebaseerd op clustering. Ze embedden alle frames van een open-source film ("Sprite Fright") met CLIP, clusteren deze met HDBSCAN, en selecteren één frame per cluster. Dit zorgt voor een evenwichtige vertegenwoordiging van verschillende scènes en personages.
- Menselijke annotatie (via LabelStudio) zorgt voor de ground-truth lijst van personages per afbeelding.
Zij B: Model Alignering
- Context Alignering (In-Context Learning): Het gebruik van voorbeelden van personages en hun beschrijvingen in de prompt om het model te helpen de specifieke terminologie en visuele kenmerken te begrijpen.
- Parameter Alignering (SFT):
  - Een tweestaps pipeline wordt opgezet:
    1. Een gespecialiseerd model (Qwen2.5-VL) wordt gefinetuned om alleen personages te detecteren en te identificeren op basis van de gold-standard dataset.
    2. Een tweede, krachtiger model (InternVL3-38B) gebruikt de output van de eerste stap (de lijst van geïdentificeerde personages) om een gestructureerde caption te genereren.
  - Het finetunen gebeurt met Parameter Efficient Fine-Tuning (PEFT/LoRA) op open-source modellen, wat kostenefficiënt is.

3. Belangrijkste Resultaten

De experimenten werden uitgevoerd op open-source data en modellen (Qwen2.5-VL en InternVL3).

Verbetering in Personage Detectie:
- Gefinetunde modellen presteerden aanzienlijk beter dan "off-the-shelf" modellen op instance-gegronde metrics (Precision, Recall, MacroF1).
- Een verrassend resultaat: Een gefinetund 3B-parameter model presteerde vergelijkbaar met of beter dan een niet-gefinetund 7B of 32B model. Dit toont aan dat finetuning kleine modellen "zwaarder" laat wegen.
- De fouten (mistakes) daalden drastisch (bijv. van 2.05 naar 0.34 voor het 3B model).
Holistische Caption Kwaliteit:
- Het gebruik van een gefinetund detectiemodel in de pipeline verbeterde de algehele caption-kwaliteit, zelfs voor onderdelen die niet direct met personages te maken hadden (zoals achtergrond en scène).
- Evaluatie met een SOTA-model (Gemini-2.5-Pro) toonde significante verbeteringen in scores voor "Characters", "Salient Objects" en "Scene".
- Een gepaarde t-test bevestigde dat deze verbeteringen statistisch significant waren (p-waarden < 0.01 na Bonferroni-correctie).
Vergelijking met Baselines:
- Een pipeline zonder personagedetectie (alleen context geven) presteerde slechter dan de tweestaps aanpak. Dit bevestigt dat het ontladen van de detectietaken naar een gespecialiseerd model de algehele nauwkeurigheid verhoogt en hallucinaties reduceert.

4. Bijdragen en Significatie

De paper levert de volgende belangrijke bijdragen aan het veld van GenAI-engineering:

Praktische Oplossing voor "Vegan" Data: Het biedt een reproduceerbare methode voor teams om hoogwaardige, auteursrechtvrije trainingsdata te creëren zonder afhankelijk te zijn van web-scraping.
Validatie van Gesplitste Pipelines: Het bewijst dat het splitsen van complexe taken (detectie vs. beschrijving) in gespecialiseerde modellen, gecombineerd met SFT, superieur is aan het gebruik van één groot model voor alles. Dit vermindert de cognitieve last op het generatieve model en verhoogt de nauwkeurigheid.
Efficiëntie: De methode is kostenefficiënt; kleine modellen (3B/7B) kunnen na PEFT-finetuning presteren op het niveau van veel grotere modellen, wat trainingskosten en tijd drastisch verlaagt.
Taxonomie voor Evaluatie: De voorgestelde indeling van metrics (universeel vs. instance-gegronden) helpt teams om de juiste evaluatiestrategieën te kiezen voor hun specifieke doelen.

Conclusie:
VIVECaption demonstreert dat datakwaliteit, en specifiek de uitlijning tussen beeld en caption, cruciaal is voor de prestaties van generatieve modellen. Door een gestructureerde aanpak te gebruiken die bestaat uit een zorgvuldig samengestelde gold-standard dataset en een gesplitste model-pipeline, kunnen teams hallucinaties minimaliseren en de algehele kwaliteit van hun T2I/T2V-modellen significant verbeteren, zelfs met beperkte resources.