Xray-Visual Models: Scaling Vision models on Industry Scale Data

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme bibliotheek hebt, maar in plaats van boeken met duidelijke titels en samenvattingen, zit deze vol met miljoenen losse foto's en video's van mensen die hun dag delen op Facebook en Instagram. De uitdaging? De meeste van deze foto's hebben geen goede beschrijvingen, of ze zijn vol met ruis (zoals "kijk mijn hondje" terwijl het eigenlijk om de achtergrond gaat).

De auteurs van dit paper, een team van Meta AI, hebben een slimme manier bedacht om deze chaotische bibliotheek te ordenen en er een super-intelligente visuele assistent van te maken, genaamd Xray-Visual.

Hier is hoe ze dat deden, vertaald in alledaagse termen:

1. De Grote Schoonmaak (Data Curation)

Stel je voor dat je een berg vuilnis moet sorteren om er de beste schatten uit te halen.

Het probleem: De originele data (meer dan 100 miljard foto's en video's) was erg rommelig. Veel teksten waren onzin, vol met emojis of URL's.
De oplossing: Ze bouwden een geautomatiseerde "reinigingsmachine". Deze machine verwijderde alle ruis, vertaalde alles naar het Engels en zorgde ervoor dat ze niet alleen foto's van honden kregen, maar ook van zeldzame vogels of specifieke gerechten. Ze maakten de dataset evenwichtig, alsof ze een buffet hadden waar elke gerecht even vaak voorkomt, in plaats van dat er alleen maar pizza ligt.

2. De Drie-Traps Raket (Training)

Ze leerden hun model niet in één keer alles. Ze gebruikten een drie-stappenplan, net zoals je een kind leert lezen:

De Gokker (Self-Supervised Learning): Eerst kregen ze de foto's met gaten erin (alsof je een puzzel hebt waarbij 75% van de stukjes ontbreekt). Het model moest de ontbrekende stukjes raden. Hierdoor leerde het de basisstructuur van de wereld begrijpen zonder dat iemand hoefde te vertellen wat er op de foto staat.
De Hashtag-Expert (Semi-Supervised): Vervolgens kregen ze de foto's met de originele hashtags (zoals #zomer, #vakantie). Ze leerden deze woorden koppelen aan de beelden.
De Vertaler (Contrastive Learning): Tenslotte leerden ze het model om foto's en lange, mooie zinnen (beschrijvingen) met elkaar te matchen. Hierbij gebruikten ze een slimme truc: ze vervingen de simpele tekst-vertaler door een LLM (een taalmodel zoals LLaMA).
- De analogie: Stel je voor dat je een simpele woordenboek-vertaler hebt versus een ervaren schrijver. De schrijver (het LLM) begrijpt nuance, humor en context veel beter. Hierdoor kan het model niet alleen zeggen "dit is een hond", maar ook "een vrolijke hond die rent in het gras".

3. Slimme Besparingen (Efficiency)

Meestal moeten zulke slimme modellen enorme rekenkracht gebruiken, alsof ze een vrachtwagen nodig hebben om een fiets te vervoeren.

De truc: Ze gebruikten een techniek genaamd EViT. Stel je voor dat je een foto van 1000 pixels hebt. In plaats van elk pixel te bekijken, kijkt het model alleen naar de belangrijke stukjes en negeert het de saaie stukjes (zoals een blauwe lucht die niks te zeggen heeft).
Het resultaat: Het model is 4 keer sneller en gebruikt 4 keer minder rekenkracht dan de concurrenten, maar is net zo slim of zelfs slimmer. Het is alsof je een Ferrari hebt die net zo snel rijdt als een vrachtwagen, maar met de helft van de brandstof.

4. Waarom is dit zo belangrijk? (De Realiteit)

De meeste AI-modellen zijn getraind op "schone" academische datasets. Ze zijn als een student die alleen in de bibliotheek heeft gezeten: ze doen het perfect op een examen, maar raken in paniek in de echte wereld.

Xray-Visual is getraind op de echte chaos van het internet. Daardoor is het veel robuuster. Als je een foto maakt in slecht licht, met een rare hoek of met een filter, herkent het model het nog steeds.
Ze toonden aan dat bestaande modellen faalden op echte Facebook/Instagram-data, terwijl Xray-Visual daar juist glansde.

Samenvattend

Xray-Visual is een super-receptie voor beelden.

Het heeft miljarden foto's en video's gezien.
Het is opgeleid in drie stappen (puzzelen, hashtags lezen, en diep begrijpen).
Het gebruikt een slimme taal-expert om te begrijpen wat er gebeurt.
Het is extreem efficiënt en kan dus snel werken op je telefoon of in de cloud.

Dit model helpt Meta om je beter te begrijpen, of het nu gaat om het vinden van de juiste reclame voor jou, het zoeken naar een specifieke video in je feed, of het begrijpen van wat er op een foto gebeurt, zelfs als de foto niet perfect is. Het is de brug tussen de ruwe data van het internet en echt slimme visuele intelligentie.

Xray-Visual Models: Scaling Vision models on Industry Scale Data

1. De Grote Schoonmaak (Data Curation)

2. De Drie-Traps Raket (Training)

3. Slimme Besparingen (Efficiency)

4. Waarom is dit zo belangrijk? (De Realiteit)

Samenvattend

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Xray-Visual Models: Scaling Vision models on Industry Scale Data

1. De Grote Schoonmaak (Data Curation)

2. De Drie-Traps Raket (Training)

3. Slimme Besparingen (Efficiency)

4. Waarom is dit zo belangrijk? (De Realiteit)

Samenvattend

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks