Each language version is independently generated for its own context, not a direct translation.
Stel je voor dat je twee soorten slimme robots hebt die foto's moeten herkennen:
- De "Vakman" (CLIP/VLM): Deze robot is gespecialiseerd. Hij heeft een enorme lijst met namen (zoals "hond", "kat", "auto") geleerd. Als je hem een foto geeft, kijkt hij snel of de foto lijkt op één van die namen. Hij is heel goed in het kiezen uit een vooraf vastgestelde lijst, maar als je hem vraagt "Wat zie je hier?" zonder lijst, raakt hij in paniek.
- De "Alleskunner" (LMM): Dit is een moderne, generatieve robot (zoals een chatbot met ogen). Hij kan praten, redeneren en beschrijven wat hij ziet. Hij is geweldig in complexe taken, maar als je hem gewoon vraagt om een foto te classificeren, is hij soms wat slordig. Hij kan bijvoorbeeld zeggen "een dier" in plaats van "een golden retriever".
Het probleem:
Tot nu toe dachten onderzoekers dat de "Vakman" altijd beter was voor het herkennen van objecten. De "Alleskunner" werd gezien als te onnauwkeurig voor simpele taken.
De ontdekking:
De auteurs van dit papier zeggen: "Wacht even! We hebben de 'Alleskunner' verkeerd aangesproken."
Stel je voor dat je de "Alleskunner" een quiz laat doen.
- Situatie A (Zonder voorbeelden): Je zegt: "Wat is dit?" en hij moet raden. Hij doet het slecht.
- Situatie B (Met voorbeelden): Je zegt: "Kijk eerst naar deze drie foto's: dit is een hond, dit is een kat, dit is een auto. Nu, wat zie jij op deze nieuwe foto?"
Het blijkt dat de "Alleskunner" ontzettend goed wordt als je hem een paar voorbeelden geeft. Hij leert in dat moment precies wat je bedoelt met "hond" of "auto". Hij kan zelfs de "Vakman" verslaan als hij genoeg voorbeelden krijgt.
De uitdaging: De "Open Wereld"
Maar er is een probleem. In de echte wereld heb je niet altijd een lijst met namen of voorbeelden met de juiste antwoorden. Soms heb je een stapel foto's en weet je niet eens wat erop staat.
Als je de "Alleskunner" dan vraagt om die stapel foto's te labelen, maakt hij vaak fouten. Hij noemt een "gouden retriever" misschien gewoon "een hond" of verward het met een "wolf".
De oplossing: CIRCLE (De "Zelf-corrigerende cirkel")
De auteurs bedachten een slimme truc, genaamd CIRCLE.
Stel je voor dat je een groep vrienden hebt die samen een puzzel moeten oplossen, maar niemand kent de oplossing.
- Iedereen maakt een eerste gok over wat ze zien (dit noemen we "pseudo-labels").
- In plaats van die gokken te accepteren, laten ze elkaar hun gokken zien.
- Ze kijken naar de foto's van hun vrienden en zeggen: "Hé, jij dacht dat dit een 'hond' was, maar kijk eens naar die andere foto's in de groep... dat lijkt meer op een 'wolf'. Misschien moeten we dat aanpassen."
- Ze passen hun eigen gokken aan op basis van wat de anderen zeggen.
- Ze doen dit een paar keer rondjes (een cirkel).
Door dit iteratieve proces (herhaaldelijk verbeteren) worden de gokken steeds nauwkeuriger. De robot "leert" van zijn eigen fouten en van de context van de andere foto's, zonder dat een mens hoeft in te grijpen.
Het resultaat:
Met deze truc (CIRCLE) wordt de "Alleskunner" (LMM) niet alleen goed in het kiezen uit een lijst, maar zelfs beter dan de gespecialiseerde "Vakman" in het begrijpen van de echte, chaotische wereld.
Samengevat in één zin:
Je kunt een slimme, generatieve AI (zoals een chatbot) laten winnen in het herkennen van objecten door hem niet alleen te laten raden, maar hem een paar voorbeelden te geven en hem te laten "nadenken" over die voorbeelden in een cirkel, waardoor hij zichzelf corrigeert tot hij het perfect begrijpt.
Ontvang papers zoals deze in je inbox
Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.