Each language version is independently generated for its own context, not a direct translation.
Stel je voor dat je een taal wilt leren die alleen door mensen wordt gesproken die in een heel specifiek land wonen (laten we dat "Beenderenland" noemen). Maar jij bent een meester-vertaler die alleen maar ervaring heeft met het vertalen van boeken in een heel ander land, "Foto-land".
Normaal gesproken zou je denken: "Oh nee, ik kan die taal niet vertalen, mijn woordenboek (mijn model) is gemaakt voor foto's, niet voor beenderen."
Dat is precies het probleem waar deze wetenschappers mee te maken kregen. Ze wilden de krachtige, slimme kunstmatige intelligentie gebruiken die we hebben getraind op miljarden foto's (zoals het herkennen van katten of auto's), om menselijke bewegingen te begrijpen op basis van skeletten (alleen de lijntjes en puntjes van een mens).
Het probleem? Skeletten zijn niet als foto's. Een foto is een dicht, kleurrijk vlak. Een skelet is een paar losse puntjes in de lucht. Je kunt een foto niet zomaar in een skelet veranderen, en je kunt een skelet niet zomaar in een foto gieten zonder dat het er raar uitziet.
De Oplossing: "Skelet-naar-Foto" (S2I)
De auteurs van dit paper hebben een slimme truc bedacht, die ze Skelet-naar-Foto-codering (S2I) noemen.
Stel je voor dat je een danseres hebt die beweegt. In de computerwereld is dit een reeks van puntjes die door de tijd heen bewegen.
- De Opdeling: De wetenschappers nemen dit skelet en verdelen het in vijf logische stukken, net zoals je een pop zou inpakken: romp, linkerarm, rechterarm, linkerbeen en rechterbeen.
- De Vertaling: Ze nemen de bewegingen van deze vijf stukken en "plakken" ze naast elkaar op een canvas, alsof ze een schilderij maken.
- De X-richting (links/rechts) wordt de rode kleur.
- De Y-richting (hoog/laag) wordt de groene kleur.
- De Z-richting (voor/achter) wordt de blauwe kleur.
- Het Resultaat: Plotseling ziet de computer niet meer een raar skelet van puntjes, maar een kleurrijk, abstract schilderij dat eruitziet als een foto.
Waarom is dit zo geweldig?
Nu kunnen ze die super-slimme "Foto-vertaler" (het model dat getraind is op miljarden foto's) gewoon op dit nieuwe "skelet-schilderij" laten werken.
- Vroeger: Je moest voor elk nieuw type skelet (sommige hebben 20 puntjes, andere 25, andere 13) een heel nieuw, speciaal model bouwen. Dat was als het bouwen van een nieuwe auto voor elke nieuwe weg.
- Nu: Omdat ze het skelet omgezet hebben in een "foto", kunnen ze één en dezelfde krachtige auto gebruiken voor alle wegen. Het maakt niet uit of het skelet 13 of 25 puntjes heeft; het wordt allemaal omgezet in hetzelfde soort "schilderij".
De Analoge Vergelijking
- Het oude probleem: Het is alsof je probeert een boek in het Chinees te lezen met een vertaler die alleen Frans spreekt. Je moet eerst het hele boek handmatig herschrijven naar het Frans, en als het boek een andere indeling heeft, faalt je vertaler.
- Deze nieuwe methode: Het is alsof je het Chinese boek eerst in een pictogram omzet. Omdat de vertaler (het AI-model) al duizenden pictogrammen heeft gezien, begrijpt hij het verhaal direct, zonder dat je de indeling van het boek hoeft aan te passen.
Wat levert dit op?
- Minder werk: Je hoeft geen nieuwe, dure modellen te bouwen voor elke nieuwe dataset.
- Beter leren: Omdat het model al zo slim is (het heeft al miljoenen foto's gezien), leert het de bewegingen van mensen veel sneller en beter dan als je het vanaf nul zou laten leren.
- Alles-in-één: Je kunt nu verschillende datasets (sommige met veel puntjes, sommige met weinig) door elkaar heen gebruiken om het model nog slimmer te maken. Het is alsof je een student laat studeren uit boeken van verschillende scholen, omdat je ze allemaal in hetzelfde formaat hebt omgezet.
Kortom: Ze hebben een brug gebouwd tussen de wereld van foto's en de wereld van skeletten. Door skeletten eruit te laten zien als foto's, kunnen ze de slimste "foto-bots" van de wereld gebruiken om te begrijpen hoe mensen bewegen, rennen en dansen.