Each language version is independently generated for its own context, not a direct translation.
Stel je voor dat je een drone wilt leren om acrobatische trucs te doen, zoals een perfecte loop-de-loop of een verticale acht. Vroeger was dit een enorme klus voor programmeurs. Je moest als een strenge leraar elke beweging in detail uitleggen met een lijstje regels: "Als de drone te snel draait, krijg je een straf. Als hij te laag vliegt, krijg je een straf." Dit noemen we een beloningssysteem.
Het probleem is dat dit heel lastig is. Net als bij het beoordelen van een dansoptreden of een schilderij, is "mooi" of "goed" vaak subjectief. Een programmeur kan niet precies in woorden vatten waarom een bepaalde loop-de-loop er "strakker" uitziet dan een andere. In dit onderzoek ontdekten ze dat hun handgemaakte regels maar in 60% van de gevallen overeenkwamen met wat een mens echt mooi vond. De andere 40% was gewoon verkeerd.
De Oplossing: Leer van Meningen, niet van Regels
De auteurs van dit paper (Colin Merk, Ismail Geles en hun team) hebben een slimme nieuwe manier bedacht, genaamd REC. In plaats van de drone te vertellen wat hij moet doen, laten ze hem leren van meningen.
Stel je voor dat je een jonge danser hebt die nog nooit heeft gedanst.
- De oude manier: Je geeft hem een boek met 1000 regels over hoe hij zijn armen moet bewegen.
- De nieuwe manier (REC): Je laat hem twee dansjes doen. Vervolgens vraag je aan een toeschouwer: "Welke vond je mooier?" De drone kijkt naar het antwoord, probeert het, en vraagt weer: "Welke was nu beter?" Zo leert hij langzaam wat "mooi" is, zonder dat iemand de regels hoeft op te schrijven.
Het Geniale Detail: De "Onzekerheids-Ensemble"
Maar er zit een addertje onder het gras. Soms zijn twee dansjes bijna even goed. Dan is het antwoord van de toeschouwer willekeurig of onzeker. Als je een computer dat vertelt, kan hij in de war raken en denken dat hij het allemaal al perfect weet, terwijl hij eigenlijk niets begrijpt.
Hier komt de REC-methode om de hoek kijken. Ze gebruiken een slim trucje dat we een "Ensemble van Twijfelaars" kunnen noemen.
Stel je voor dat je niet één leraar hebt, maar een klas van 5 leraren die samen een oordeel vellen.
- Ze kijken allebei naar twee dansjes.
- Als ze het eens zijn ("Dit is duidelijk beter!"), dan is de drone zeker van zijn zaak.
- Maar als ze het oneens zijn ("Ik vind A beter, maar ik vind B ook wel leuk"), dan weet de drone: "Aha, hier ben ik nog niet zeker van!"
In plaats van deze onzekerheid te negeren, gebruikt de drone deze twijfel als een kompas. Hij denkt: "Omdat mijn leraren het niet eens zijn over dit stukje, moet ik daar nog eens gaan oefenen!" Dit zorgt ervoor dat de drone niet vastloopt in een slechte routine, maar blijft zoeken naar de echte beste manier om te vliegen.
Wat hebben ze bereikt?
De onderzoekers hebben dit getest in een computerwereld en vervolgens op een echte drone van 220 gram (ongeveer het gewicht van een paar appels).
- Resultaat: De drone die leerde van meningen met hun nieuwe "Onzekerheids-truc" (REC), deed het 88% zo goed als de drone die werd geleid door de perfecte, maar onmogelijke, handgemaakte regels. De oude methode (zonder de twijfel-truc) haalde maar 55%.
- De Toekomst: Ze leerden de drone zelfs een nieuwe truc (een verticale acht) die ze nog nooit eerder hadden bedacht, puur door te zeggen: "Nee, die was niet mooi, probeer het anders." Geen enkele regel werd hiervoor geschreven.
Waarom is dit belangrijk?
Dit onderzoek laat zien dat we robots niet hoeven te dwingen met complexe lijsten van regels. We kunnen ze juist laten leren door te vragen: "Wat vind jij mooier?"
Het is alsof we stoppen met het schrijven van een strikt handboek voor een chef-kok, en in plaats daarvan gewoon zeggen: "Probeer deze twee gerechten, en vertel me welke je lekkerder vindt." Uiteindelijk wordt de kok (of de drone) hierdoor creatiever, flexibeler en beter in het doen van dingen die moeilijk in woorden te vatten zijn, zoals acrobatiek.
Kortom: REC is de slimme manier om robots te leren vliegen door te luisteren naar wat mensen vinden, en slim om te gaan met de twijfel die daarbij hoort.
Ontvang papers zoals deze in je inbox
Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.