Improving neural networks by preventing co-adaptation of feature detectors

Each language version is independently generated for its own context, not a direct translation.

De Kunst van het Vergeten: Hoe je een slimme computer dwingt om slimmer te worden

Stel je voor dat je een groep studenten voorbereidt op een heel moeilijk examen. Je hebt een kleine klas (weinig trainingsdata) en je wilt dat ze het examen halen (goed presteren op nieuwe, onbekende vragen).

Als je deze studenten gewoon alles laat studeren, gebeuren er twee dingen:

Ze leren de antwoorden van de oefenexamens uit hun hoofd.
Ze beginnen te "knoopen" met elkaar. Student A zegt: "Ik weet het antwoord alleen als Student B ook zijn hand opsteekt." Student B zegt: "Ik weet het alleen als Student C een knipoog geeft."

Dit noemen we overfitting (of in het Nederlands: te specifiek leren). Ze zijn zo goed in het samenwerken op deze specifieke oefenexamens, dat ze faals op het echte examen waar die specifieke knipoogjes niet zijn. Ze hebben zich te veel op elkaar afgestemd (co-adaptatie).

De Oplossing: Het "Dropout"-Spel

De auteurs van dit paper (waaronder de legendarische Geoffrey Hinton) bedachten een slimme truc om dit te voorkomen. Ze noemen het Dropout.

Stel je voor dat je tijdens het studeren elke dag willekeurig de helft van de studenten uit de klas laat vertrekken.

Soms is Student B weg. Dan moet Student A het antwoord toch vinden, zonder op B te kunnen rekenen.
Soms is Student C weg. Dan moet Student B een andere manier vinden om het antwoord te vinden.

Door dit te doen, leren de studenten niet om op elkaar te vertrouwen, maar leren ze onafhankelijke, sterke vaardigheden. Ze leren een concept zo goed dat ze het kunnen uitleggen, zelfs als hun beste vrienden er niet zijn.

In het paper wordt dit toegepast op neuronale netwerken (computerhersenen). Tijdens het trainen worden willekeurig de helft van de "neuronen" (de kleine rekenunits) tijdelijk uitgeschakeld.

Het resultaat: Het netwerk kan niet meer "knoopen" met specifieke groepjes neuronen. Elke neuron moet een nuttige eigenschap leren die in elke situatie werkt.
De metafoor: Het is alsof je een orkest laat repeteren waarbij elke dag willekeurig de helft van de muzikanten weg is. De overgebleven musici moeten dan zo goed spelen dat ze het stuk toch perfect kunnen uitvoeren, zonder te wachten op de anderen.

Waarom werkt dit zo goed?

Het is een superkrachtige "Ensemble":
Normaal gesproken zou je om een goede voorspelling te krijgen, honderden verschillende netwerken moeten trainen en hun antwoorden middelen. Dat is extreem duur en langzaam.
Met Dropout train je in feite duizenden verschillende netwerken tegelijk, allemaal in één enkel netwerk. Omdat ze allemaal dezelfde gewichten delen, is het snel. Bij het testen (het examen) doe je alsof alle studenten weer terug zijn, maar je past hun "stemkracht" iets aan. Het is alsof je de gemiddelde mening van al die duizenden mogelijke netwerken neemt.
Het voorkomt "slapen" op je lauweren:
Zonder Dropout zouden de neuronen kunnen "slapen" en wachten tot een ander neuron de zware klus doet. Met Dropout moeten ze allemaal hard werken.

De Bewijzen: Van cijfers tot spraak

De auteurs testten dit op verschillende beroemde puzzels:

Handgeschreven cijfers (MNIST): Ze verbeterden de score aanzienlijk. Het netwerk werd beter in het herkennen van een "7" of een "3", zelfs als de schrijfstijl anders was.
Spraakherkenning (TIMIT): Het systeem leerde beter spreken en verstaan, zelfs met een kleine woordenschat.
Objectherkenning (CIFAR-10 en ImageNet): Dit is het moeilijkste deel. Het gaat om het herkennen van honden, auto's en vogels op foto's.
- Op de ImageNet-wedstrijd (een soort Olympiade voor beeldherkenning) haalde hun systeem een recordprestatie. Ze konden duizenden objecten herkennen met een veel lagere foutenmarge dan ooit tevoren.

De "Gemiddelde Netwerk"-Truc

Hoe doe je dit op het examen? Je schakelt niemand meer uit. Maar omdat er nu alle neuronen aan staan (terwijl er tijdens het trainen maar de helft aan stond), zou het netwerk te "luid" worden.
De oplossing is simpel: Halveer de uitgangssignalen.
Stel je voor dat je een koor hebt. Tijdens de repetitie zong de helft van de zangers. Nu zingen ze allemaal. Om het volume hetzelfde te houden, zingen ze allemaal een beetje zachter. Dit heet het "gemiddelde netwerk" en het werkt bijna perfect.

Een grappige vergelijking met de natuur

Het paper maakt een mooie vergelijking met evolutie en seks.
Waarom hebben we seks? Volgens de theorie in het paper is het omdat seks genen "opbreekt". Als twee ouders hun genen mengen, worden sets van "samenwerkende genen" verbroken.
Dit zorgt ervoor dat een organisme niet afhankelijk wordt van één specifieke, fragiele combinatie van genen. Het zorgt voor robustheid. Als de omgeving verandert, kan het organisme overleven omdat het op verschillende manieren kan werken.
Dropout doet precies hetzelfde voor computers: het breekt de te sterke afhankelijkheden tussen neuronen, zodat het netwerk robuust wordt en niet faalt als de situatie iets verandert.

Conclusie

Kortom: Dropout is een manier om computers te dwingen om niet te "leren uit het hoofd" of te "knoopen" met specifieke vrienden, maar om echte, robuuste kennis te ontwikkelen. Door willekeurig delen van het brein uit te schakelen tijdens het leren, wordt het eindresultaat veel slimmer en betrouwbaarder. Het is een van de belangrijkste ontdekkingen geweest in de geschiedenis van kunstmatige intelligentie.

Improving neural networks by preventing co-adaptation of feature detectors

De Kunst van het Vergeten: Hoe je een slimme computer dwingt om slimmer te worden

De Oplossing: Het "Dropout"-Spel

Waarom werkt dit zo goed?

De Bewijzen: Van cijfers tot spraak

De "Gemiddelde Netwerk"-Truc

Een grappige vergelijking met de natuur

Conclusie

Probleemstelling: Overfitting in Neuronale Netwerken

Methodologie: Dropout

Belangrijkste Bijdragen

Resultaten op Benchmark Datasets

Significantie en Impact