BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Dit paper introduceert BERT, een nieuw taalmodel dat diepe bidirectionele representaties pre-traint op ongelabelde tekst en vervolgens met minimale aanpassingen state-of-the-art resultaten behaalt op diverse natuurlijke taalverwerkingstaken.

Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova

Gepubliceerd 2018-10-11
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een taal wilt leren. De oude manier was als het lezen van een boek, maar je mag alleen naar het woord kijken dat je net hebt gelezen en alles wat daarvoor kwam. Je mag niet naar de volgende woorden kijken. Dat is lastig, want in de echte wereld begrijpen we zinnen vaak pas als we weten wat er na het woord komt.

De auteurs van dit paper (van Google) hebben een nieuwe, slimme manier bedacht om computers taal te leren. Ze noemen hun uitvinding BERT.

Hier is een uitleg in gewone taal, met een paar leuke vergelijkingen:

1. Het oude probleem: De "Eenzijdige" Lezer

Vroeger leerden computers taal op twee manieren:

  • Van links naar rechts: Ze lazen een zin als een boek, van begin tot eind. Ze wisten niet wat er nog komen ging.
  • Van twee kanten (maar los): Ze lazen van links naar rechts én van rechts naar links, maar ze plakte de twee resultaten daarna maar aan elkaar. Het was alsof je twee mensen hebt die een verhaal vertellen, maar ze praten niet met elkaar.

Dit was niet optimaal. Als je de zin "De man ging naar de..." leest, weet je pas dat het woord "winkel" of "bar" moet zijn als je de rest van de zin kent. De oude modellen moesten raden zonder die context.

2. De BERT-oplossing: De "Alwetende" Lezer

BERT is anders. Het is als een superlezer die een zin niet één voor één leest, maar de hele zin in één keer "in zich opneemt".

Stel je voor dat je een raadsel oplost.

  • Oude manier: Je ziet een gat in een zin: "Ik eet een ..." en je moet raden wat er komt. Je kijkt alleen naar wat er voor staat.
  • BERT-methode: BERT krijgt de zin "Ik eet een [MASK] op een zonnige dag" en moet het woord op de plek van [MASK] raden. Het kijkt naar alles om het gat heen: naar "Ik", "eet", maar ook naar "op een zonnige dag".

Dit noemen ze Masked Language Model. Ze verstoppen willekeurig 15% van de woorden in een zin (zoals een "vul-in-de-gaten" spel) en vragen de computer: "Wat hoorde hier eigenlijk?" Omdat de computer naar links én naar rechts mag kijken om het antwoord te vinden, leert het de taal veel dieper en slimmer.

3. De Tweede Oefening: Het "Vervolgspeurder"-Spel

Naast het invullen van gaten, leerden ze BERT nog één ding: Zin-relaties.
Ze gaven BERT twee zinnen en vroegen: "Is de tweede zin een logisch vervolg op de eerste?"

  • Voorbeeld A: "Ik ging naar de winkel. Ik kocht melk." (Antwoord: Ja, dat klopt).
  • Voorbeeld B: "Ik ging naar de winkel. De pinguïns vliegen niet." (Antwoord: Nee, dat heeft niets met elkaar te maken).

Dit helpt de computer om te begrijpen hoe zinnen met elkaar samenhangen, wat heel belangrijk is voor vragen als: "Wat is het antwoord op deze vraag in dit stuk tekst?"

4. Waarom is dit zo geweldig? (De "Lego" Vergelijking)

Vroeger moest je voor elke nieuwe taak (zoals het beantwoorden van vragen, het analyseren van sentiment in reviews, of het vertalen van tekst) een heel nieuw, complex bouwsel maken.

Met BERT is het anders. Stel je voor dat BERT een grote, universele Lego-bak is die al volledig is opgebouwd.

  • Je hebt deze bak al 4 dagen lang (tijdens het "pre-training" stadium) laten bouwen met miljarden zinnen uit Wikipedia en boeken. De bak is nu supersterk en begrijpt de wereld.
  • Als je nu een nieuwe taak wilt doen (bijvoorbeeld: "Vind het antwoord op deze vraag"), hoef je niet de hele bak opnieuw te bouwen. Je plakt er gewoon één klein deksel op (een extra laagje).
  • Je past de hele bak een beetje aan (dit noemen ze "fine-tuning"), en klaar! Je hebt een wereldkampioen voor die specifieke taak.

Wat hebben ze bereikt?

Door deze methode hebben ze records verbroken op bijna alle belangrijke taaltests:

  • Vragen beantwoorden: Ze werden beter dan mensen op bepaalde moeilijke testen.
  • Zinnen begrijpen: Ze kunnen nu veel beter zien of twee zinnen hetzelfde betekenen of tegenstrijdig zijn.
  • Snelheid: Het kostte hen veel tijd om de grote bak te bouwen (pre-training), maar voor elke nieuwe taak is het nu heel snel en goedkoop om een specialist te maken.

Samenvatting in één zin

BERT is als een student die eerst een jaar lang alle boeken in de bibliotheek heeft gelezen (zonder toetsen), zodat hij de taal perfect begrijpt, en daarna voor elke specifieke vraag in de wereld alleen nog maar een klein beetje hoeft te oefenen om een expert te worden.