Each language version is independently generated for its own context, not a direct translation.
Stel je voor dat je samen met duizenden vreemden over de hele wereld een gigantisch, slim computerbrein (een kunstmatige intelligentie) wilt bouwen. Iedereen levert een stukje rekenkracht in. Dit is gedecentraliseerd trainen. Het klinkt geweldig: iedereen helpt, niemand hoeft een dure supercomputer te kopen.
Maar er zit een groot probleem in: wat als er boeven tussen zitten?
In dit artikel presenteren de onderzoekers van Pluralis Research een slimme oplossing genaamd SENTINEL. Laten we het uitleggen met een paar alledaagse metaforen.
1. Het Probleem: De Gebroken Pijpleiding
Stel je voor dat het bouwen van dit brein niet gebeurt door iedereen die tegelijkertijd aan hetzelfde plaatje werkt (zoals bij een gewone puzzel), maar als een productielijn.
- Stap 1: Werknemer A maakt het eerste stukje van het plaatje en geeft het door.
- Stap 2: Werknemer B pakt dat stukje, werkt er verder aan en geeft het door.
- Stap 3: Werknemer C doet hetzelfde, enzovoort.
Dit heet Pipeline Parallelism. Het is heel efficiënt, maar het is ook kwetsbaar. Als Werknemer A (die een boef is) een vervalst stukje plaatje doorgeeft, dan werkt Werknemer B op basis van die leugen. Werknemer C werkt dan weer op basis van de leugen van B. De fout groeit als een sneeuwbal en op het einde is het hele plaatje onherkenbaar.
Oude methoden om boeven te vangen (die werken bij andere soorten computertraining) kijken alleen naar het eindresultaat van iedereen. Maar bij deze productielijn is er geen eindresultaat om te vergelijken voordat het te laat is. De boef kan de hele lijn verpesten voordat iemand het merkt.
2. De Oplossing: De Wacht (SENTINEL)
SENTINEL is als een slimme, waakzame wacht die tussen elke stap van de productielijn staat.
In plaats van dat de werknemers elkaar blindelings vertrouwen, kijkt deze wacht (de "verifier") naar wat er wordt doorgegeven. Maar hier is het slimme deel: de wacht doet dit niet door alles zelf opnieuw te berekenen (dat zou te lang duren en te veel energie kosten).
Hoe werkt het dan?
De wacht onthoudt hoe de producten er normaal uitzien.
- Stel, normaal gesproken is het stukje plaatje dat doorgegeven wordt altijd een beetje roze en blauw.
- De wacht houdt een gemiddelde bij van wat er de afgelopen tijd is gepasseerd (dit noemen ze een "Exponential Moving Average" of EMA).
- Als Werknemer B plotseling een stukje doorgeeft dat felgroen en paars is, zegt de wacht: "Hé, dat past niet bij het patroon dat we kennen! Dit is verdacht!"
3. De "Sneeuwbaleffect" en de "Vergeving"
Er is nog een slimme truc in SENTINEL. Soms is een fout niet de schuld van de huidige werknemer, maar van de vorige.
- Het probleem: Als Werknemer A een leugen vertelt, ziet Werknemer B er ook raar uit. Zou je B dan ook als boef bestempelen? Nee, dat is onrechtvaardig.
- De oplossing: SENTINEL heeft een tellingssysteem. Als iemand een fout maakt, krijgt hij een waarschuwing. Als hij het echt erg doet (bijvoorbeeld 5 keer), wordt hij de fabriek uitgeslingerd. Maar als hij na een waarschuwing weer normaal doet, wordt zijn telling weer lager. Dit heet "vergeving".
- Ook zorgt SENTINEL ervoor dat als een boef wordt betrapt, de volgende werknemers niet in de war raken. De wacht vult het gat met een "veilig" gemiddelde, zodat de productielijn niet stopt.
4. Waarom is dit belangrijk?
De onderzoekers hebben dit getest met enorme modellen (zoals die van Llama-3) en tot wel 176 werknemers tegelijk. Ze hebben zelfs 25% van de werknemers als "boeven" ingesteld die alles probeerden te saboteren (van het sturen van nul-waarden tot het verdraaien van getallen).
Het resultaat?
- SENTINEL ving de meeste boeven op.
- De training bleef stabiel en het eindresultaat was net zo goed als zonder boeven.
- Het kostte bijna geen extra tijd of energie.
Samenvatting in één zin
SENTINEL is als een slimme, waakzame tolwachter op een snelweg die niet elke auto volledig controleert (wat te lang duurt), maar wel direct ziet als een auto plotseling van kleur verandert of tegen het verkeer rijdt, zodat de rest van de file veilig en snel kan blijven rijden, zelfs als er boeven tussen zitten.
Dit maakt het mogelijk om in de toekomst veilig samen te werken aan enorme kunstmatige intelligenties, zonder dat je hoeft te vertrouwen op de eerlijkheid van elke individuele deelnemer.