Rare Event Analysis of Large Language Models

Oorspronkelijke auteurs: Jake McAllister Dorman, Edward Gillman, Dominic C. Rose, Jamie F. Mair, Juan P. Garrahan

Gepubliceerd 2026-05-29

📖 6 min leestijd🧠 Diepgaand

Oorspronkelijke auteurs: Jake McAllister Dorman, Edward Gillman, Dominic C. Rose, Jamie F. Mair, Juan P. Garrahan

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Stel je een zeer getalenteerde, maar licht onvoorspelbare, verhalenverteller voor. Deze verhalenverteller (een Large Language Model, of LLM) is uitstekend in het vertellen van normale verhalen over katten, bossen en neushoorns. Omdat het echter een probabilistische machine is, kan het af en toe een verhaal vertellen dat bizar, gevaarlijk of volledig onzin is. Deze rare verhalen zijn de "zeldzame gebeurtenissen".

Het probleem is dat deze rare verhalen zo zeldzaam zijn dat je, als je de verhalenverteller een miljoen keer vraagt, misschien nooit één hoort. Maar als je het een miljard keer vraagt (wat gebeurt wanneer miljoenen mensen elke dag AI gebruiken), zullen die rare verhalen uiteindelijk verschijnen en kunnen ze problemen veroorzaken.

Dit artikel is als een nieuwe toolkit ontworpen om deze "naald in de hooiberg"-verhalen te vinden, te bestuderen en te begrijpen, zonder een miljard jaar te hoeven wachten om ze op natuurlijke wijze te horen.

Hieronder leggen de auteurs hun methode uit met behulp van eenvoudige analogieën:

1. Het Probleem: De "Stille Bibliotheek"

Stel je een bibliotheek voor waarin 99,9% van de boeken normale sprookjes zijn. De andere 0,0001% zijn angstaanjagende horrorverhalen. Als je gewoon binnenloopt en willekeurig boeken pakt, zul je alleen maar sprookjes vinden. Je zou kunnen denken dat de bibliotheek 100% veilig is. Maar als je lang genoeg wacht, zul je wel een horrorverhaal vinden.

De auteurs zeggen: "We kunnen niet zo lang wachten. We moeten een manier vinden om de horrorverhalen nu te vinden, zodat we weten hoe ze eruitzien en hoe gevaarlijk ze zijn."

2. De Oplossing: De "Magische Lens" (Analyse van Zeldzame Gebeurtenissen)

In plaats van te wachten tot de rare verhalen op natuurlijke wijze verschijnen, gebruiken de auteurs een techniek die is ontleend aan de fysica (genaamd Analyse van Zeldzame Gebeurtenissen). Denk hierbij aan het opzetten van een "Magische Lens" die de rare, engere verhalen veel frequenter laat verschijnen, terwijl ze toch bijhouden hoe zeldzaam ze in werkelijkheid zijn.

Ze doen dit in drie hoofdstappen:

Stap 1: De "Monster" definiëren (Opzet)
Eerst moet je beslissen waar je naar op zoek bent. Is het een verhaal dat te moeilijk te lezen is? Is het een verhaal dat het model als zeer onwaarschijnlijk beschouwt? De auteurs kiezen twee specifieke "monsters" om te jagen:
- Het "Kletspraat-Monster": Verhalen die zo complex of repetitief zijn dat ze onleesbaar zijn (gemeten aan de hand van een "Leesbaarheidsindex").
- Het "Geestverhaal": Verhalen die het model zelf als extreem onwaarschijnlijk beschouwt (gemeten aan de hand van "Log-kans").
Stap 2: De "Duw" (Schatting)
Om deze monsters te vinden, vragen de auteurs het model niet zomaar om "een verhaal te vertellen". Ze gebruiken een techniek genaamd Transition Path Sampling (TPS).
- De Analogie: Stel je voor dat je probeert een specifiek, zeldzaam pad door een dicht bos te vinden. Normaal gesproken loop je gewoon vooruit en blijf je op de hoofdweg.
- De Duw: De auteurs gebruiken een "duw" (een wiskundige bias) om de verhalenverteller zachtjes naar de zeldzame paden te duwen. Ze vragen het model om een verhaal te genereren, en zeggen dan: "Hé, dat deel was te normaal, laten we proberen het midden van het verhaal een beetje raarder te maken."
- Ze doen dit keer op keer, zoals een beeldhouwer die een blok steen afbeitelt, en leiden het verhaal langzaam naar het "rare" gebied. Ze gebruiken een "koelprogramma" (annealing) om dit geleidelijk te doen, zodat het verhaal niet uit elkaar valt.
Stap 3: De "Wiskundige Spiegel" (Verkenning en Correctie)
Omdat ze het model hebben "geduwd" om deze rare verhalen te vinden, zijn de verhalen die ze vinden niet langer 100% natuurlijk. Ze zijn "bevooroordeeld".
- De Analogie: Stel je voor dat je een vergrootglas gebruikte om een zeldzame kever te vinden. Je vond 1.000 kevers, maar in de echte wereld zijn er slechts 10.
- De Correctie: De auteurs gebruiken een wiskundig hulpmiddel genaamd MBAR (Multistate Bennett Acceptance Ratio). Dit fungeert als een "wiskundige spiegel" die de cijfers corrigeert. Het kijkt naar de 1.000 kevers die ze vonden en zegt: "Oké, omdat we een vergrootglas hebben gebruikt, weten we dat dit in de echte wereld eigenlijk een kans van 1 op een miljard vertegenwoordigt."
- Dit stelt hen in staat om de ware kans op het optreden van de zeldzame gebeurtenis te berekenen, zelfs al hebben ze het in hun experiment geforceerd om te gebeuren.

3. Wat Ze Vonden

De auteurs testten dit op een klein model genaamd TinyStories (een model getraind op kinderverhalen).

De "Moeilijk te lezen" Verhalen: Ze ontdekten dat het model, hoewel het is ontworpen om voor kinderen te schrijven, verhalen kan genereren die ongelooflijk moeilijk te lezen zijn (zoals een universitaire thesis geschreven in kletspraat). Deze verhalen zijn zeldzaam, maar ze bestaan.
De "Herhaling"-Truc: Wanneer het model probeert deze moeilijke verhalen te schrijven, valt het vaak terug op een veiligheidsnet: herhaling. Het begint woorden keer op keer te herhalen (bijvoorbeeld: "Trururururu... Trururururu..."). Het model denkt dat dit een goede manier is om het verhaal gaande te houden, ook al lijkt het voor een mens op een glitch.
De "Geest"-Verhalen: Ze vonden ook verhalen die het model als zo onwaarschijnlijk beschouwt dat ze nooit zouden moeten gebeuren, maar die het model toch genereert wanneer het wordt geduwd.

4. Waarom Dit Belangrijk Is (Volgens het Artikel)

Het artikel beweert dat dit de eerste keer is dat iemand een volledig "end-to-end"-systeem heeft gebouwd om dit voor AI te doen.

Het is een Praktische Gids: Ze praten niet alleen over theorie; ze bieden de code en de stap-voor-stap instructies voor het uitvoeren hiervan.
Het is Efficiënt: Ze bewezen dat je niet een miljard jaar hoeft te wachten. Je kunt deze zeldzame gebeurtenissen vinden in een redelijke hoeveelheid tijd met behulp van hun "duw"- en "wiskundige spiegel"-technieken.
Het is Algemeen: Hoewel ze het testten op een klein model, werkt de wiskunde voor elk model van elke grootte.

Samenvatting

Beschouw dit artikel als een handleiding voor de veiligheidsinspecteur van AI. In plaats van te wachten tot een auto crasht om te zien of de remmen werken, leert deze handleiding je hoe je de auto op een gecontroleerde manier bewust in een "crashtag" rijdt, precies meet hoe groot de kans op een crash is, en uitzoekt wat de auto doet vlak voordat het crasht. Dit helpt ontwikkelaars betere "remschermen" te bouwen om te voorkomen dat de AI in de echte wereld gevaarlijke dingen zegt of doet.

Technische Samenvatting: Analyse van Zeldzame Gebeurtenissen bij Taalmodellen

Probleemstelling
Grote Taalmodellen (LLMs) zijn probabilistische systemen die tijdens inferentie "zeldzame gebeurtenissen" kunnen genereren: outputs die sterk afwijken van het gebruikelijke, maar potentieel significant zijn. Hoewel standaardontwikkeling en -testen deze gebeurtenissen vaak niet waarnemen vanwege hun lage waarschijnlijkheid, betekent de enorme schaal van LLM-implementatie dat dergelijke gebeurtenissen in productie met een niet-verwaarloosbare frequentie kunnen optreden. Huidige methoden voor het analyseren van deze gebeurtenissen staan nog in de kinderschoenen. Directe steekproeven (de huidige state-of-the-art) zijn inefficiënt voor het verkennen van de staarten van de outputverdeling en vereisen vaak verbodsfactoren aan computerruimte om gebeurtenissen waar te nemen met waarschijnlijkheden die ordes van grootte lager liggen dan typische outputs. Dit artikel adresseert de behoefte aan een systematisch, end-to-end raamwerk om de waarschijnlijkheden van zeldzame gebeurtenissen te schatten en hun structurele eigenschappen in LLMs te verkennen.

Methodologie
De auteurs stellen een Raamwerk voor de Analyse van Zeldzame Gebeurtenissen (REA) voor, aangepast uit de statistische fysica en computationele chemie, met name met gebruikmaking van technieken die zijn ontworpen voor moleculaire dynamica. Het raamwerk bestaat uit drie fasen: Opstelling, Schatting en Verkenning.

Formulering als Stochastisch Proces: LLMs worden behandeld als stochastische processen die trajecten genereren (reeksen tokens). Zeldzame gebeurtenissen worden gedefinieerd als ongewone waarden van een specifieke "observable" (een functie van de voltooiing).
Importance Sampling en Biasing: Om de inefficiëntie van directe steekproeven te overwinnen, maken de auteurs gebruik van Importance Sampling. Ze introduceren een "biased observable" om een gekantelde (bevooroordeelde) verdeling, $p_\lambda$ , te creëren, die het samplen van zeldzame waarden aanmoedigt. De doelverdeling wordt opnieuw gewogen met een exponentiële factor die een bias-parameter $\lambda$ en de observable $\phi$ omvat.
Transition Path Sampling (TPS): In plaats van onafhankelijke steekproeven te genereren, gebruiken de auteurs TPS, een variant van het Metropolis-Hastings (MH) algoritme. TPS genereert een Markov-keten van trajecten door bewerkingen voor te stellen aan een reeks (afkappen op een willekeurig punt en de rest opnieuw genereren). Dit stelt het systeem in staat de ruimtelijke verdeling effectiever te verkennen dan onafhankelijke steekproeven.
Annealing en MBAR: Om convergentie en dekking van de staarten van de verdeling te waarborgen, gebruiken de auteurs een "annealing"-protocol, waarbij de grootte van de bias $\lambda$ geleidelijk wordt verhoogd over meerdere ketens. Ze combineren steekproeven uit deze bevooroordeelde verdelingen met behulp van de Multistate Bennett Acceptance Ratio (MBAR)-schatter om de onbevooroordeelde waarschijnlijkheidsdichtheid te reconstrueren.
Foutanalyse: Statistische betrouwbaarheidsintervallen worden geconstrueerd met behulp van bootstrap-methoden voor MBAR-schattingen en Wilson-intervallen voor directe steekproeven. Convergentie wordt bewaakt met de Gelman-Rubin (GR)-statistiek.

Experimentele Opstelling
Het raamwerk wordt gedemonstreerd met het TinyStories-8M-model, een klein LLM getraind op kinderverhalen. Twee observables worden geanalyseerd:

Log-Probability: De natuurlijke log-waarschijnlijkheid van de voltooiing, die meet hoe waarschijnlijk het model zijn eigen output vindt.
Automated Readability Index (ARI): Een linguïstische maatstaf voor tekstcomplexiteit. Aangezien TinyStories is getraind voor kinderen, vertegenwoordigen hoge ARI-scores "ongewenst" of niet-uitgelijnd gedrag (complexe tekst).

De auteurs vergelijken Directe Steekproeven (het genereren van ongeveer 4,2 miljoen voltooiingen) met TPS met MBAR (het genereren van een vergelijkbaar aantal tokens via bevooroordeelde trajecten).

Belangrijkste Resultaten

Schatting van Waarschijnlijkheden: De MBAR/TPS-benadering slaagt erin waarschijnlijkheden in de staarten van de verdeling te schatten die ordes van grootte kleiner zijn dan die toegankelijk via directe steekproeven. Waar directe steekproeven lege bakken opleveren in de staarten, levert MBAR dichtheidsschattingen over het volledige bereik.
Foutreductie: De relatieve breedte van de betrouwbaarheidsintervallen (BI's) voor MBAR-schattingen is aanzienlijk kleiner dan die voor directe steekproeven in de staartgebieden, wat wijst op een hogere precisie voor zeldzame gebeurtenissen.
Inzichten in Modelgedrag:
- Log-Prob: De verdeling van log-waarschijnlijkheden is sterk niet-Gaussisch.
- ARI: Het model genereert voltooiingen met extreem hoge ARI-scores (complexe tekst) die hoge log-waarschijnlijkheden krijgen van het model, ondanks dat ze buiten de verdeling liggen ten opzichte van de trainingsdata.
- Mechanisme: Verkenning van de data (EDA) onthult dat deze hoog-ARI, hoog-waarschijnlijkheid voltooiingen vaak extreme tokenherhaling vertonen (bijv. "Trururururu..."). Het model lijkt terug te vallen op repetitieve patronen om een hoge waarschijnlijkheid te behouden bij extrapolatie buiten zijn trainingsregime.
Identificatie van Proxies: De studie toont aan dat eenvoudige proxies, zoals het aantal opeenvolgende tokenherhalingen, correleren met extreme ARI-waarden, wat wijst op een potentieel mechanisme voor runtime-filtering van zeldzame gebeurtenissen.

Betekenis en Bijdragen
Het artikel claimt de eerste complete, end-to-end toepassing van technieken voor de analyse van zeldzame gebeurtenissen op LLMs te bieden. De belangrijkste bijdragen zijn:

Raamwerk: Een praktisch, modulair raamwerk (Opstelling, Schatting, Verkenning) voor het systematisch bestuderen van zeldzame gebeurtenissen in LLMs.
Implementatiegids: Een gedetailleerde gids die theorie, generatiestrategieën (TPS), waarschijnlijkheidsschatting (MBAR) en foutanalyse behandelt, waardoor deze geavanceerde statistisch-fysische hulpmiddelen toegankelijk worden voor ML-onderzoekers.
Empirische Validatie: Demonstratie dat waarschijnlijkheden van zeldzame gebeurtenissen nauwkeurig kunnen worden geschat met bescheiden computerbudgetten (relatief aan productietraining) met kleine modellen, wat schaalbaarheid naar grotere modellen suggereert.
Inzicht in Uitlijning: Het vermogen om regimes buiten de verdeling te onderzoeken, onthult specifieke faalmodi (bijv. het genereren van repetitieve tekst) die standaardtesten mogelijk missen.

De auteurs benadrukken dat, hoewel de studie een klein model gebruikt, de theoretische methoden model-agnostisch zijn. Ze merken op dat toekomstige toepassingen op productiemodellen samenwerking tussen disciplines vereisen en mogelijk algoritmische verbeteringen (bijv. adaptieve biasing, parallel tempering, of het gebruik van kleinere modellen als voorstelverdelingen), maar dat het huidige werk een levensvatbaar startpunt vestigt voor het begrijpen en controleren van zeldzame, potentieel onveilige of significante LLM-gedragingen.