Each language version is independently generated for its own context, not a direct translation.
De "Logprobs" van de LLM's: Een Simpel Manier om te Checken of een AI nog hetzelfde is
Stel je voor dat je een zeer dure, slimme robot (een Large Language Model of LLM) huurt via een internetdienst. Je betaalt maandelijks en vertrouwt erop dat deze robot elke dag precies hetzelfde doet. Maar wat als de eigenaar van de robot stiekem zijn hersenen aanpast? Misschien maakt hij hem slimmer, misschien verandert hij zijn persoonlijkheid, of misschien voegt hij zelfs een geheime "achterdeur" toe voor hackers.
Helaas hebben gebruikers geen manier om dit te controleren. De bestaande methoden om te checken of de robot nog steeds dezelfde is, zijn als een dure, tijdrovende inspectie waarbij je de robot duizenden vragen moet stellen. Dat is te duur en te veel werk om elke dag te doen.
In dit paper (geschreven voor de conferentie ICLR 2026) presenteren de auteurs een slimme, goedkope oplossing: Logprob Tracking.
Hier is hoe het werkt, vertaald naar alledaagse taal:
1. Het Probleem: De "Gok" van de AI
Wanneer een AI een woord bedenkt, doet ze dat niet zomaar. Ze kijkt naar alle mogelijke woorden en geeft elk woord een kans (een waarschijnlijkheid).
- De oude manier: Je vraagt de AI een zin te maken en kijkt naar het antwoord. Als het antwoord "Hallo" is, is het antwoord "Hallo". Maar als de AI morgen "Hoi" zegt, weet je niet of dat komt omdat ze veranderd is, of gewoon omdat ze een beetje wispelturig is (AI's zijn namelijk niet altijd 100% voorspelbaar).
- De nieuwe manier (Logprobs): De auteurs kijken niet naar het woord zelf, maar naar de kans die de AI gaf aan dat woord. Het is alsof je niet kijkt naar wat de robot zegt, maar naar het zweet op zijn voorhoofd terwijl hij het woord kiest.
2. De Analogie: De dobbelsteen en de trilling
Stel je een dobbelsteen voor die je elke dag gooit.
- De oude methode: Je kijkt alleen naar het getal dat boven komt (bijv. een 6). Als de dobbelsteen morgen een 5 is, denk je: "Hij is veranderd!" Maar misschien was het gewoon toeval. Om zeker te weten, moet je duizenden keren gooien. Dat kost veel tijd en geld.
- De nieuwe methode (Logprob Tracking): De AI is als een dobbelsteen die op een trillende tafel ligt. De auteurs kijken niet naar het getal, maar naar de trilling van de tafel terwijl de dobbelsteen rolt. Zelfs als de dobbelsteen soms een 6 en soms een 5 gooit, verandert de trilling van de tafel direct als je de tafel zelf een beetje verandert (bijvoorbeeld door een nieuwe schroef erin te draaien).
Ze hoeven maar één keer te "gooien" (één woord laten genereren) om te zien of de trilling anders is dan gisteren.
3. Waarom is dit zo krachtig?
- Extreem goedkoop: De oude methoden kostten duizenden dollars per jaar om een AI te controleren. Deze nieuwe methode kost ongeveer $0,14 per jaar. Dat is 1000 keer goedkoper!
- Super gevoelig: Ze kunnen veranderingen detecteren die zo klein zijn dat ze bijna onzichtbaar zijn. Denk aan het toevoegen van slechts één stap aan het trainingsproces van de AI. De oude methoden zagen dit niet, maar deze nieuwe methode wel.
- Snel: Je hoeft maar één letter (bijvoorbeeld "x") in te typen en te kijken naar de kans die de AI gaf aan het eerste antwoord.
4. Wat hebben ze ontdekt?
De auteurs hebben dit systeem gebruikt om meer dan 100 verschillende AI-diensten (zoals die van OpenAI, Microsoft, en andere) gedurende maanden in de gaten te houden.
- Ze ontdekten 37 keer dat er iets veranderde.
- Vaak gebeurde dit zonder dat de gebruikers er iets van merkten.
- Zelfs bij "open" modellen (waar de code openbaar is), bleek dat de dienst die je gebruikt stiekem verandert. Het is alsof een restaurant zegt: "We gebruiken hetzelfde recept," maar de kok verandert stiekem de hoeveelheid zout, en niemand proeft het verschil tot het te laat is.
5. De "TinyChange" Benchmark
Om te bewijzen dat hun methode werkt, hebben ze een nieuwe test gemaakt genaamd TinyChange.
Stel je voor dat je een foto van een kat maakt. Dan maak je 58 versies van die foto, waarbij je bij elke versie heel weinig pixels verandert (soms maar één pixel).
- De oude methoden zagen pas verandering als je de hele kat in een hond veranderde.
- De nieuwe methode zag al verandering als je maar één pixel op het oor van de kat verplaatste.
Conclusie: Waarom is dit belangrijk?
Voor ontwikkelaars, onderzoekers en toezichthouders is het cruciaal dat AI's betrouwbaar zijn. Als een AI plotseling anders reageert, kunnen auto's crashen, medicijnen verkeerd worden voorgeschreven of onderzoeken onbetrouwbaar worden.
Deze paper biedt een goedkope, continue alarmbel. Het is als een rookmelder die niet alleen brand detecteert, maar ook al detecteert als er een klein vonkje is, voordat er een vuur ontstaat. Het zorgt ervoor dat we weten of de AI die we gebruiken, nog steeds dezelfde AI is als gisteren.
Kort samengevat: In plaats van de hele AI te testen (wat duur is), kijken we naar de "trillingen" in haar keuzes. Dat is goedkoper, sneller en ziet veranderingen die niemand anders ziet.
Ontvang papers zoals deze in je inbox
Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.