UQLM: A Python Package for Uncertainty Quantification in Large Language Models

Dit paper introduceert UQLM, een Python-pakket dat state-of-the-art onzekerheidskwantificatietechnieken gebruikt om hallucinaties in grote taalmodellen te detecteren en zo de betrouwbaarheid van hun output te vergroten.

Dylan Bouchard, Mohit Singh Chauhan, David Skarbrevik, Ho-Kyeong Ra, Viren Bajaj, Zeya Ahmad

Gepubliceerd 2026-03-05
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

🤖 De "Zekerheidsmeter" voor AI: Wat is uqlm?

Stel je voor dat je een zeer slimme, maar soms wat overdreven creatieve schrijver hebt. Deze schrijver (een Groot Taalmodel of LLM) kan prachtige verhalen vertellen, maar hij heeft een rare gewoonte: hij verzonnen feiten soms zo overtuigend dat je er niet uit kunt halen of het waar is. Dit noemen we hallucinaties. Het is alsof hij een verhaal vertelt over een "roze olifant" terwijl er geen olifanten zijn, en hij doet het met zo'n overtuiging dat je twijfelt aan je eigen waarneming.

In de echte wereld (zoals in de zorg, recht of financiën) is dit gevaarlijk. Je wilt niet dat een AI een verkeerd medicijn voorschrijft of een vals juridisch advies geeft.

Tot nu toe was het lastig om te weten of een AI-antwoord waar was, tenzij je het antwoord al kende (wat je vaak niet hebt op het moment dat je het vraagt).

uqlm is een nieuw computerprogramma (een Python-pakket) dat dit probleem oplost. Het is als een onmisbare "Zekerheidsmeter" die je direct naast de AI zet.

Hoe werkt het? (De 4 Manieren om te Controleren)

Het programma uqlm gebruikt vier verschillende manieren om te bepalen of de AI zeker is van zijn antwoord. Je kunt je dit voorstellen als een team van vier verschillende detectives:

1. De "Herhalingstest" (Black-Box UQ)

Hoe het werkt: Je vraagt de AI hetzelfde vraagstuk vijf keer.
De analogie: Stel je vraagt aan een groep vrienden: "Wat is de hoofdstad van Frankrijk?"

  • Als ze allemaal "Parijs" zeggen, ben je er zeker van.
  • Als de één "Parijs" zegt, de ander "Londen", en de derde "Een stad met een toren", dan is er iets mis.
    Wat uqlm doet: Het laat de AI hetzelfde vraagstuk meerdere keren beantwoorden. Als de antwoorden heel verschillend zijn, weet het programma: "Deze AI is niet zeker, pas op!"

2. De "Interne Zenuwstelsel-Check" (White-Box UQ)

Hoe het werkt: Dit kijkt niet naar het eindantwoord, maar naar hoe de AI naait aan het antwoord.
De analogie: Stel je voor dat je een speler ziet die een penalty neemt.

  • Een zelfzekere speler kijkt rustig naar de hoek en schiet hard.
  • Een onzekere speler twijfelt, kijkt links, dan rechts, en schiet zachtjes.
    Wat uqlm doet: Het kijkt naar de "zenuwachtigheid" van de AI terwijl hij schrijft. Als de AI twijfelt tussen verschillende woorden (hoge onzekerheid in zijn interne berekeningen), geeft het programma een lage zekerheidsscore. Dit werkt alleen als je de AI kunt laten zien hoe hij "denkt" (de interne getallen).

3. De "Rechter" (LLM-as-a-Judge)

Hoe het werkt: Je gebruikt een tweede, sterke AI om het antwoord van de eerste AI te beoordelen.
De analogie: Het is alsof je een student een proefwerk laat maken, en een andere, strengere leraar het nakijkt.
Wat uqlm doet: Het stuurt het antwoord naar een "rechter-AI" met de opdracht: "Is dit antwoord waar of niet?" De rechter geeft een cijfer. Soms doen ze dit met meerdere rechters tegelijk voor een eerlijk oordeel.

4. Het "Gemiddelde Team" (Ensemble)

Hoe het werkt: Dit is de superkracht van uqlm. Het combineert alle bovenstaande methoden.
De analogie: In plaats van te vertrouwen op één detective, heb je nu een heel team: de herhalingstester, de zenuwstelsel-checker en de rechter. Ze stemmen samen. Als twee van de drie zeggen "Dit is onzeker", dan is het antwoord onzeker.
Wat uqlm doet: Het rekent een gewogen gemiddelde uit van alle methoden om een uiteindelijke zekerheidsscore te geven (van 0 tot 1).

Waarom is dit zo belangrijk?

Vroeger moesten mensen handmatig controleren of AI-antwoorden klopten, of ze moesten wachten tot de AI een antwoord gaf en dan pas gaan zoeken op internet (wat traag is en soms fouten introduceert).

uqlm verandert dit door:

  1. Direct te werken: Het checkt het antwoord terwijl het wordt gegenereerd.
  2. Geen antwoorden nodig: Je hoeft niet te weten wat het juiste antwoord is om te weten dat de AI twijfelt.
  3. Iedereen toegankelijk: Het is een gratis tool die ontwikkelaars en bedrijven kunnen gebruiken om hun AI-systemen veiliger te maken, zonder dat ze expert moeten zijn in wiskunde.

Conclusie in één zin

uqlm is een slimme "waarschuwingslamp" voor AI-systemen die direct aangeeft: "Ik ben niet zeker van mijn antwoord, wees voorzichtig," zodat mensen niet blindelings vertrouwen op verzonnen feiten.