LLMs Uncertainty Quantification via Adaptive Conformal Semantic Entropy

Dit artikel stelt Adaptieve Conformale Semantische Entropie (ACSE) voor, een nieuwe methode die de onzekerheid van grote taalmodellen kwantificeert door adaptief de semantische spreiding over diverse antwoorden te meten en conformale kalibratie toe te passen om foutgaranties voor eindige steekproeven en vrij van verdelingsaannames te bieden, waardoor bestaande lexische en probabilistische basismethoden worden overtroffen in veiligheidskritieke toepassingen.

Oorspronkelijke auteurs: Hamed Karimi, Vaishali Meyappan, Reza Samavi

Gepubliceerd 2026-05-07
📖 4 min leestijd☕ Koffiepauze-leesvoer

Oorspronkelijke auteurs: Hamed Karimi, Vaishali Meyappan, Reza Samavi

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer zelfverzekerde, goed gelezen bibliothecaris (de AI) een vraag stelt. De bibliothecaris kan met absolute zekerheid antwoorden, zelfs als hij volledig ongelijk heeft. Dit is het "oververtrouwen"-probleem waar het artikel over handelt: Large Language Models (LLM's) hallucineren vaak (verzonnen dingen) terwijl ze 100% zeker klinken.

Het artikel introduceert een nieuw veiligheidssysteem genaamd ACSE (Adaptive Conformal Semantic Entropy). Denk aan ACSE als een "Realiteitscheck"-mechanisme dat niet alleen luistert naar wat de bibliothecaris zegt, maar controleert of de bibliothecaris daadwerkelijk zeker is van de betekenis van zijn antwoord.

Hier is hoe het werkt, opgesplitst in eenvoudige stappen:

1. Het Probleem: De "Synoniemvalstrik"

Huidige veiligheidscontroles kijken vaak naar de specifieke woorden die de AI kiest. Als de AI 70% van de tijd zegt "De hoofdstad is Sydney" en 30% van de tijd "De hoofdstad is Canberra", zou een simpele woordenteller denken: "Oh, hij is vrij zeker dat het Sydney is!" en groen licht geven.

Maar hier zit de adder onder het gras: De AI kan zeker zijn van het verkeerde antwoord (Sydney) terwijl hij onzeker is over het juiste antwoord (Canberra). Of, hij kan vijf verschillende antwoorden geven die allemaal hetzelfde betekenen (bijvoorbeeld "Sydney", "Syd", "De grote havenstad"). Een simpele woordenteller raakt in de war door deze variaties en denkt dat de AI onzeker is, terwijl hij eigenlijk gewoon aan het kletsen is.

2. De Oplossing: De "Groepsomhelzing"-methode (Semantische clustering)

ACSE verandert het spel door de AI te vragen om dezelfde vraag tien keer te beantwoorden.

  • Stap A: Het neemt die tien antwoorden en vertaalt ze naar "betekeniskaarten" (embeddings).
  • Stap B: Het groepeert deze antwoorden in "buurten" op basis van hun betekenis, niet hun spelling.
    • Voorbeeld: Als 9 antwoorden "Sydney" zeggen en 1 "Canberra", vormen ze twee distincte buurten.
    • Voorbeeld: Als 5 antwoorden "Sydney" zeggen en 5 "De hoofdstad is Sydney", worden ze allemaal in dezelfde buurt "omhelsd" omdat ze hetzelfde betekenen.

3. De "Kwetsbaarheid"-detector (Adaptieve inflatie)

Dit is het geheime ingrediënt van het artikel. Het feit dat de AI het eens is over een antwoord (zoals "Sydney") betekent niet dat dat antwoord veilig is.

  • De Analogie: Stel je een groep mensen voor die het allemaal eens zijn over een richting. Als ze allemaal in een strakke, stevige cirkel staan, is dat een sterke consensus. Maar als ze het allemaal eens zijn over een richting terwijl ze op een wiebelende, trillende vloer staan, is dat een kwetsbare consensus.
  • ACSE zoekt naar deze "wiebel". Het controleert of de groep die het eens is over "Sydney" eigenlijk wankel is (misschien zijn de antwoorden iets anders, of is de groep erg klein).
  • Als de groep "kwetsbaar" is, verhoogt ACSE de onzekerheidsscore. Het zegt in feite: "Hoewel jullie het allemaal eens zijn, is jullie overeenkomst wankel, dus ik ga dit behandelen als een hoog-risicosituatie."

4. Het "Veiligheidsnet" (Conformale kalibratie)

Tot slot moet het systeem precies weten wanneer het moet zeggen "Ik weet het niet" (onthouding) versus wanneer het een antwoord moet geven.

  • De auteurs gebruiken een statistisch "veiligheidsnet" genaamd Conformale Voorspelling.
  • Ze testen het systeem eerst op een set oefenvragen. Ze bepalen een "afsnijlijn".
  • De Regel: Als de "wiebel-score" (onzekerheid) onder de lijn ligt, geeft de AI een antwoord. Als het boven de lijn ligt, blijft de AI stil.
  • De Garantie: Dit is geen gok. De wiskunde garandeert dat als je het veiligheidsnet instelt om 90% van de fouten op te vangen, het minimaal 90% van de fouten zal opvangen, ongeacht wat de AI doet. Het belooft dat de fouten die je wel ziet, zeldzaam zullen zijn.

De Resultaten: Waarom het Belangrijk Is

Het artikel testte dit op verschillende AI-modellen en datasets (zoals trivia-vragen).

  • De Wedstrijd: Oude methoden (zoals het tellen van woordkansen) waren als een wankel kompas. Ze gaven vaak hoge zekerheid aan verkeerde antwoorden.
  • De Winnaar: ACSE fungeerde als een slimme navigator. Op een trivia-test identificeerde het verkeerde antwoorden correct in 88% van de gevallen (AUROC 0,88), terwijl de op één na beste methode slechts 80% haalde.
  • De Veiligheid: Het stopte de AI succesvol veel vaker dan eerdere methoden om verkeerde antwoorden te geven in situaties met hoge stakes, zonder zo voorzichtig te zijn dat het weigerde om überhaupt iets te beantwoorden.

In het Kort

ACSE is een systeem dat een AI vraagt om een vraag meerdere keren te beantwoorden, de antwoorden groepeert op betekenis in plaats van op woorden, controleert of de groep op stevige of wankel grond staat, en een wiskundig bewezen veiligheidsnet gebruikt om te beslissen wanneer het moet spreken en wanneer het moet zwijgen. Het zorgt ervoor dat wanneer de AI spreekt, het niet alleen zelfverzekerd is, maar eigenlijk betrouwbaar.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →