LLMs Uncertainty Quantification via Adaptive Conformal… — Begrijpelijke uitleg

Oorspronkelijke auteurs: Hamed Karimi, Vaishali Meyappan, Reza Samavi

Gepubliceerd 2026-05-07

📖 4 min leestijd☕ Koffiepauze-leesvoer

Oorspronkelijke auteurs: Hamed Karimi, Vaishali Meyappan, Reza Samavi

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer zelfverzekerde, goed gelezen bibliothecaris (de AI) een vraag stelt. De bibliothecaris kan met absolute zekerheid antwoorden, zelfs als hij volledig ongelijk heeft. Dit is het "oververtrouwen"-probleem waar het artikel over handelt: Large Language Models (LLM's) hallucineren vaak (verzonnen dingen) terwijl ze 100% zeker klinken.

Het artikel introduceert een nieuw veiligheidssysteem genaamd ACSE (Adaptive Conformal Semantic Entropy). Denk aan ACSE als een "Realiteitscheck"-mechanisme dat niet alleen luistert naar wat de bibliothecaris zegt, maar controleert of de bibliothecaris daadwerkelijk zeker is van de betekenis van zijn antwoord.

Hier is hoe het werkt, opgesplitst in eenvoudige stappen:

1. Het Probleem: De "Synoniemvalstrik"

Huidige veiligheidscontroles kijken vaak naar de specifieke woorden die de AI kiest. Als de AI 70% van de tijd zegt "De hoofdstad is Sydney" en 30% van de tijd "De hoofdstad is Canberra", zou een simpele woordenteller denken: "Oh, hij is vrij zeker dat het Sydney is!" en groen licht geven.

Maar hier zit de adder onder het gras: De AI kan zeker zijn van het verkeerde antwoord (Sydney) terwijl hij onzeker is over het juiste antwoord (Canberra). Of, hij kan vijf verschillende antwoorden geven die allemaal hetzelfde betekenen (bijvoorbeeld "Sydney", "Syd", "De grote havenstad"). Een simpele woordenteller raakt in de war door deze variaties en denkt dat de AI onzeker is, terwijl hij eigenlijk gewoon aan het kletsen is.

2. De Oplossing: De "Groepsomhelzing"-methode (Semantische clustering)

ACSE verandert het spel door de AI te vragen om dezelfde vraag tien keer te beantwoorden.

Stap A: Het neemt die tien antwoorden en vertaalt ze naar "betekeniskaarten" (embeddings).
Stap B: Het groepeert deze antwoorden in "buurten" op basis van hun betekenis, niet hun spelling.
- Voorbeeld: Als 9 antwoorden "Sydney" zeggen en 1 "Canberra", vormen ze twee distincte buurten.
- Voorbeeld: Als 5 antwoorden "Sydney" zeggen en 5 "De hoofdstad is Sydney", worden ze allemaal in dezelfde buurt "omhelsd" omdat ze hetzelfde betekenen.

3. De "Kwetsbaarheid"-detector (Adaptieve inflatie)

Dit is het geheime ingrediënt van het artikel. Het feit dat de AI het eens is over een antwoord (zoals "Sydney") betekent niet dat dat antwoord veilig is.

De Analogie: Stel je een groep mensen voor die het allemaal eens zijn over een richting. Als ze allemaal in een strakke, stevige cirkel staan, is dat een sterke consensus. Maar als ze het allemaal eens zijn over een richting terwijl ze op een wiebelende, trillende vloer staan, is dat een kwetsbare consensus.
ACSE zoekt naar deze "wiebel". Het controleert of de groep die het eens is over "Sydney" eigenlijk wankel is (misschien zijn de antwoorden iets anders, of is de groep erg klein).
Als de groep "kwetsbaar" is, verhoogt ACSE de onzekerheidsscore. Het zegt in feite: "Hoewel jullie het allemaal eens zijn, is jullie overeenkomst wankel, dus ik ga dit behandelen als een hoog-risicosituatie."

4. Het "Veiligheidsnet" (Conformale kalibratie)

Tot slot moet het systeem precies weten wanneer het moet zeggen "Ik weet het niet" (onthouding) versus wanneer het een antwoord moet geven.

De auteurs gebruiken een statistisch "veiligheidsnet" genaamd Conformale Voorspelling.
Ze testen het systeem eerst op een set oefenvragen. Ze bepalen een "afsnijlijn".
De Regel: Als de "wiebel-score" (onzekerheid) onder de lijn ligt, geeft de AI een antwoord. Als het boven de lijn ligt, blijft de AI stil.
De Garantie: Dit is geen gok. De wiskunde garandeert dat als je het veiligheidsnet instelt om 90% van de fouten op te vangen, het minimaal 90% van de fouten zal opvangen, ongeacht wat de AI doet. Het belooft dat de fouten die je wel ziet, zeldzaam zullen zijn.

De Resultaten: Waarom het Belangrijk Is

Het artikel testte dit op verschillende AI-modellen en datasets (zoals trivia-vragen).

De Wedstrijd: Oude methoden (zoals het tellen van woordkansen) waren als een wankel kompas. Ze gaven vaak hoge zekerheid aan verkeerde antwoorden.
De Winnaar: ACSE fungeerde als een slimme navigator. Op een trivia-test identificeerde het verkeerde antwoorden correct in 88% van de gevallen (AUROC 0,88), terwijl de op één na beste methode slechts 80% haalde.
De Veiligheid: Het stopte de AI succesvol veel vaker dan eerdere methoden om verkeerde antwoorden te geven in situaties met hoge stakes, zonder zo voorzichtig te zijn dat het weigerde om überhaupt iets te beantwoorden.

In het Kort

ACSE is een systeem dat een AI vraagt om een vraag meerdere keren te beantwoorden, de antwoorden groepeert op betekenis in plaats van op woorden, controleert of de groep op stevige of wankel grond staat, en een wiskundig bewezen veiligheidsnet gebruikt om te beslissen wanneer het moet spreken en wanneer het moet zwijgen. Het zorgt ervoor dat wanneer de AI spreekt, het niet alleen zelfverzekerd is, maar eigenlijk betrouwbaar.

Each language version is independently generated for its own context, not a direct translation.

Technische Samenvatting: Adaptieve Conformale Semantische Entropie (ACSE)

Probleemstelling
Grote Taalmodellen (LLM's) vertonen frequent overmoed, met name bij het genereren van hallucinaties, wat aanzienlijke risico's met zich meebrengt voor de inzet in veiligheidskritieke domeinen zoals gezondheidszorg, recht en wetenschappelijk onderzoek. Bestaande methoden voor onzekerheidskwantificering (UQ) vertrouwen voornamelijk op token-niveau signalen, zoals de entropie van het volgende token of de log-waarschijnlijkheid van een reeks. Deze benaderingen slagen er niet in semantische variantie te vangen; ze wijzen vaak hoge zekerheid toe aan outputs die lexicaal divers zijn maar semantisch inconsistent of onjuist. Bovendien vertrouwen recente methoden op semantisch niveau, zoals Semantische Entropie (SE), op harde clustering, wat kan leiden tot instabiele schattingen door overlappende semantische gebieden te negeren. Andere conformale benaderingen, hoewel ze statistische garanties bieden, behandelen onzekerheid vaak als een scalair signaal, waardoor ze kwetsbaar zijn voor "verkeerde-consensus"-valstrikken waarbij lexicaal consistente maar feitelijk onjuiste clusters voldoen aan zekerheidsdrempels.

Methodologie
Het artikel stelt Adaptieve Conformale Semantische Entropie (ACSE) voor, een modelonafhankelijk kader voor het schatten van prompt-niveau onzekerheid door semantische dispersie in LLM-outputs te meten. De methodologie verloopt via drie hoofdfasen:

Semantische Embedding en Zachte Clustering:
Voor een gegeven prompt genereert het model $n$ diverse antwoorden met behulp van nucleus sampling. Deze antwoorden worden ingebed in een continue semantische vectorruimte met behulp van een zinsencoder. In plaats van harde clustering, maakt ACSE gebruik van Hiërarchisch Agglomeratieve Clustering (HAC) met cosinusafstand om semantische groepen te vormen, gevolgd door zachte cluster-toewijzingen. Hierdoor kunnen antwoorden probabilistisch tot meerdere clusters behoren, waardoor signalen van semantische ambiguïteit behouden blijven. Een basis onzekerheidsscore, $u(x)$ , wordt afgeleid uit de genormaliseerde entropie van de resulterende clusterverdeling.
Adaptieve Onzekerheidsinflatie:
Om structurele broosheid in clusters aan te pakken (bijvoorbeeld zwakke ondersteuning voor dominante clusters of hoge interne diversiteit), introduceert ACSE een aangepaste onzekerheidsscore, $\hat{u}(x)$ . Deze score verhoogt de basis semantische entropie op basis van vijf prompt-niveau robuustheidseigenschappen:
- Semantische Entropie: Meet multimodaliteit.
- Centroidafstand: Beoordeelt de geometrische ondersteuning voor het dominante antwoord.
- Dispersie van Dominante Cluster: Kwantificeert interne coherentie.
- Grootte van Dominante Cluster: Straft fragiele consensus die door weinig steekproeven wordt ondersteund.
- Marge tot Drempel: Onderdrukt onterechte zekerheid in regimes met lage onzekerheid.
  Deze eigenschappen worden geaggregeerd tot een "broosheidsmetriek" $B(x)$ , die een inflatiefactor $\lambda(x)$ schalen. De uiteindelijke score $\hat{u}(x)$ is een gebonden, monotoon transformatie die de onzekerheid verhoogt wanneer clusterstructuren risico aangeven.
Conformale Kalibratie:
De aangepaste scores worden gekalibreerd met behulp van Conformale Predictie (CP) op een vastgehouden set prompts. Dit vestigt een beslissingsregel met eindige-steekproef, distributie-vrije garanties. Het systeem voert twee functies uit:
- Prompt-niveau Beslissing: Bepaalt of een antwoord wordt geaccepteerd of afgezien op basis van een afsnijddrempel, waarbij wordt gegarandeerd dat het foutpercentage onder geaccepteerde antwoorden onder een door de gebruiker gespecificeerde tolerantie $\alpha$ blijft.
- Antwoord-niveau Predictie Sets: Construeert een set van bemonsterde antwoorden die voldoen aan conformale dekking, waardoor de besluitvorming van de gebruiker wordt ondersteund door het identificeren van semantisch representatieve en conformale outputs.

Belangrijkste Bijdragen

ACSE Kader: Een nieuwe methode voor het schatten van entropie-gebaseerde onzekerheid op semantisch niveau, die verder gaat dan token-niveau signalen om dispersie in betekenis te vangen.
Adaptief Inflatiemechanisme: Een aangepaste onzekerheidsscore die gebruikmaakt van robuustheidseigenschappen van clusters om semantische onzekerheid adaptief te verhogen, waarbij expliciet wordt gestraft voor ambiguïteit in antwoordsemantiek en hallucinaties worden tegengegaan.
Conformale Garanties: Een post-hoc kalibratiefase die afsnijdpunten leert voor zowel prompt-niveau afzien als antwoord-niveau predictie sets, en formele garanties biedt over foutpercentages.
Empirische Validatie: Uitgebreide experimenten die superieure discriminatie en kalibratie aantonen in vergelijking met state-of-the-art baselines.

Experimentele Resultaten
De auteurs evalueerden ACSE over vijf benchmarks (TriviaQA, CoQA, Natural Questions, TruthfulQA en MMLU) met behulp van diverse LLM-architecturen (Mistral-7B, LLaMA-2, Falcon, Qwen).

Hallucinatiedetectie: ACSE presteerde consistent beter dan baselines op discriminatiemetrieken. Op de TriviaQA-dataset behaalde ACSE een AUROC van 0,88, wat significant beter is dan de Token Entropie-baseline (0,65) en het Conformale Afzienbeleid (CAP) (0,80).
Veiligheidsmetrieken: ACSE vertoonde lagere Fals-Positieve Rates (FPR) bij hoge recall-drempels. Bijvoorbeeld, op Falcon-7B verlaagde ACSE de FPR@95 van 0,48 (CAP) naar 0,31, een relatieve daling van 35,4% in geaccepteerde hallucinaties.
Conformale Garanties: ACSE hield zich strikt aan door de gebruiker gespecificeerde dekkingsniveaus ( $\alpha$ ) terwijl het hogere acceptatiepercentages behaalde dan concurrerende methoden. Bij $\alpha=0,10$ behaalde ACSE een acceptatiepercentage van 75,8% vergeleken met 65,4% voor CAP, met kleinere gemiddelde predictie-setgroottes (1,07 versus 1,32) en superieure kalibratiestabiliteit (SSCV).
Onzekerheidskwantificering: Visuele analyse bevestigde dat ACSE correcte antwoorden effectief scheidt van hallucinaties, waarbij het hoge onzekerheid toekent aan hallucinaties, zelfs wanneer basismethoden (zoals SE of Token Entropie) hoge zekerheid vertoonden.

Betekenis
Het artikel stelt dat ACSE een robuuste oplossing biedt voor de betrouwbare inzet van LLM's in veiligheidskritieke domeinen door de specifieke faalmodi van bestaande UQ-methoden aan te pakken: het onvermogen om oppervlakkige lexicaal variatie te onderscheiden van echte semantische ambiguïteit en de kwetsbaarheid voor verkeerde-consensus-valstrikken. Door semantische dispersie-analyse te combineren met adaptieve inflatie en conformale garanties, biedt ACSE een statistisch rigoureus mechanisme om hallucinaties te detecteren en foutpercentages te controleren zonder dat modelhertraining vereist is. De auteurs stellen dat hoewel het bemonsteren en de nabewerking rekenkundige overhead met zich meebrengen, deze kosten gerechtvaardigd zijn in hoog-risico toepassingen waar modelbetrouwbaarheid van het grootste belang is.

LLMs Uncertainty Quantification via Adaptive Conformal Semantic Entropy