Uncertainty Estimation for the Open-Set Text Classification systems

Dit artikel introduceert een aangepaste HolUE-methode voor open-set tekstclassificatie die onzekerheid in zowel vraagformulering als data-distributie modelleert en hiermee aanzienlijke verbeteringen behaalt in het afwijzen van onzekere voorspellingen ten opzichte van bestaande baselines.

Leonid Erlygin, Alexey Zaytsev

Gepubliceerd 2026-04-13
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar soms wat onzekere assistent hebt die alle vragen van mensen moet beantwoorden. Deze assistent is getraind op een specifieke lijst met onderwerpen: weer, bankzaken, taxi's en nieuws. Maar wat gebeurt er als iemand een vraag stelt die de assistent nog nooit heeft gehoord, of een vraag die net iets te veel lijkt op een bekende vraag, maar eigenlijk anders bedoeld is?

Dit is precies het probleem waar dit wetenschappelijke artikel over gaat. De auteurs, Erlygin en Zaytsev, hebben een nieuwe manier bedacht om te laten zien wanneer een computer niet zeker is van zijn antwoord. Ze noemen dit "onzekerheidsschatting" voor tekst.

Hier is de uitleg in gewone taal, met een paar leuke vergelijkingen:

1. Het Probleem: De "Open Set" Dilemma

Stel je een museum voor met een galerij van bekende schilderijen (de "gallery"). Als er een nieuw schilderij binnenkomt (de "probe"), moet de museumwacht beslissen:

  • Is dit een van de bekende schilderijen? (En zo ja, welke?)
  • Of is dit een nep of een compleet nieuw schilderij dat we niet kennen?

In de wereld van tekst (zoals chatbots of nieuwsfilters) is dit lastig. Een chatbot moet soms een vraag als "Is het koud?" beantwoorden (weer), maar wat als iemand vraagt: "Zal ik mijn jas aan doen?" Dat klinkt als weer, maar het is eigenlijk een adviesvraag. Of wat als iemand een vraag stelt die de bot helemaal niet kent?

De meeste huidige systemen zijn als een stijve robot: ze moeten een antwoord geven, zelfs als ze het niet weten. Ze raden dan vaak iets verkeerd. Dat is gevaarlijk als het gaat om bankzaken of medische adviezen.

2. De Oplossing: Twee Soorten Twijfel

De auteurs zeggen: "Een goede robot moet niet alleen weten wat het antwoord is, maar ook hoe zeker hij zich voelt." Ze ontdekken dat er twee soorten twijfel zijn, en ze hebben een nieuwe methode bedacht om beide te meten.

Stel je voor dat je een detective bent die verdachten in een gevangenis moet herkennen.

  • Type 1: De "Vage Verdachte" (Embedding Uncertainty)
    Soms is de verdachte zelf verward. Hij heeft een slechte foto, hij draagt een pruik, of hij spreekt met een zware accent. De detective kan niet goed zien wie het is.

    • In tekst: Dit gebeurt als iemand een vraag stelt met veel slang, fouten, of een rare zin ("Zet een waarschuwing op als mijn bankrekening begint te lopen"). De computer ziet de woorden, maar de betekenis is wazig. De computer moet denken: "Ik weet niet zeker wie dit is, omdat de input slecht is."
  • Type 2: De "Verwarrende Galerij" (Gallery Uncertainty)
    Soms is de verdachte heel duidelijk, maar zit hij in een kamer vol met mensen die er precies op lijken. Stel, je hebt een galerij met tien mensen die allemaal op elkaar lijken. Als er een nieuwe man binnenkomt, is het moeilijk om te zeggen of hij bij groep A of groep B hoort, omdat de grenzen tussen de groepen vaag zijn.

    • In tekst: Dit gebeurt als twee onderwerpen heel veel op elkaar lijken. Bijvoorbeeld "Taxi naar het vliegveld" en "Hoe laat vertrekt de bus?". Ze zijn beide vervoer, maar de computer moet weten of het een taxi of een bus is. Als de grens tussen deze categorieën vaag is, wordt de computer onzeker, zelfs als de vraag zelf heel duidelijk is.

3. De Nieuwe Methode: HolUE (De "Alwetende Detective")

De auteurs hebben een methode bedacht genaamd HolUE (Holistic Uncertainty Estimation). In plaats van alleen te kijken naar de kwaliteit van de vraag (Type 1) of alleen naar de grenzen tussen de categorieën (Type 2), doet HolUE beide.

Het is alsof je een detective hebt die:

  1. Kijkt naar de foto van de verdachte (Is de foto wazig?).
  2. Kijkt naar de kaart van de gevangenis (Ligt deze verdachte precies op de lijn tussen twee cellen?).

Als de detective beide signalen combineert, kan hij veel beter zeggen: "Ik ga dit niet raden, want ik ben het niet zeker."

4. Wat hebben ze getest?

Ze hebben hun methode getest op verschillende gebieden:

  • Chatbots: Kunnen ze vragen herkennen die ze niet kunnen beantwoorden?
  • Auteurherkenning: Kunnen ze zien of een tekst geschreven is door een bekende schrijver of door een neppe imitator?
  • Onderwerpclassificatie: Kunnen ze nieuwsartikelen in de juiste bak gooien, of zeggen "dit hoort hier niet bij"?

5. Het Resultaat: Een Groot Succes

De resultaten waren indrukwekkend. Hun nieuwe methode (HolUE) was veel beter dan de oude methoden.

  • Op sommige tests was het 365% beter in het herkennen van fouten dan de oude standaardmethoden.
  • Het systeem kon veel eerder zeggen: "Stop, ik weet het niet zeker," waardoor er veel minder fouten werden gemaakt.

Waarom is dit belangrijk?

Voor de toekomst van AI is dit cruciaal. We willen geen robots die altijd denken dat ze gelijk hebben. We willen robots die weten wanneer ze moeten stoppen en een mens moeten inschakelen.

Kort samengevat:
Deze paper zegt: "Laten we niet alleen kijken of een computer het antwoord weet, maar ook kijken of hij twijfelt. Door te kijken naar zowel de kwaliteit van de vraag als de verwarring in de categorieën, kunnen we systemen maken die veiliger en betrouwbaarder zijn. Ze zeggen 'Ik weet het niet' in plaats van 'Ik denk dat het dit is' als ze eigenlijk in de war zijn."

Het is als het verschil tussen een arrogante leerling die altijd een antwoord roept, en een wijze meester die weet wanneer hij moet zeggen: "Ik moet hier nog even over nadenken."

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →