Revisiting Unknowns: Towards Effective and Efficient Open-Set Active Learning

Dit artikel introduceert E²OAL, een unified en detector-vrij raamwerk voor open-set actief leren dat gelabelde onbekende klassen effectief benut via label-gestuurde clustering en Dirichlet-gecalibreerde hulpkoppen om zowel de nauwkeurigheid als de efficiëntie te verbeteren zonder de hoge trainingskosten van bestaande methoden.

Chen-Chen Zong, Yu-Qi Chi, Xie-Yang Wang, Yan Cui, Sheng-Jun Huang

Gepubliceerd 2026-03-10
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een grote bibliotheek organiseert. Je hebt een lijst met boeken die je kent (bijvoorbeeld "Kookboeken", "Reisgidsen" en "Detectiveverhalen"). Maar terwijl je de boeken sorteert, duiken er ook boeken op waarvan je niet weet wat ze zijn: misschien een boek in een vreemde taal, een oud dagboek, of een handleiding voor een apparaat dat nog niet bestaat.

In de wereld van kunstmatige intelligentie (AI) noemen we deze onbekende boeken "open-set" data. Het probleem is dat de AI, als ze niet goed wordt begeleid, deze vreemde boeken vaak per ongeluk probeert in te delen bij de bekende categorieën, of juist helemaal negeert. Dit maakt de AI verward en minder slim.

Dit papier introduceert een nieuwe methode genaamd E2OAL. Het is als een slimme bibliothecaris die twee dingen doet: hij leert van de vreemde boeken én hij kiest slim uit welke boeken hij eerst laat nakijken door een mens.

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het oude probleem: De "Goochelaar" en de "Vergeten Hoek"

Vroeger hadden AI-systemen een lastige truc nodig. Ze hadden een aparte "detective" nodig die moest kijken: "Is dit boek wel een kookboek?" Als de detective niet zeker was, werd het boek weggegooid of als "onbekend" gemarkeerd.

  • Het nadeel: Het kostte veel tijd om die detective te trainen. En nog belangrijker: als je eenmaal wist dat een boek "onbekend" was, keek de AI er vaak niet meer naar. Alsof je een vreemd dagboek in de hoek gooit en vergeet dat er misschien interessante verhalen in staan die je wél kunt gebruiken om beter te leren over de bekende boeken.

2. De nieuwe oplossing: E2OAL (De Slimme Bibliothecaris)

De auteurs van dit papier zeggen: "Wacht even, die onbekende boeken zijn niet nutteloos! Ze hebben een eigen structuur."

Stel je voor dat je een groep vreemde boeken hebt. In plaats van ze allemaal in één grote hoop "Onbekend" te gooien, kijkt de AI: "Zie ik hier patronen? Zien deze drie vreemde boeken eruit alsof ze bij elkaar horen? En die andere twee?"

De drie magische stappen van E2OAL:

Stap 1: De "Onbekenden" groeperen (Clustering)

De AI gebruikt een speciale bril (een voorgeprogrammeerd systeem dat al veel heeft gezien) om naar de boeken te kijken. Zelfs als ze geen titel hebben, ziet de AI: "Ah, deze drie vreemde boeken lijken op elkaar, en die twee andere lijken weer op iets anders."

  • De analogie: Het is alsof je een doos met losse Lego-blokken krijgt. Je weet niet wat je moet bouwen, maar je ziet wel dat er rode blokken, blauwe blokken en wieltjes zijn. Je groepeert ze op kleur en vorm. Dit helpt de AI om de structuur van de wereld beter te begrijpen, zelfs voor dingen die ze niet kent.

Stap 2: Leren van de "Onbekenden" (Calibratie)

In plaats van die groepen vreemde boeken te negeren, gebruikt de AI ze als extra oefenmateriaal.

  • De analogie: Stel je voor dat je een kok bent die alleen Italiaanse gerechten kent. Plotseling krijg je een recept voor een onbekend Aziatisch gerecht. In plaats van het weg te gooien, zegt de kok: "Oké, dit is niet pasta, maar ik zie dat er ook kruiden en vuur bij komen. Dit helpt me om te begrijpen hoe 'kruiden' werken in het algemeen."
  • De AI leert hierdoor beter te onderscheiden tussen wat ze wel kent en wat ze niet kent. Ze wordt minder zelfverzekerd over dingen die ze niet begrijpt (een veelvoorkomend probleem bij AI).

Stap 3: Slimme Selectie (De Vraagstrategie)

Nu de AI slimmer is, moet ze beslissen: "Welke boeken laat ik nu aan de mens zien om te labelen?"
Ze wil niet zomaar willekeurige boeken vragen, en ze wil zeker niet de vreemde boeken vragen die ze toch niet kan categoriseren.

  • De "Reinheid" (Purity): De AI kijkt eerst: "Is dit boek waarschijnlijk een kookboek?" Als het antwoord "misschien" is, maar de kans is groot, dan is het een goede kandidaat.
  • De "Nuttigheid" (Informativeness): Vervolgens kijkt ze: "Is dit boek interessant?" Als het boek heel duidelijk een kookboek is, weet de AI dat al. Als het boek heel duidelijk geen kookboek is, wil ze dat ook niet weten. Ze zoekt het boekje dat "net op de rand" zit: een beetje twijfelachtig, maar wel interessant genoeg om te leren.
  • De Analogie: Het is alsof je een quizvraagt stelt. Je wilt niet vragen: "Is dit een appel?" (als het duidelijk een appel is) en je wilt niet vragen: "Is dit een auto?" (als het duidelijk een auto is). Je vraagt: "Is dit een aardbei of een tomaat?" Want daar leer je het meest van.

Waarom is dit zo geweldig?

  1. Efficiëntie: Je hoeft geen aparte "detective" te trainen. De AI doet alles in één keer. Dat bespaart tijd en rekenkracht.
  2. Leren van alles: De AI gebruikt de "onbekende" boeken als extra lesmateriaal in plaats van ze als vuilnis te behandelen.
  3. Betrouwbare keuzes: De AI vraagt de mens alleen om boeken die echt nuttig zijn om te labelen, en vermijdt het vragen van boeken die de AI toch niet kan begrijpen.

Kortom:
E2OAL is een slimme manier om AI te trainen in een wereld vol verrassingen. Het leert de AI om niet bang te zijn voor het onbekende, maar om die onbekende dingen te gebruiken om nog slimmer te worden in wat ze wel kent. Het is alsof je een student niet alleen laat studeren voor het examen, maar ook laat nadenken over de vragen die niet op het examen staan, zodat ze de stof beter begrijpen.