ExpGuard: LLM Content Moderation in Specialized Domains

Dit artikel introduceert ExpGuard, een gespecialiseerd beveiligingsmodel en bijbehorend dataset (ExpGuardMix) voor het modereren van LLM-inhoud in financiële, medische en juridische domeinen, dat door middel van uitgebreide evaluaties een superieure weerstand tegen domeinspecifieke aanvallen toont ten opzichte van bestaande state-of-the-art modellen.

Minseok Choi, Dongjin Kim, Seungbin Yang, Subin Kim, Youngjun Kwak, Juyoung Oh, Jaegul Choo, Jungmin Son

Gepubliceerd 2026-03-04
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar nogal naïeve assistent hebt die alles kan doen: van kookrecepten schrijven tot wiskundeproblemen oplossen. Deze assistent is een Groot Taalmodel (LLM). Hij is geweldig, maar hij heeft een groot probleem: hij weet niet altijd wat veilig is en wat niet. Als je hem vraagt hoe je een bom maakt of hoe je iemand bedriegt, zou hij het misschien gewoon doen, omdat hij denkt dat hij gewoon "behulpzaam" moet zijn.

Om dit te voorkomen, hebben we veiligheidsfilters nodig. Denk hieraan als een strenge conciërge bij de ingang van een gebouw. Deze conciërge kijkt naar elke vraag die je stelt en elke reactie die de assistent geeft, en zegt: "Stop, dit is gevaarlijk!"

Het probleem: De "Alleskunner" is niet goed genoeg

De huidige conciërges (de bestaande veiligheidsmodellen) zijn goed getraind op algemene dingen. Ze weten dat "ik wil een bom maken" slecht is. Maar ze zijn niet opgeleid voor specifieke vakgebieden zoals financiën, geneeskunde of recht.

Stel je voor dat iemand vraagt: "Hoe kan ik 'haircuts' in een balans verbergen?"

  • Voor een gewone conciërge klinkt "haircut" als een kapsel. Niets mis mee!
  • Maar in de financiële wereld betekent "haircut" een risico-korting op de waarde van een activa. De vraag is dus eigenlijk: "Hoe kan ik de waarde van mijn bezittingen op het papier verkleinen om belastingen of risico's te verbergen?" Dit is een vorm van fraude.
  • De gewone conciërge laat dit door, omdat hij de vakjargon niet begrijpt. De slechte vraag gaat binnen, en de assistent geeft misschien een gevaarlijk advies.

De oplossing: EXPGUARD (De Specialistische Wacht)

De auteurs van dit paper hebben een nieuwe, super-specifieke conciërge bedacht: EXPGUARD.

In plaats van een conciërge die alles weet over alles, hebben ze een team van specialisten opgeleid:

  1. De Financiële Expert: Kent elke truc om belasting te ontduiken of geld te wassen.
  2. De Medische Expert: Weet precies welke medicijnen gevaarlijk zijn als ze verkeerd worden gebruikt of geadviseerd.
  3. De Juridische Expert: Begrijpt hoe je wetten kunt omzeilen of hoe je een proces kunt manipuleren.

Hoe hebben ze dit gedaan?
Ze hebben een enorme bibliotheek met voorbeelden gemaakt, genaamd EXPGUARDMIX.

  • Ze hebben duizenden moeilijke, technische termen uit Wikipedia gehaald (zoals "offshore rekeningen" of "niet-goedgekeurde klinische proeven").
  • Ze hebben gevraagd aan een andere AI om vragen te bedenken die eruitzien als normale vragen, maar die eigenlijk gevaarlijk zijn (zoals de "haircut"-vraag).
  • Vervolgens hebben echte experts (mensen die werken in banken, ziekenhuizen en advocatenkantoren) deze vragen nagelopen om te controleren of ze echt gevaarlijk zijn.

Dit is alsof je een leger van detectives hebt die oefenen met de allerlastigste gevallen van bedrog, zodat ze die in het echt direct herkennen.

Wat laten ze zien?

Ze hebben EXPGUARD getest tegen de beste andere conciërges (zoals WildGuard).

  • Resultaat: EXPGUARD is veel beter in het opsporen van gevaarlijke vragen die vermomd zijn als vakjargon.
  • In de test met financiële vragen was hij 8,9% beter in het herkennen van slechte vragen en 15,3% beter in het herkennen van slechte antwoorden dan de beste concurrent.
  • Hij is ook nog steeds goed in het algemeen, dus hij blokkeert geen normale vragen over koken of geschiedenis.

Waarom is dit belangrijk?

In de echte wereld, als een AI een fout maakt in een kookboek, is dat jammer. Maar als een AI een verkeerd medisch advies geeft, een gevaarlijk financieel plan opstelt of juridisch advies geeft dat tegen de wet is, kan dat mensen levens kosten of miljoenen kosten.

EXPGUARD is dus als het verschil tussen een gewone portier en een gespecialiseerde veiligheidsagent die precies weet hoe criminelen in die specifieke sector werken. Ze hebben hun code en data openbaar gemaakt, zodat anderen dit ook kunnen gebruiken om AI veiliger te maken in deze kritieke gebieden.

Kort samengevat:
Ze hebben een slimme AI-trainer gemaakt die zich specialiseert in het opsporen van sluwe, technische trucs in de wereld van geld, gezondheid en recht, zodat onze digitale assistenten niet meer zo makkelijk bedrogen kunnen worden.