ExpGuard: LLM Content Moderation in Specialized Domains
Le papier présente ExpGuard, un modèle de modération de contenu spécialisé et son jeu de données associé ExpGuardMix, conçus pour protéger les grands modèles de langage dans les domaines financier, médical et juridique contre les attaques adverses, surpassant ainsi les solutions actuelles comme WildGuard.