FlexGuard: Continuous Risk Scoring for Strictness-Adaptive LLM Content Moderation
Le papier présente FlexGuard, un modérateur de contenu LLM basé sur un score de risque continu et calibré qui surpasse les approches binaires existantes en offrant une robustesse accrue face aux variations de sévérité des règles de modération, grâce à l'introduction du benchmark FlexBench et à une optimisation d'alignement des risques.