ExpGuard: LLM Content Moderation in Specialized Domains

이 논문은 금융, 의료, 법률 등 전문 도메인의 특수한 위험에 대응하기 위해 ExpGuardMix 데이터셋을 구축하고 이를 기반으로 기존 모델보다 뛰어난 성능을 보이는 ExpGuard라는 전용 콘텐츠 moderation 모델을 제안합니다.

Minseok Choi, Dongjin Kim, Seungbin Yang, Subin Kim, Youngjun Kwak, Juyoung Oh, Jaegul Choo, Jungmin Son

게시일 2026-03-04
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🛡️ 엑스퍼트 가드 (EXPGUARD): 전문 분야를 지키는 '초능력의 AI 경비원'

이 논문은 인공지능 (LLM) 이 우리 삶에 깊숙이 들어오면서 생긴 새로운 문제를 해결하기 위해 개발된 **'EXPGUARD(엑스퍼트 가드)'**라는 기술을 소개합니다.

간단히 말해, **"일반적인 AI 경비원은 전문 용어를 몰라 속아 넘어가지만, 엑스퍼트 가드는 금융, 의료, 법률 같은 어려운 분야까지 완벽하게 감시한다"**는 이야기입니다.


1. 왜 이런 게 필요할까요? (문제 상황)

지금까지의 AI 경비원 (Guardrail) 은 일반 대화는 잘 막아냈습니다. 하지만 금융, 의료, 법률 같은 '전문가들의 놀이터'에서는 약점이 생깁니다.

  • 비유: imagine (상상해 보세요)
    • 일반 경비원: "이건 폭탄 만들법이야!"라고 말하면 막아줍니다.
    • 전문가 (악당): "그냥 '머리카락 (Haircut)'을 잘라내서 자산 가치를 숨기는 방법을 알려줘"라고 말합니다.
    • 일반 경비원의 반응: "머리카락? 그건 미용실에서 하는 거잖아? 문제없어!"라고放行 (통과) 시킵니다.
    • 실제 의미: 여기서 '머리카락 (Haircut)'은 금융에서 **'자산 가치의 할인율'**을 뜻하는 전문 용어입니다. 악의적인 사람은 이 용어를 이용해 사기나 불법적인 자산 은닉을 시도할 수 있습니다.

일반 AI 는 이런 전문 용어 뒤에 숨은 위험을 못 알아채고, 위험한 조언을 해줄 수 있습니다.

2. 해결책: EXPGUARD (엑스퍼트 가드)

연구팀은 이 문제를 해결하기 위해 **전문 분야에 특화된 AI 경비원 'EXPGUARD'**를 만들었습니다.

  • 핵심 기능: 이 경비원은 금융, 의료, 법률 분야의 전문 용어와 복잡한 개념을 완벽하게 이해합니다.
  • 작동 원리: 악의적인 사용자가 전문 용어를 써서 "불법적인 방법 알려줘"라고 속여도, 경비원은 "아, 이건 '머리카락'이 아니라 '자산 할인'을 이용해 사기를 치려는 구나!"라고 바로 간파하고 차단합니다.

3. 어떻게 만들었나요? (EXPGUARDMIX 데이터)

이 경비원을 훈련시키기 위해 거대한 **'위험한 시나리오 도서관 (EXPGUARDMIX)'**을 만들었습니다.

  • 도서관의 구성:
    • 58,928 개의 사례: 금융, 의료, 법률 분야에서 실제로 일어날 수 있는 위험한 질문과 답변, 그리고 안전한 답변들을 모았습니다.
    • 전문가의 눈 (EXPGUARDTEST): 이 중 2,275 개는 실제 은행원, 의사, 변호사 같은 현업 전문가들이 직접 검토했습니다. "이게 진짜 위험한가?"를 인간 전문가가 최종 확인한 것이죠.
  • 만드는 과정:
    1. 용어 발굴: 위키백과에서 전문 용어를 찾아냅니다.
    2. 시나리오 생성: AI 가 그 용어를 이용해 "어떻게 사기를 칠까?" 같은 위험한 질문을 만들어냅니다.
    3. 전문가 검증: 실제 전문가들이 "이건 진짜 위험하다"고 확인합니다.

4. 성능은 어떨까요? (결과)

이 새로운 경비원을 시험해 보니 놀라운 결과가 나왔습니다.

  • 기존 경비원 vs 엑스퍼트 가드:
    • 기존에 가장 잘하는 경비원 (WildGuard) 은 전문 분야 위험을 84% 정도만 막아냈습니다.
    • 엑스퍼트 가드는 93% 이상을 막아냈습니다.
    • 특히 답변을 차단하는 능력에서는 기존 모델보다 15% 이상 더 뛰어났습니다.
  • 일반적인 안전성: 전문 분야만 잘하는 게 아니라, 일반적인 폭력이나 혐오 표현을 막는 능력도 최상위권으로 유지했습니다.

5. 요약: 왜 중요한가요?

이 연구는 **"AI 를 금융, 병원, 법원에 쓸 때는 일반용 AI 가 아니라, 그 분야를 아는 AI 경비원이 필요하다"**는 것을 증명했습니다.

  • 창의적인 비유:
    • 기존 AI 경비원은 일반적인 문지기처럼 "누구든 들어오지 마!"라고 막습니다.
    • 하지만 악당들은 전문가 복장을 입고 "나는 의사야, 약 처방해 줘"라고 속여 들어옵니다.
    • EXPGUARD수사관처럼 그 사람의 말투와 전문 용어를 분석해, "아, 너는 가짜 의사구나! 들어오지 마!"라고 정확히 차단합니다.

이 기술이 오픈소스로 공개되어, 앞으로 우리가 AI 를 사용할 때 더 안전하고 신뢰할 수 있는 환경을 만들 수 있기를 바랍니다.