Hate Speech Detection using Large Language Models with Data Augmentation and Feature Enhancement

이 논문은 데이터 증강과 특징 향상 기법을 적용하여 전통적 분류기와 다양한 대규모 언어 모델을 비교 분석한 결과, 오픈소스 gpt-oss-20b 모델이 가장 높은 성능을 보였으며 데이터셋과 모델 간 상호작용이 혐오 발언 탐지 효율성에 결정적임을 규명했습니다.

Brian Jing Hong Nge, Stefan Su, Thanh Thi Nguyen, Campbell Wilson, Alexandra Phelan, Naomi Pfitzner

게시일 2026-03-06
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"온라인에서 혐오 발언을 찾아내는 인공지능 (AI) 을 더 똑똑하게 만드는 방법"**에 대한 연구입니다. 마치 경찰이 범죄자를 잡기 위해 다양한 수사 기법을 개발하는 것과 비슷하죠.

연구진들은 모나시 대학교 (Monash University) 소속으로, 기존의 전통적인 방법과 최신의 거대 언어 모델 (LLM) 을 비교하며 어떤 조합이 가장 효과적인지 실험했습니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 연구의 배경: 왜 이 연구가 필요할까?

인터넷은 거대한 광장입니다. 이곳에는 좋은 사람들도 많지만, 때로는 다른 사람을 괴롭히거나 혐오하는 말을 하는 '악당'들도 숨어 있습니다.

  • 문제점: 악당들이 점점 교묘해졌습니다. 직접 "너를 죽이겠다"라고 말하지 않고, 은유나 농담, 혹은 문맥을 바꿔서 혐오를 표현합니다. (이를 암시적 혐오라고 합니다.)
  • 목표: AI 가 이런 교묘한 악당들도 구별해낼 수 있도록, 데이터를 더 풍부하게 만들고 (데이터 증강), AI 가 문장을 더 잘 이해하도록 도와주는 (특징 강화) 기술을 테스트했습니다.

2. 실험 도구: 어떤 '수사관'들을 비교했나?

연구진들은 서로 다른 능력을 가진 6 명의 '수사관 (모델)'을 데려와서 같은 사건 (데이터) 을 해결하게 했습니다.

  • 전통형 수사관 (Delta TF-IDF): 오래된 방식이지만 꼼꼼하게 단어를 세는 스타일입니다.
  • 중급 수사관 (DistilBERT, RoBERTa, DeBERTa): 문맥을 이해하는 최신 AI 들입니다.
  • 초고급 수사관 (Gemma-7B, gpt-oss-20b): 거대 언어 모델 (LLM) 로, 마치 박사급 지식을 가진 천재 수사관들입니다. 특히 gpt-oss-20b는 200 억 개의 파라미터를 가진 최강자입니다.

3. 실험 방법: 어떻게 능력을 키웠나? (비유: 수사관의 훈련)

AI 들의 능력을 키우기 위해 네 가지 훈련 방법을 적용했습니다.

  1. 균형 잡기 (SMOTE & 가중치): 혐오 발언은 일반 글보다 훨씬 적습니다 (불균형). 마치 범죄 현장이 너무 적어서 범인을 찾기 힘든 상황과 비슷하죠. 그래서 AI 가 혐오 발언을 더 많이 보게 하거나, 잘못 찾아낼 때 더 큰 벌점을 주는 방식으로 훈련시켰습니다.
  2. 문법 분석 (POS 태깅): 문장의 품사 (명사, 동사 등) 를 분석해 문법적 패턴을 학습시켰습니다. 마치 수사관이 범인의 말투나 문법 실수를 단서로 삼는 것과 같습니다.
  3. 데이터 증강 (Data Augmentation): 기존 데이터를 변형해서 새로운 예시를 만들어냈습니다. 마치 "범인이 A 라고 말하면 B 라고도 할 수 있으니, A 와 B 를 모두 연습해라"라고 시키는 것입니다.
  4. 혼합 훈련: 위의 방법들을 모두 섞어서 훈련시켰습니다.

4. 주요 발견: 누가 이겼고, 어떤 교훈을 얻었나?

🏆 최강의 수사관: gpt-oss-20b

  • 결과: 거의 모든 테스트에서 gpt-oss-20b가 가장 높은 점수를 받았습니다.
  • 비유: 이 모델은 마치 범인의 심리까지 읽을 수 있는 천재 형사입니다. 특히 **암시적 혐오 (은유나 농담으로 숨긴 혐오)**를 찾아내는 데 가장 능했습니다.

🚀 놀라운 반전: 전통적인 수사관의 부활

  • 결과: 전통적인 모델인 Delta TF-IDF는 기본 점수는 낮았지만, **'데이터 증강 (데이터를 변형해서 늘리는 훈련)'**을 받자마자 점수가 폭등했습니다.
  • 비유: 평소에는 평범한 형사였는데, 다양한 변칙적인 사건 (데이터 증강) 을 많이 겪은 후에는 Stormfront라는 특정 사건 (백인 우월주의 포럼 데이터) 에서 **98.2%**라는 압도적인 정확도를 기록했습니다. 이는 "적절한 훈련만 받으면 오래된 기술도 최신 기술에 뒤처지지 않는다"는 것을 보여줍니다.

⚠️ 함정: 무조건 좋은 게 아니다

  • 교훈: 모든 훈련 방법이 모든 모델에 좋은 것은 아닙니다.
    • **SMOTE(데이터 늘리기)**는 때로는 AI 를 혼란스럽게 만들어 성능을 떨어뜨리기도 했습니다. (가짜 단서 때문에 범인을 놓치는 경우)
    • **문법 분석 (POS)**은 전통적인 모델에는 도움이 되었지만, 이미 문맥을 잘 이해하는 최신 AI 에는 오히려 방해가 되기도 했습니다.
    • 데이터 증강은 전통적인 모델에게는 '영양제'였지만, 최신 AI 에게는 '소화불량'을 유발하기도 했습니다.

5. 결론: 무엇을 배웠을까?

이 연구는 **"하나의 정답은 없다"**는 것을 보여줍니다.

  1. 데이터의 성격이 중요하다: 혐오 발언이 얼마나 노골적인지 (명시적 vs 암시적) 에 따라 가장 좋은 모델이 다릅니다.
  2. 맞춤형 전략: AI 모델의 종류와 데이터의 특성을 잘 파악해서, 어떤 훈련 방법 (증강, 문법 분석 등) 을 쓸지 신중하게 골라야 합니다. 무작정 최신 기술을 다 적용한다고 해서 좋은 결과가 나오지 않습니다.
  3. 미래: 앞으로는 더 다양한 언어와 문화적 배경을 고려한 데이터가 필요하며, AI 가 단순히 분류하는 것을 넘어 '왜 이것이 혐오인지' 논리적으로 설명할 수 있는 능력 (Chain-of-Thought) 을 키우는 것이 중요합니다.

한 줄 요약:

"최고의 AI(gpt-oss-20b) 가 가장 잘하지만, 전통적인 방법도 적절한 훈련 (데이터 증강) 을 받으면 놀라운 성과를 낼 수 있습니다. 중요한 것은 상황에 맞는 '맞춤형 수사 전략'을 세우는 것입니다."