Multiclass Hate Speech Detection with RoBERTa-OTA: Integrating Transformer Attention and Graph Convolutional Networks

이 논문은 RoBERTa 임베딩과 확장된 그래프 합성곱 네트워크를 결합하여 온톨로지 기반의 주의를 도입한 'RoBERTa-OTA' 모델을 제안함으로써, 사회 미디어의 다중 클래스 혐오 표현 탐지 정확도를 기존 방법론 대비 유의미하게 향상시켰음을 보여줍니다.

Mahmoud Abusaqer, Jamil Saquer

게시일 2026-03-06
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 소셜 미디어에서 **다양한 형태의 혐오 발언 **(Hate Speech)을 더 정확하게 찾아내는 새로운 인공지능 기술을 소개합니다.

기존의 기술은 단순히 "이게 혐오 발언이야, 아니야"라고 이분법적으로만 판단하거나, 특정 그룹 (예: 성별, 종교, 인종) 을 겨냥한 미세한 차이를 놓치는 경우가 많았습니다. 이 연구팀은 **"RoBERTa-OTA"**라는 새로운 시스템을 만들어, AI 가 단순히 글자만 읽는 게 아니라 사전에 담긴 '지식'까지 함께 생각하게 함으로써 성능을 획기적으로 높였습니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


🕵️‍♂️ 1. 문제: 왜 기존 AI 는 헷갈릴까?

소셜 미디어의 혐오 발언은 매우 교묘합니다.

  • 직접적인 공격: "너는 나쁜 종교인이다" (이건 AI 가 쉽게 잡음)
  • 암시적인 공격: "어떤 성별의 사람들은 머리가 나빠서..." (이건 AI 가 놓치기 쉬움)

기존의 AI (RoBERTa 같은 모델) 는 마치 외국어 공부를 막 시작한 학생과 같습니다. 책 (데이터) 을 많이 읽어서 문법 (단어 패턴) 은 잘 알지만, 그 뒤에 숨겨진 문화적 맥락이나 뉘앙스를 파악하는 데는 약합니다. 특히 "성별"이나 "기타" 카테고리는 은유나 암호 같은 언어를 쓰기 때문에 AI 가 "아, 이건 혐오 발언이구나!"라고 깨닫지 못해 놓치는 경우가 많았습니다.

🧠 2. 해결책: RoBERTa-OTA (지식 지도가 있는 탐정)

연구팀은 이 문제를 해결하기 위해 두 가지 뇌를 가진 시스템을 만들었습니다.

A. 첫 번째 뇌: RoBERTa (유능한 언어 분석가)

이 부분은 이미 아주 뛰어난 AI 입니다. 문장 속의 단어 순서, 문맥, 감정을 아주 잘 이해합니다. 하지만 때로는 "이게 왜 문제지?"라고 고민하다가 넘어갈 때가 있습니다.

B. 두 번째 뇌: OTA (지식 지도와 연결된 그래프)

여기서 핵심은 OTA(Ontology-guided Transformer Attention)입니다.
이를 **"혐오 발언에 대한 전문 지식 지도 **(Ontology)라고 상상해 보세요.

  • 이 지도에는 "종교", "성별", "인종" 같은 카테고리들이 서로 어떻게 연결되어 있는지, 각각 어떤 특징 (예: 종교는 신학적 용어를 많이 씀, 성별은 외모 공격을 많이 함) 을 가지는지 구조화된 지식으로 담겨 있습니다.
  • 이 지식은 **그래프 신경망 **(GCN)이라는 기술을 통해 AI 에게 전달됩니다. 마치 탐정이 사건을 해결할 때, 단순히 목격자의 말만 듣는 게 아니라 범행 수법과 과거 사례를 정리한 지도를 펼쳐놓고 비교하는 것과 같습니다.

🔄 3. 작동 원리: 두 뇌의 협업 (듀얼 스트림)

이 시스템은 두 가지 정보를 동시에 처리합니다.

  1. 글자 읽기: AI 가 트윗 내용을 읽고 "이 문장은 성별을 조롱하는 것 같아"라고 추측합니다.
  2. 지식 대조: 동시에 "지식 지도"를 열어봅니다. 지도에는 "성별 혐오는 보통 외모나 성적 대상화와 연결된다"는 정보가 있습니다.
  3. 결합: AI 는 "아, 이 글자는 성별 관련 단어고, 지식 지도에서도 그런 패턴이 나오네? 확실히 혐오 발언이다!"라고 결론을 내립니다.

이처럼 **텍스트의 맥락 **(RoBERTa)과 **구조화된 지식 **(GCN)을 합쳐서 판단하기 때문에, 은밀하게 숨겨진 혐오 발언도 잡아낼 수 있습니다.

📊 4. 성과: 얼마나 좋아졌을까?

실험 결과, 이 새로운 시스템은 기존 최고의 기술보다 훨씬 뛰어났습니다.

  • 정확도: 95.02% → 96.04% (약 1% 향상)
    • 숫자만 보면 작아 보일 수 있지만, AI 세계에서는 엄청난 차이입니다.
  • 가장 큰 승리:
    • 성별 혐오: 2.36% 향상 (기존에 가장 잡기 어려웠던 부분)
    • 기타 혐오: 2.38% 향상 (다양한 대상에 대한 공격)
    • 이는 마치 가장 교묘한 위장술을 쓴 범인을 잡는 데 성공한 것과 같습니다.
  • 비용: 시스템이 무거워진 정도는 **0.33%**에 불과합니다. (컴퓨터 성능을 거의 다 쓰지 않고도 효과를 본 셈입니다.)

🛡️ 5. 강점: 헷갈리는 말에도 강함

소셜 미디어에는 오타, 줄임말, 신조어, 이모지 등이 섞여 있습니다.

  • 기존 AI: "너는 ㄱㄴㄷ 같은 사람이다" (오타가 많으면) → "뭐라고?" 하고 헷갈려서 놓칩니다.
  • RoBERTa-OTA: "지식 지도를 보니 'ㄱㄴㄷ'는 특정 그룹을 비하하는 은어로 쓰이는 경우가 많아. 문맥도 그렇고." → 오타가 있어도 의미를 파악해냅니다.

💡 요약: 왜 이 연구가 중요한가?

이 연구는 AI 가 단순히 글자를 읽는 수준을 넘어, **세상의 지식 **(도덕적, 문화적 맥락)을 이해하게 했다는 점에서 의미가 큽니다.

  • 비유하자면: 예전에는 AI 가 "이 단어는 나쁜 단어야"라고 외운다면, 이번 연구는 AI 가 "이 단어가 누구에게, 어떤 맥락에서 쓰이면 나쁜 뜻이 되는지"를 이해하게 만든 것입니다.

이 기술이 실제 소셜 미디어 플랫폼에 적용된다면, 더 많은 혐오 발언이 걸러져 사용자들이 더 안전하고 건강한 온라인 공간을 즐길 수 있게 될 것입니다.