원저자: Sergei Berezin, Reza Farahbakhsh, Noel Crespi

게시일 2026-05-13✓ Author reviewed ⓘ

📖 4 분 읽기☕ 가벼운 읽기

원저자: Sergei Berezin, Reza Farahbakhsh, Noel Crespi

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

"유해성 탐지는 텍스트 고유의 나쁨이 아닌 문맥적 해악을 측정해야 한다"는 논문에 대한 설명을 쉬운 언어와 일상적인 비유로 제시합니다.

핵심 문제: "나쁜 단어"의 함정

당신이 클럽의 경비원이라고 상상해 보세요. 당신의 임무는 사람들이 무례하거나 해로운 행동을 하지 못하게 막는 것입니다. 현재 대부분의 자동화된 경비원 (AI 유해성 탐지기) 은 공항의 금속 탐지기처럼 작동합니다.

금속 탐지기가 울리면 무기가 있다고 가정합니다. 그 금속이 왜 거기에 있는지에는 관심이 없습니다.

스테이크를 자르기 위해 칼을 들고 있으면 울립니다.
누군가를 위협하기 위해 칼을 들고 있으면 울립니다.
할로윈 코스튬에서 나온 장난감 칼을 들고 있으면 울립니다.

현재의 AI 모델들은 정확히 이 금속 탐지기처럼 행동합니다. 문장을 스캔하여 "나쁜 단어"(모욕이나 비하 표현 등) 를 찾으면 즉시 유해하다고 표시합니다. 누가 말하고 있는지, 누가 듣고 있는지, 혹은 주변에서 무슨 일이 일어나고 있는지와 상관없이 단어 자체를 위험으로 간주합니다.

이 논문은 해악을 측정하는 이 방식이 결함이 있다고 주장합니다. 문장에 "나쁜 단어"가 포함되어 있다고 해서 그 특정 순간에 실제로 누군가를 해치고 있다는 뜻은 아닙니다.

진정한 해결책: "문맥적 스트레스" 프레임워크

저자들은 **문맥적 스트레스 프레임워크 (Contextual Stress Framework, CSF)**라는 유해성에 대한 새로운 사고방식을 제안합니다.

"이 문장에 나쁜 단어가 포함되어 있는가?"라고 묻는 대신, **"이 특정 메시지가 이 특정 사람에게, 이 특정 상황에서 스트레스를 주고 방의 규칙을 위반하는가?"**라고 묻습니다.

문맥을 아는 인간 경비원처럼 생각해보세요.

시나리오 A: 두 친구가 농담을 주고받고 있습니다. 한 명이 평소에는 모욕적인 단어를 사용하지만, 그들 사이에서는 애칭으로 사용하고 있습니다. 인간 경비원은 그들이 웃고 있음을 보고 우정을 알고 있습니다. 판단: 해악 없음.
시나리오 B: 낯선 사람이 공개적인 논쟁 중에 친구에게 똑같은 단어를 말합니다. 인간 경비원은 친구의 눈에서 공포를 봅니다. 판단: 해악 있음.

이 논문은 유해성 자체가 단어의 속성이 아니라, 화자, 청자, 그리고 상황 사이의 관계라고 주장합니다.

왜 구식 방식은 실패하는가 ("오경보"와 "실제 위험 놓침")

현재의 AI 가 금속 탐지기처럼 작동하기 때문에 두 가지 큰 실수를 저지릅니다.

거짓 양성 (무고한 사람 잡기): "나쁜 단어"가 포함되어 있어 해롭지 않은 발언을 금지합니다.
- 예시: 일부 커뮤니티에서는 연대를 보여주기 위해 모욕적인 단어를 재점유합니다. AI 가 그 단어를 보면 게시물을 금지하여, 실제로는 즐거움을 나누고 유대감을 형성하고 있는 커뮤니티의 목소리를 침묵시킵니다.
거짓 음성 (실제 위험 놓침): "나쁜 단어"를 사용하지 않는 해로운 발언을 놓칩니다.
- 예시: 한 사람이 매우 정중한 어조로 "너는 너무 조용하네, 뭐라고 할 똑똑한 말도 없나 보네"라고 말할 수 있습니다. 듣기에는 좋지만, 누군가를 침묵시키도록 고안된 잔인한 모욕입니다. AI 는 "나쁜 단어"가 없으므로 통과시키지만, 피해자는 상처를 받습니다.

새로운 테스트: "나쁨" 대신 "스트레스" 측정하기

저자들은 단일 점수로 문장을 "유해" 또는 "비유해"로 분류하는 것을 중단할 것을 제안합니다. 대신 스트레스와 규범 위반을 측정해야 합니다.

규범 위반: 화자가 이 특정 집단의 사회적 규칙을 위반했는가?
스트레스: 청자 (또는 집단) 가 분노, 공포, 또는 위축으로 반응했는가?

그들은 r/BlackPeopleTwitter라는 레딧 커뮤니티를 조사하여 이 아이디어를 테스트했습니다. AI 가 유해하다고 생각한 것과 실제 커뮤니티 구성원들이 반응한 것을 비교했습니다.

결과: AI 와 사람들은 종종 이견을 보였습니다. AI 는 친근한 농담을 유해하다고 표시했지만, 사람들은 웃었습니다. AI 는 사람들이 상처를 받는다고 생각한 미묘하고 악의적인 댓글은 놓쳤습니다.
교훈: 텍스트를 읽는 것만으로는 해악을 판단할 수 없습니다. 사람들이 그것에 어떻게 반응하는지 봐야 합니다.

제안: 새로운 성적표 (CSF-Eval)

이 논문은 이러한 AI 시스템을 테스트하고 구축하는 새로운 방식을 제안하며, 이를 CSF-Eval이라고 부릅니다.

AI 에게 "90% 정확도"와 같은 단일 등급을 주는 대신, 의사의 진단서처럼 사고 과정을 다섯 가지 부분으로 나누어 설명하도록 해야 합니다.

텍스트 위험: 텍스트 자체만 보면 위험해 보이는가?
규범 위반: 이 특정 집단의 규칙을 위반하는가?
스트레스/교란: 사람들이 화가 나거나 논쟁하는 증거가 있는가?
불확실성: "이것이 나쁜지 알기에 정보가 부족합니다." (AI 는 추측할 때 이를 인정해야 함).
정책 조치: "위 내용을 바탕으로, 우리는 이렇게 해야 합니다."

결론

이 논문은 해악이 발견되기를 기다리며 문장 안에 숨겨져 있다는 가정을 멈춰야 한다고 결론 내립니다.

해악은 메시지가 특정 문맥에서 수신될 때 창조됩니다. 더 안전한 온라인 공간을 만들기 위해서는 단순히 방 안에 있는 "나쁜 단어"의 수를 세는 기계가 아니라, 친구 사이의 농담과 싸움의 무기 사이의 차이를 이해하는 AI 가 필요합니다.

기술적 요약: 독성 탐지는 문맥적 해악을 측정해야 하며, 텍스트 고유의 나쁨을 측정해서는 안 됩니다

1. 문제 제기

현재의 독성 탐지 시스템은 결함이 있는 추상화에 의존합니다: 즉, 독성을 분리된 텍스트 문자열의 고유한 속성 ( $y = f(x)$ ) 으로 취급합니다. 이 접근법은 화자, 청중, 상호작용 역사, 규범적 설정, 수용과 같은 커뮤니케이션 해악의 결정적 요소들을 단일한 비문맥적 예측으로 축소합니다.

이 논문은 이러한 추상화로 인해 발생하는 두 가지 핵심 실패를 식별합니다:

객체 문제 (The Object Problem): 독성에 대한 합의된 정의는 존재하지 않습니다. 법, 플랫폼, 학술 커뮤니티는 중첩되지만 동등하지 않은 개념들 (예: "혐오", "학대", "무례함") 을 사용합니다. 결과적으로 동일한 발화는 데이터셋에 따라 법적으로 보호받거나, 정책에 따라 삭제 가능하거나, 독성 및 비독성 모두로 레이블링될 수 있어, 벤치마크의 진전을 안전에 대한 오해의 소지가 있는 지표로 만듭니다.
대리 문제 (The Proxy Problem): 독성을 텍스트 - 레이블 매핑으로 운영화함으로써 탐지기는 상황화된 커뮤니케이션 해악을 포착하지 못합니다. 이는 체계적인 오류로 이어집니다: 방언이나 재회복된 언어를 과도하게 플래그하는 것 (거짓 양성) 과 암호화된, 실용적인, 또는 문맥 의존적인 학대를 놓치는 것 (거짓 음성) 입니다. 또한, 이러한 시스템은 의미 보존 변환과 적대적 공격 하에서 취약합니다.

저자들은 벤치마크 정확도가 종종 실제 세계의 상황화된 환경에서 해악을 줄이는 모델의 능력보다는 데이터셋 고유의 주석 관습을 학습하는 모델의 능력을 반영한다고 주장합니다.

2. 방법론 및 프레임워크: 문맥적 스트레스 프레임워크 (CSF)

이러한 문제들을 해결하기 위해 저자들은 **문맥적 스트레스 프레임워크 (Contextual Stress Framework, CSF)**를 제안하며, 독성을 텍스트의 속성이 아닌 문맥적 관계로 재정의합니다.

핵심 정의

독성 (Toxicity): 지각된 규범 위반이 스트레스나 교란을 유발하는, 커뮤니케이션 행위, 해석하는 청중, 규범적 설정 간의 관계로 정의됩니다.
독성 언어 (Toxic Speech): 특정 해석 문맥 내에서 수용된 도덕적 또는 커뮤니케이션 규범의 지각된 위반을 통해 스트레스나 교란을 유발하는 언어입니다.

수학적 공식화

이 프레임워크는 커뮤니케이션 사건을 $e = (x, C, A)$ 로 모델링합니다. 여기서 $x$ 는 행위, $C$ 는 문맥, $A$ 는 청중입니다.

지각된 규범 위반 ( $\nu$ ): 청중 구성원이 해당 사건이 관련 규범을 위반한다고 지각하는 정도입니다. 이는 객관적인 도덕적 진리가 아닌 지각된 위반으로 정의됩니다.
스트레스 반응 ( $\sigma$ ): 청중 구성원에게 유발된 스트레스나 교란입니다.
개인적 독성 ( $\tau$ ): 지각된 위반과 스트레스를 결합하는 함수 $g(\nu, \sigma)$ 입니다. 이 함수는 두 변수 모두에 대해 단조 증가하며, 어느 한 구성 요소가 부재할 경우 거의 0 의 독성을 할당합니다.
사건 수준 독성 ( $T$ ): 노출, 관련성, 취약성 등의 요소로 가중된 관련 청중 전체의 개인적 독성들의 집계입니다.

측정 전략

이 논문은 텍스트 고유의 위험 (어휘적 단서) 과 수용 기반 교란 (관찰 가능한 스트레스) 을 구분합니다. 생리학적 데이터가 없는 온라인 NLP 시스템의 경우, 이 프레임워크는 답변에서의 응답 격상, 철수, 어조 변화, 또는 정서적 언어와 같은 행위적 대리 지표를 스트레스에 대한 대리 지표로 사용합니다.

3. 주요 기여

A. 이론적 재구성

이 논문은 해당 분야의 초점을 텍스트 분류에서 문맥적 해악 측정으로 이동시킵니다. 저자들은 문맥이 단순히 예측 정확도를 높이는 보조 기능이 아니라, 대상 변수를 구성한다고 주장합니다. 독성은 텍스트, 청중, 규범 간의 상호작용에서 발생하는 속성입니다.

B. 문맥적 스트레스 프레임워크 (CSF)

CSF 는 다음을 분리할 수 있는 공식적 구조를 제공합니다:

텍스트 고유 단서.
문맥적 가정.
청중 특성.
지각된 규범 위반.
수용/스트레스 신호.
불확실성.
정책 규칙.

C. CSF-Eval: 새로운 평가 의제

저자들은 단일 레이블 정확도를 넘어선 평가 프레임워크인 CSF-Eval을 제안합니다. 이는 시스템이 측정 벡터 $M(e) = (r_{text}, \hat{\nu}, \hat{\sigma}, u, \pi)$ 를 출력하도록 요구하며, 이는 다음을 나타냅니다:

$r_{text}$ : 텍스트 고유 위험.
$\hat{\nu}$ : 추정된 지각된 규범 위반.
$\hat{\sigma}$ : 추정된 스트레스/교란.
$u$ : 부분 관측 가능성 하의 불확실성.
$\pi$ : 정책 권장 사항 (측정과 명시적으로 분리됨).

CSF-Eval 은 다섯 가지 대조적 슬라이스 전반에 걸쳐 시스템을 평가합니다:

동일한 텍스트, 다른 문맥: 동일한 단어가 청중과 설정에 따라 다르게 기능한다는 것을 시스템이 인식하는지 테스트합니다.
다른 형태, 동일한 해악: 노골적인 독성 표지자에 의존하지 않고 암호화된 또는 실용적인 학대를 시스템이 탐지하는지 테스트합니다.
부재한 문맥: 문맥이 불완전할 때 시스템이 확신 있는 레이블을 강요하는 대신 불확실성을 표현하거나 포기하는지 테스트합니다.
수용 및 교란 신호: 시스템이 격상과 같은 행동적 증거를 교란의 노이즈가 있는 증거로 사용하는지 테스트합니다.
측정 - 정책 분리: 시스템이 해악 추정과 콘텐츠 삭제 또는 하위 순위 지정 결정 (정책) 을 구분하는지 테스트합니다.

4. 경험적 결과

저자들은 텍스트 고유 독성과 수용 기반 교란 간의 차이를 입증하기 위해 r/BlackPeopleTwitter 서브레딧 데이터를 사용한 설명적 프로브를 제공합니다.

방법론: 그들은 텍스트 고유 탐지기인 OpenAI Moderation API 와 Google Perspective API 를 PONOS(관측된 부정적 신호의 비율, Proportion of Negative Observed Signals) 와 비교했습니다. PONOS 는 부정적 반응을 나타내는 답변의 비율을 측정하는 지표입니다.
결과:
- 텍스트 고유 점수와 PONOS 사이에는 약한 상관관계가 있었습니다 ( $\rho \approx 0.20$ ).
- 반면, 두 텍스트 고유 API 는 서로 강력하게 상관관계가 있었습니다 ( $\rho \approx 0.87$ ).
- 사분면 분석:
  - LH (낮은 PONOS, 높은 텍스트 독성): 게시물의 14.5% 가 과도하게 플래그되었습니다. 이러한 경우 종종 내부 결속, 재회복된 언어, 또는 방언 유머 (예: "That's my n***a!") 와 관련이 있었습니다.
  - HL (높은 PONOS, 낮은 텍스트 독성): 게시물의 14.4% 가 놓쳤습니다. 이러한 경우에는 명시적인 모욕적 표현이 없는 풍자, 실용적 적대감, 또는 문맥 특정 규범 위반이 포함되었습니다.
결론: 텍스트 고유 위험과 수용 기반 교란은 별개의 양입니다. 현재의 탐지기는 특히 방언이 풍부하거나 재회복된 언어가 사용되는 문맥에서 실제 커뮤니티 교란과 체계적으로 일치하지 못합니다.

5. 중요성 및 주장

이 논문은 독성 탐지가 데이터셋 레이블 예측에서 상황화된 커뮤니케이션 해악 측정으로 진화해야 한다고 주장합니다. 그 중요성은 다음과 같습니다:

측정 대상의 수정: 안전에 중요한 시스템이 분리된 텍스트만으로는 충분하다고 가장할 수 없다고 주장합니다. 텍스트 위험과 수용을 분리함으로써 CSF 는 현재 모델들이 왜 방언을 과도하게 플래그하고 실용적인 학대를 놓치는지 설명합니다.
불확실성의 운영화: "부재한 문맥"은 실패 조건으로 취급되어야 하며, 시스템이 잠재적으로 해로운 레이블을 생성하는 대신 불확실성을 표현하거나 포기해야 한다고 제안합니다.
측정과 집행의 분리: 해악 추정 (측정) 과 콘텐츠 삭제 또는 하위 순위 지정 결정 (정책) 을 분리하여 더 투명하고 책임 있는 중재를 가능하게 할 것을 옹호합니다.
벤치마크 개혁: 커뮤니티가 CSF-Eval 표준을 채택하도록 요구하며, 벤치마크가 집계 정확도 대신 슬라이스 수준 성능 (예: 문맥 변화, 누락된 데이터) 을 보고하고, 누구의 관점과 어떤 문맥적 신호가 표현되는지를 명시적으로 문서화해야 한다고 요구합니다.

저자들은 겸손한 입장을 유지하며, 독성을 완벽하게 측정할 수는 없으며 실시간 배포에서 완전한 문맥은 종종 이용 불가능하다고 인정합니다. 그러나 그들은 부분적 관측 가능성을 인정하고 불확실성을 모델링하는 것이 더 안전하고 견고한 중재 시스템으로 나아가는 필수적인 단계라고 주장합니다.

Toxicity Detection Should Measure Contextual Harm, Not Text-Intrinsic Badness