✨

이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

Each language version is independently generated for its own context, not a direct translation.

폭력의 개념: 인간과 AI 의 판단 차이 연구 (쉬운 설명)

이 논문은 "폭력"이라는 것이 정확히 무엇인지를 인간과 인공지능 (AI) 이 어떻게 다르게 생각하는지 비교한 흥미로운 연구입니다. 연구진은 라디오 청취자 3,000 여 명과 최신 AI 모델 18 개에게 22 가지의 다양한 상황 (예: 시위, 욕설, 무관심 등) 을 보여주고 "이게 폭력인가?"라고 물어보았습니다.

이 복잡한 연구를 마치 두 명의 요리사가 같은 재료를 가지고 다른 요리를 만드는 상황으로 비유해서 설명해 드리겠습니다.

1. 연구의 시작: 라디오 스튜디오에서의 실험

연구는 이탈리아 라디오 프로그램 'Chiacchiericcio'에서 시작되었습니다. 진행자가 청취자들에게 "시위대가 경찰을 때리는 것", "버스에서 누군가를 노려보는 것", "인터넷에서 욕설을 퍼붓는 것" 등 22 가지 상황을 제시하고, 이것이 **'폭력'인지, '폭력이 아닌지', 아니면 '상황에 따라 다르다 (depend-on)'**고 답하게 했습니다.

인간 (청취자): 3,000 명 이상의 사람들이 참여했습니다.
AI (로봇 요리사): 최신 AI 모델 18 개가 같은 질문을 받았습니다.

2. 핵심 발견: 인간과 AI 의 '맛'이 다르다

연구 결과는 마치 **인간은 '감성적인 요리사'이고, AI 는 '규칙적인 자동 조리기'**처럼 행동한다는 것을 보여줍니다.

A. "상황에 따라 다르다"는 말은 AI 가 싫어해요

인간: "음... 이건 폭력일 수도 있고 아닐 수도 있어. 상황에 따라 다르지!"라고 **중간 지대 (depend-on)**를 많이 선택했습니다. 인간은 맥락과 뉘앙스를 중요하게 생각합니다.
AI: "아니, 이건 폭력이야" 혹은 "아니, 폭력이 아니야"라고 명확하게 이분법적으로 답했습니다. AI 는 애매모호함을 싫어하고, 무조건 '폭력' 또는 '비폭력' 중 하나로 딱 잘라 말하려는 경향이 있습니다.
- 비유: 인간은 "날씨가 흐려서 우산을 쓸지 말지 고민해 봐야지"라고 말하지만, AI 는 "구름이 있으니 우산 필수!"라고 즉각 결정해버립니다.

B. 인터넷 욕설 vs. 물리적 폭력

인간: 인터넷에서 누군가에게 욕설을 하거나, 집단으로 괴롭히는 행위를 매우 강력한 폭력으로 여겼습니다. (90% 이상이 폭력이라고 답함)
AI: 같은 인터넷 욕설을 폭력이 아닐 가능성이 훨씬 높게 판단했습니다. (약 50% 만 폭력이라고 답함)
- 비유: 인간은 "말이 칼보다 날카로울 수 있다"고 생각하지만, AI 는 "칼로 찌르지 않았으니 폭력이 아니다"라고 생각할 수 있습니다. AI 는 물리적인 타격을 더 폭력의 기준으로 삼는 경향이 있습니다.

C. "중단된 폭력"에 대한 오해

상황: 연설자가 폭력을 부추기려다 진행자가 막아서서 말을 못 하게 한 경우.
인간: "아, 폭력이 막혔으니 폭력이 아니야"라고 생각했습니다. (결과가 중요함)
AI: "아니, 폭력을 부추기는 말을 했으니 폭력이야"라고 생각했습니다. (의도와 내용만 중요함)
- 비유: 인간은 "불을 끄려고 했으니 괜찮아"라고 하지만, AI 는 "불을 지르려던 마음이 있었으니 위험해"라고 판단합니다.

3. AI 모델들끼리도 의견이 갈려요

재미있는 점은 AI 모델들끼리도 의견이 일치하지 않았다는 것입니다.

어떤 AI 는 "폭력이다"고 하고, 다른 AI 는 "아니다"고 했습니다.
하지만 인간과 AI 가 모두 동의하는 경우는 명확한 폭력 (예: 총을 쏘는 행위) 이나 명확한 비폭력일 때였습니다.
결론: AI 는 확실한 경우에는 인간과 비슷하지만, 모호하고 복잡한 사회적 상황에서는 인간과 다른 기준을 적용합니다.

4. 왜 이 연구가 중요할까요? (우리가 주의해야 할 점)

이 연구는 우리에게 중요한 경고를 줍니다.

AI 는 '진리의 심판자'가 아닙니다: 우리는 AI 가 답을 주면 "아, 이게 정답이구나"라고 생각하기 쉽습니다. 하지만 AI 는 단순히 확률적으로 가장 그럴듯한 답을 내는 것일 뿐, 도덕적 판단을 하는 것이 아닙니다.
모호함이 사라집니다: 인간은 "상황에 따라 다르다"는 복잡한 진리를 인정하지만, AI 는 이를 깔끔하게 잘라버립니다. 우리가 AI 의 답변을 맹신하면, 세상의 복잡한 윤리적 문제들이 단순해지고 왜곡될 수 있습니다.
검색 엔진 vs 채팅 봇: 예전 검색 엔진은 다양한 의견 (뉴스, 블로그 등) 을 보여줬다면, 최신 AI 는 하나의 결론을 줍니다. 이는 마치 "모든 의견이 하나로 합쳐진 것"처럼 보이지만, 실제로는 AI 가 학습한 데이터의 편향만 반영한 것일 수 있습니다.

요약: 한 줄로 정리하면?

"인간은 폭력을 판단할 때 '상황과 맥락'을 고려해 유연하게 생각하지만, AI 는 규칙과 물리적 행위에 더 집중하며 모호함을 없애버립니다. 우리는 AI 의 답변을 절대적인 진리가 아니라, 참고용 도구로만 여겨야 합니다."

이 연구는 AI 가 우리 사회의 도덕적 기준을 어떻게 바꾸고 있는지, 그리고 우리가 AI 를 어떻게 대해야 하는지 생각해보게 만드는 중요한 연구입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 제기 (Problem)

폭력 개념의 모호성: 폭력은 물리적 공격뿐만 아니라 언어적 공격, 배제, 굴욕, 온라인 괴롭힘 등 다양한 형태로 존재하며, 그 정의는 문화적 배경과 경험에 따라 주관적으로 달라집니다.
AI 의 사회적 역할 확대: 대규모 언어 모델 (LLM) 이 일상생활에서 복잡한 사회적 행동을 해석하고 분류하는 데 점점 더 많이 활용되고 있습니다.
핵심 질문: LLM 이 인간의 폭력 개념을 어떻게 재현, 변형 또는 단순화하는가? 특히, AI 가 인간의 도덕적 판단과 얼마나 일치하며, 모호한 상황에서 어떻게 결정을 내리는지에 대한 체계적인 비교 연구가 부족했습니다.
연구 동기: 라디오 방송 중 청취자들의 폭력 인식에 대한 즉흥적 실험에서 출발하여, 인간과 AI 의 판단 차이를 체계적으로 분석하여 AI 의 인식적 역할 (Epistemic Role) 을 규명하고자 했습니다.

2. 연구 방법론 (Methodology)

가. 데이터 수집 및 실험 설계

시나리오: 폭력 인식의 편차를 유발하도록 설계된 22 개의 의도적으로 도발적인 문장을 사용했습니다.
- 주제 분류: 언어적 표현 (6 개), 상징적 행위 (5 개), 대인 관계 역학 (7 개), omission/배제/무관심 (4 개).
인간 데이터: 이탈리아 라디오 'Deejay'의 프로그램 'Chiacchiericcio'를 통해 수집된 약 3,300 명의 청취자 응답 (총 약 73,335 건의 판단).
- 응답 형식: 각 문장에 대해 '폭력 (Violence)', '비폭력 (Non-violence)', '상황에 따라 다름 (Depend-on)' 중 하나로 분류하도록 요청.
- 제약: 인구통계학적 정보 없이, 문장별 응답 비율만 수집.
AI 데이터: 18 개의 다양한 LLM (Ollama 시스템 내 공개 모델) 을 사용.
- 모델 범위: LLaMA, Mistral, Qwen, Phi, Gemma 등 다양한 아키텍처와 파라미터 크기 (1B~10B+).
- 프롬프트: 모든 모델에 동일한 JSON 출력 형식의 프롬프트를 적용하여 편향을 최소화하고 공정한 비교를 유도.

나. 통계 분석 기법

전체 및 문장 수준 비교: 카이제곱 검정 ( $\chi^2$ ) 을 사용하여 인간과 AI 의 분포 차이를 분석. 다중 비교 보정을 위해 Benjamini-Hochberg FDR 적용.
도메인 분석: 4 가지 주제 영역별로 집약된 데이터를 분석.
모델 간 일치도: Fleiss' kappa 를 사용하여 모델 간 합의 정도를 측정.
정렬 (Alignment) 분석: 각 모델이 인간 다수결 (Majority Label) 과 일치하는 정확도를 계산하고, 파라미터 크기 및 모델 계열과의 상관관계를 분석 (Spearman 상관, Kruskal-Wallis 검정).

3. 주요 결과 (Key Results)

가. 전체적인 경향성

인간: 응답의 72.3% 가 '폭력'으로 분류되었으며, '상황에 따라 다름 (Depend-on)'과 '비폭력'은 각각 약 14% 수준으로 고르게 분포.
AI: '폭력' 분류 비율 (71.9%) 은 인간과 유사했으나, '상황에 따라 다름'을 '비폭력'으로 재분류하는 경향이 뚜렷했습니다. 이는 AI 가 모호한 상황을 이분법적으로 단순화 (Compression) 하는 경향을 보임을 의미합니다.
통계적 유의미성: 전체적으로 인간과 AI 의 분포는 유의미하게 다름 ( $P = 0.0034$ ).

나. 문장별 및 도메인별 차이

가장 큰 불일치 (언어적 표현):
- 온라인 괴롭힘 (문장 10, 11, 13): 인간은 90% 이상을 '폭력'으로 보았으나, AI 는 약 50~56% 만 '폭력'으로 분류하고 나머지를 '비폭력'으로 간주했습니다. 이는 AI 가 디지털 공간의 심리적/명예훼손적 폭력을 물리적 폭력보다 덜 심각하게 인식함을 시사합니다.
- 중단된 폭력 선동 (문장 20): 폭력을 선동하려는 연설자가 진행자에 의해 중단된 경우, 인간은 27% 만 '폭력'으로 보았으나 AI 는 81% 가 '폭력'으로 분류했습니다. AI 는 결과 (중단) 보다는 의도와 내용 자체에 더 큰 가중치를 두는 경향이 있습니다.
일치하는 영역: 물리적 접촉이나 직접적인 대인 관계 폭력 (예: 버스 내 성추행) 에서는 인간과 AI 의 판단이 높은 일치도를 보였습니다.

다. 모델별 특성

파라미터 크기와 정확도: 모델의 크기 (파라미터 수) 와 인간 판단 일치도 사이에는 단조로운 상관관계가 없었습니다. (Spearman $\rho = -0.25$ , $P=0.35$ ).
정렬의 결정 요인: 모델의 크기가 아닌 인스트럭션 튜닝 (Instruction Tuning) 과 안전성 정렬 (Safety Alignment) 전략이 인간과의 일치도에 더 큰 영향을 미쳤습니다.
모델 간 합의: 인간과 AI 가 모두 명확한 사안 (예: 성추행) 에서는 합의가 높았으나, 모호한 사안에서는 모델 간 합의도도 낮아졌습니다.

4. 주요 기여 및 시사점 (Contributions & Significance)

가. 이론적 기여

AI 의 개념적 한계 규명: LLM 이 폭력을 정의할 때 물리성과 명시적 의도를 중시하고, 상징적, 간접적, 맥락 의존적 폭력을 과소평가하거나 단순화하는 경향이 있음을 empirically 증명했습니다.
불확실성의 제거: 인간은 '상황에 따라 다름'이라는 모호성을 수용하지만, AI 는 불확실성을 제거하고 이분법적 (Binary) 결론을 내리는 경향이 있어, 도덕적 판단의 뉘앙스를 잃을 수 있음을 지적했습니다.

나. 사회적 및 윤리적 함의

권위 편향 (Authority Bias): 사용자는 AI 의 유창한 답변을 전문가의 판단이나 객관적 진실로 오인할 위험이 큽니다. 특히 '상황에 따라 다름'이라는 답변이 드물게 나오는 경향은 사용자가 AI 를 절대적인 도덕적 심판자로 오인하게 만들 수 있습니다.
전통적 검색 엔진과의 비교: 검색 엔진은 다양한 관점을 노출하여 사용자가 비판적으로 사고하게 하지만, LLM 은 단일한 답변을 생성하여 인지적 단편화 (Epistemic Fragmentation) 를 은폐하고 수동적 수용을 유도할 수 있음을 경고했습니다.
정책 및 적용 권고: AI 를 고위험 도덕 판단 (High-stakes moral judgement) 에 사용할 경우, 그 출력은 확률적 도구로 간주되어야 하며, 인간의 검토와 맥락적 해석이 필수적입니다.

5. 결론

이 연구는 인간과 AI 가 폭력이라는 개념을 해석하는 방식의 구조적 차이를 체계적으로 규명했습니다. AI 는 명확한 물리적 폭력에서는 인간과 유사하게 판단하지만, 디지털 괴롭힘이나 맥락 의존적인 상황에서는 인간의 복잡한 도덕적 판단을 단순화하거나 왜곡할 수 있습니다. 이는 AI 시스템이 사회적 규범을 형성하는 과정에서 투명성과 비판적 개입이 필요함을 시사하며, AI 를 '진실의 심판자'가 아닌 '확률적 도구'로 인식하는 리터러시 함양이 중요함을 강조합니다.

On the Concept of Violence: A Comparative Study of Human and AI Judgments