Quantifying Harm

원저자: Sander Beckers, Hana Chockler, Joseph Y. Halpern

게시일 2026-05-07

📖 5 분 읽기🧠 심층 분석

원저자: Sander Beckers, Hana Chockler, Joseph Y. Halpern

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

Each language version is independently generated for its own context, not a direct translation.

"Quantifying Harm" 논문에 대한 설명을 간단한 언어와 일상적인 비유로 풀어냅니다.

큰 그림: "상처를 입혔는가?"에서 "얼마나 상처를 입혔는가?"로

AI 시스템이 해를 끼쳤는지 판단해야 하는 판사를 상상해 보세요. 과거에는 저자들 (Beckers, Chockler, Halpern) 이 간단한 규칙을 사용했습니다: 예 또는 아니오. AI 가 해를 끼쳤는가? 답이 "예"라면 그것으로 끝났습니다.

하지만 현실 세계에서는 더 정밀해야 합니다. 우리는 해가 발생했는지 여부만 알고 싶은 것이 아니라, 얼마나 심각한지를 알고 싶어 최선의 선택을 할 수 있습니다. 이 논문은 단순히 "켜기" 또는 "끄기"를 나타내는 스위치가 아니라, 해의 "양"을 측정하는 수학적 자를 만드는 것에 관한 것입니다.

1. 기준선: "정상"이란 무엇인가?

해를 측정하려면 시작점이 필요합니다. 이를 온도 조절 장치 (thermostat) 와 같다고 생각하세요.

기본 효용 (Default Utility): 이는 방의 "정상" 온도입니다.
결과 (Outcome): 이는 히터나 에어컨이 작동한 후의 실제 온도입니다.

방이 70°F(기본값) 이어야 하는데 히터가 작동해 75°F 가 되었다면 이는 이득입니다. 에어컨이 작동해 60°F 가 되었다면 이는 해입니다. 해의 양은 단순히 당신이 있어야 할 위치와 실제로 도달한 위치 사이의 차이일 뿐입니다.

반전: 이 논문은 "정상"이 항상 0 은 아니라고 주장합니다. 때로는 "정상"이 범위를 가집니다.

비유: 웨이터에게 팁을 주는 상황을 상상해 보세요.
- 범위: 15% 에서 20% 사이의 팁은 "정상"입니다. 좋지도 나쁘지도 않고, 그저 기대되는 수준입니다.
- 해: 만약 5% 만 팁을 준다면 해를 끼친 것입니다 (바닥선 아래로 떨어졌기 때문입니다).
- 이득: 만약 50% 를 팁으로 준다면 이득을 창출한 것입니다 (천장선 위로 올라갔기 때문입니다).
- 핵심: 단순히 "돈이 많을수록 항상 좋은 것"이라고 말할 수 없습니다. 아무 일도 일어나지 않는 "적정선"이 존재합니다.

2. 주사위 굴리기: 불확실성 대처

삶은 거의 확실하지 않습니다. 때로는 의사의 수술이 환자를 완치시키기도 하고, 때로는 환자를 사망에 이르게 하기도 합니다. 결과가 도박과 같을 때 해를 어떻게 측정할까요?

이 논문은 사람들이 실제로 위험을 어떻게 생각하는지, 즉 종종 기이한 방식을 살펴봅니다.

"자율주행차" 문제: 자율주행차를 상상해 보세요.
- 옵션 A: 속도 제한을 지키며 운전합니다. 치명적인 충돌이 발생할 확률은 백만 분의 1 입니다.
- 옵션 B: 20% 더 천천히 운전합니다. 치명적인 충돌이 발생할 확률은 200 만 분의 1 입니다.
- 수학: 옵션 B 가 더 안전합니다. 단순히 수학 (기대 효용) 을 계산한다면 항상 B 를 선택해야 합니다.
- 현실: 사람들은 종종 옵션 A 를 선호합니다. 왜일까요? 우리의 뇌는 백만 분의 1 확률을 "거의 0"으로 취급하기 때문입니다. 우리는 사소한 위험을 무시합니다.

저자들은 **확률 가중 (Probability Weighting)**을 사용할 것을 제안합니다. 1% 위험과 0.0001% 위험을 선형적으로 처리하는 대신, 이에 "가중치"를 적용하는 것입니다.

비유: 확대경을 생각해 보세요.
- 때로는 사소한 위험을 거대하게 만드는 확대경을 사용합니다 (테러 공격에 대한 이야기를 들은 후 이를 두려워하는 것처럼).
- 때로는 사소한 위험을 사라지게 만드는 "디머 스위치"를 사용합니다 (매일 운전하기 때문에 자동차 충돌 위험을 무시하는 것처럼).
- 해를 정확하게 측정하려면 단순히 숫자 자체가 아니라, 인간이 이러한 확률을 실제로 어떻게 지각하는지를 고려해야 합니다.

3. 집단 문제: 공정성과 집계

한 정책이 1,000 명에게 해를 끼친다면 어떻게 될까요? 단순히 고통을 더하기만 하면 될까요?

"합계"의 함정: 정책 A 가 1,000 명의 무작위 사람들에게 아주 조금씩 해를 끼치고, 정책 B 가 1 명의 특정인에게 크게 해를 끼친다면, 단순한 수학 합계는 둘이 같다고 말할 수 있습니다.
공정성 문제: 직관적으로 우리는 이 두 가지에 대해 다르게 느낍니다. 1,000 명의 무작위 사람들에게 해를 끼치는 것과 1 명의 특정인 (또는 소수 공동체와 같은 특정 집단) 을 표적으로 삼는 것은 다릅니다.

이 논문은 **공정성 페널티 (Fairness Penalty)**를 제안합니다.

비유: 학교 급식실을 상상해 보세요.
- 급식실이 우연히 100 명의 무작위 학생에게 나쁜 점심을 제공한다면 이는 성가신 일입니다.
- 하지만 급식실이 오직 5 번 테이블에 앉은 학생들에게만 나쁜 점심을 제공한다면, 이는 괴롭힘처럼 느껴집니다.
- 저자들은 우리의 "해 계산기"가 특정하고 식별 가능한 집단에 불균형적으로 해를 끼치는 정책이라면 막대한 페널티를 추가해야 한다고 제안합니다. 단순히 상처 입은 사람의 총수만 중요한 것이 아니라, 누가 상처를 입었는지가 중요합니다.

4. 정밀 의학 논쟁

이 논문은 이러한 아이디어들을 "정밀 의학 (Precision Medicine, 특정 유전자에 맞춘 치료)"에 관한 최근 의학 논쟁과 연결합니다.

갈등: 일부 전문가들은 "평균 이득이 양수라면 환자를 치료하라"고 말합니다. 다른 이들은 "아니오, 평균 이득이 양수라 하더라도 개인에게 해를 끼치지 않는 것을 우선시해야 한다"고 말합니다.
저자들의 견해: 그들은 이 논쟁이 실제로는 이미 해결한 문제들의 특정 버전임을 보여줍니다.
- "평균 이득" 접근법은 "기본값 (아무것도 하지 않을 때 발생하는 일)"을 무시합니다.
- "해 방지" 접근법은 종종 인과관계의 특정 정의 (예: "만약 치료가 없었다면 그들은 죽었을 것인가?"라는 "But-For" 테스트) 에 의존합니다.
- 저자들은 의학 논쟁이 맥락의 뉘앙스를 놓치고 있다고 주장합니다. "해"가 무엇인지는 치료 전 환자의 삶이 어떠했는지에 달려 있습니다. 환자가 이미 죽어가고 있다면, 치료가 위험하더라도 환자를 죽이더라도 "해로운" 것이 아닐 수 있습니다. 대안이 이미 죽음이었기 때문입니다.

5. 어려운 부분: 수학은 까다롭습니다

마지막으로, 이 논문은 이를 계산하는 것이 계산적으로 매우 어렵다고 인정합니다.

비유: 숫자를 이동할 때마다 퍼즐의 규칙이 약간씩 변하는 거대한 스도쿠 퍼즐을 풀려고 한다고 상상해 보세요.
저자들은 정확히 "얼마나" 해가 발생했는지 파악하는 것이 최악의 시나리오에서는 슈퍼컴퓨터가 매우 오랜 시간이 걸려야 해결할 수 있는 문제임을 증명합니다.
그러나: 그들은 현실에서는 퍼즐이 그렇게 크지 않다고 주장합니다. 대부분의 결정은 관리 가능한 수의 변수를 포함하므로, 우리는 여전히 이러한 정의를 실제에서 사용할 수 있습니다.

요약

이 논문은 해를 측정하는 정교한 도구를 구축합니다. 단순한 "예/아니오" 답변을 넘어 다음과 같은 질문을 던집니다:

"정상" 기준선에 비해 결과가 얼마나 더 나쁜가?
인간이 위험을 **어떻게 지각하는지 (사소한 위험을 무시하거나 두려워하는지)**에 따라 어떻게 조정할 것인가?
특정 집단을 불공정하게 표적으로 삼지 않도록 어떻게 보장할 것인가?

이러한 질문에 답함으로써, 저자들은 AI 시스템, 의사, 정책 입안자들이 무엇이 진정으로 "해로운" 것인지에 대한 인간의 직관과 더 잘 부합하는 결정을 내리기를 바랍니다.

Each language version is independently generated for its own context, not a direct translation.

기술적 요약: 해악의 정량화

문제 제기
인공지능 시스템이 의료, 채용, 자율주행과 같은 중요한 분야에 점점 더 큰 영향을 미치고 있지만, "해악"을 정의하고 측정하는 것은 여전히 중요한 과제로 남아 있습니다. 유럽 AI 법과 같은 기존 규제 체계는 해악의 심각성과 발생 확률을 모두 평가할 것을 요구하지만, 철학 문헌은 종종 해악 개념을 상충되는 설명들의 "프랑켄슈타인식 잡동사니"로 묘사합니다. 저자들의 이전 연구는 인과 모델과 기본 효용 (default utility) 을 기반으로 해악의 발생 여부를 판단하는 정성적 정의 (해악이 발생했는지 여부를 결정) 를 수립했습니다. 그러나 실제 응용에서는 개입을 비교하고, 인구 전체에 걸쳐 해악을 집계하며, 불확실성을 고려하기 위해 해악에 대한 정량적 개념이 필요합니다. 본 논문은 정성적 인과성과 정책 수립 및 윤리적 의사결정에 필요한 정량적 지표 사이의 간극을 해소합니다.

방법론
저자들은 구조적 인과 모델과 Halpern-Pearl 의 실제 인과성 정의를 기반으로 한 정량적 프레임워크를 개발합니다. 방법론은 다음과 같은 여러 단계를 거칩니다:

결정론적 맥락에서의 정량적 해악:
저자들은 고정된 맥락에서 단일 에이전트에 대한 정량적 해악 ($QH $) 을 정의합니다. 이는 실제 결과의 효용과 기준선 사이의 차이로 계산되며, "기본 효용"($ d $) 으로 제한됩니다. 구체적으로, 행동$ \vec{X}=\vec{x} $가 결과$ O=o $를 대조적 결과$ O=o' $대신 초래할 때, 해악은$ \max(0, \min(d, u(o')) - u(o))$입니다. 이 공식은 실제 효용이 대조적 효용과 기본 효용 모두보다 낮을 때만 해악이 기록되도록 보장합니다.
불확실성 처리 (확률 가중치):
맥락에 대한 불확실성을 해결하기 위해, 논문은 단순한 기대 해악에서 **가중치 기대 정량적 해악 (WEQH)**으로 이동합니다. 인간의 의사결정이 종종 엄격한 기대 효용 극대화와는 다르게 작동한다는 점 (예: 경험에 따라 소확률을 과대평가하거나 과소평가함) 을 인식하여, 저자들은 확률 가중치 함수 $w$ 를 통합합니다. WEQH 는 해당 맥락에서의 정량적 해악에 곱해진 맥락의 가중 확률들의 합입니다. 이를 통해 모델은 희귀한 재앙적 사건을 피하려는 선호 (과대평가) 나 일상 활동에서의 무시할 만한 위험을 무시하는 현상 (과소평가) 과 같은 현상을 포착할 수 있습니다.
사회적 해악의 집계와 공정성:
논문은 개별 해악을 단순히 합산하는 "명백한" 접근 방식을 비판하며, 이는 공정성과 특정 하위 집단에 대한 불균형적인 영향을 고려하지 못한다고 지적합니다. 저자들은 사전에 정의된 식별 가능한 집단 ( $G$ ) 이 인구 평균보다 현저히 높은 ( $\beta$ ) 평균 해악을 겪을 경우 벌점 항 ( $\alpha$ ) 을 도입하는 집단 효용 모델을 제안합니다. 이 메커니즘은 전체 집계 해악이 낮더라도 특정 집단에 해악이 집중되는 정책을 벌점할 수 있게 합니다.
해악과 이익의 비대칭성:
이익을 해악의 대칭적 반대편으로 취급하는 표준 비용 - 편익 분석과 달리, 저자들은 기본 구간 $D = [d_h, d_b]$ 을 제안합니다. $d_h$ 미만의 결과는 해악을 구성하고, $d_b$ 초과의 결과는 이익을 구성하며, 구간 내의 결과는 중립입니다. 이는 해악이나 이익이 발생하지 않는 "안전" 범위의 결과가 있다는 직관을 포착합니다.
복잡도 분석:
부록은 해악을 결정하고 계산하는 계산 복잡도를 분석합니다. 해악 발생 여부 (정성적) 를 결정하는 문제는 DP-완전임이 입증되었으며, 정량적 해악의 범위를 계산하는 문제는 $FP^{NP[\log n]}$ -완전입니다. 저자들은 이러한 클래스가 최악의 경우에서 비실용성을 시사하지만, 작은 변수 집합이나 대칭성 고려 사항이 있는 실제 응용에서는 문제가 실행 가능할 수 있다고 지적합니다.

주요 기여 및 결과

공식적 정의: 논문은 인과 모델, 효용 이론, 기본 기준선을 통합한 최초의 공식적 정량적 해악 정의를 제공합니다.
단순 집계의 반박: 저자들은 기대 해악을 합산하는 것이 공정성과 위험 분배와 관련하여 직관에 반하는 결과를 초래할 수 있음을 보여줍니다. 그들은 확률 가중치와 집단 기반 벌점이 이러한 역설 (예: Norcross 의 해악 순환) 을 해결할 수 있음을 보여줍니다.
RBT 와의 비교: 논문은 Richens, Beard, Thompson (RBT) 의 접근법과 상세한 비교를 제공합니다. 저자들은 RBT 의 "but-for"인과성과 단일 기본 행동 (치료 없음) 에 대한 의존성이 환자를 치료하지 않는 것이 해악을 초래하지 않는다는 것과 같은 결함이 있는 결론으로 이어진다고 주장합니다. 저자들의 더 일반적인 인과성 정의와 유연한 기본 효용 사용은 더 세밀하고 의학적으로 타당한 결과를 산출합니다.
정밀 의학 맥락: 이 프레임워크는 정밀 의학의 최근 논쟁 (Dawid, Senn, Sarvet, Stensrud, Mueller, Pearl 관련) 에 적용됩니다. 저자들은 치료 규칙에 대한 논쟁 (예: 평균 치료 효과 극대화 대 이익과 해악의 균형) 은 본질적으로 그들의 프레임워크에서 다루는 기본 효용과 확률 가중치와 같은 더 넓은 문제들의 특수한 사례임을 보여줍니다.

의의 및 주장
이 논문은 AI 시스템과 공공 정책, 특히 실용적인 해악 결정에 대한 공식적 접근을 위한 기초적인 단계로 자신을 위치시킵니다. 저자들은 이 작업이 완전한 해결책이 아닌 "첫걸음"이라고 겸손하게 주장합니다. 그들은 다음과 같은 점을 강조합니다:

고정된 맥락에서 단일 에이전트에 대한 정량적 해악의 정의는 직관적이지만, 불확실성과 집계가 수반되면 미묘한 차이가 발생합니다.
공정성에 대한 제안된 접근 방식 (불균형한 해악에 대한 벌점) 은 인간의 휴리스틱과 일치하는지 확인하기 위해 추가적인 실증적 검증이 필요한 개요입니다.
확률 가중치 처리 (과대평가 대 과소평가) 는 복잡하고 맥락에 의존적이므로, 정책 입안자는 보편적 가중치 함수를 가정하기보다 규범적 및 기술적 고려 사항을 저울질해야 합니다.
이 프레임워크는 해악과 비난을 통합하여 도덕적 책임에 대한 완전한 이론으로 나아가는 길을 제시하지만, 논문은 주로 해악을 정량화하는 메커니즘에 초점을 맞춥니다.

궁극적으로, 이 논문은 AI 의 윤리적 배포와 유럽 AI 법과 같은 규정의 수립에 있어 정성적 철학적 논쟁의 "혼란"을 넘어 실행 가능한 지표로 나아가기 위해 엄격하고 인과 기반의 정량적 해악 정의가 필수적이라고 주장합니다.