Measuring What AI Systems Might Do: Towards A Measurement Science in AI

Each language version is independently generated for its own context, not a direct translation.

1. 문제: 우리는 무엇을 재고 있는 걸까요? (점수 vs 성질)

지금까지 AI 를 평가할 때 우리는 주로 **"시험 점수"**를 보았습니다.

"이 AI 는 수학 문제를 80% 맞추네요. 그래서 수학 실력이 좋습니다."
"이 AI 는 유해한 질문을 95% 거절하네요. 그래서 안전합니다."

하지만 저자들은 이렇게 말합니다. "점수는 '결과'일 뿐, '성질'이 아닙니다."

🍷 비유: 깨지기 쉬운 유리잔 (Fragility)

유리잔이 '깨지기 쉽다 (부서지기 쉽다)'는 성질을 가진 것은, 현재 깨져 있기 때문이 아니라 **"충격을 주면 깨질 가능성"**이 있기 때문입니다.

현재의 AI 평가: 유리잔을 한 번 떨어뜨려서 깨졌는지, 안 깨졌는지 확인하고 "이 유리잔은 깨지기 쉽다"라고 결론 내립니다.

저자가 원하는 평가: 유리잔을 다양한 힘 (1kg, 5kg, 10kg...) 으로 때려보며, "얼마나 강한 충격이 가해져야 깨지는지" 그 **한계점 (임계값)**을 찾아내는 것입니다.

지금의 AI 평가는 "어떤 문제에서 맞췄는지"만 기록할 뿐, **"어떤 상황에서 실패할지, 왜 실패할지"**에 대한 깊은 이해가 없습니다.

2. 핵심 개념: '성향 (Disposition)'이란 무엇인가?

논문은 AI 의 능력을 **성향 (Disposition)**이라고 부릅니다. 성향은 **"특정한 조건이 주어졌을 때, 시스템이 어떻게 행동할지 결정하는 내재적인 성질"**입니다.

능력 (Capability): 문제가 얼마나 어려운가 (난이도) 에 따라 행동이 어떻게 변하는가?
- 비유: "이 학생은 100 점짜리 문제를 풀면 100 점, 200 점짜리 문제를 풀면 80 점, 300 점짜리 문제를 풀면 0 점이다." -> 이 곡선이 진짜 능력입니다.
성향 (Propensity): 유혹이나 동기가 주어졌을 때 행동이 어떻게 변하는가?
- 비유: "이 학생은 친구가 부탁하면 거짓말을 할까? 경찰이 보고 있으면 안 할까?" -> 동기에 따른 행동 변화가 진짜 성향입니다.

3. 왜 지금의 평가 방식은 실패하는가?

저자는 현재 쓰이는 세 가지 방식을 비판합니다.

벤치마크 (시험지):
- 문제: 미리 정해진 문제만 풀게 합니다. 마치 "유리잔을 1m 높이에서 떨어뜨려서 깨졌으니, 10m 에서도 깨지겠지"라고 추측하는 것과 같습니다.
- 결과: AI 가 특정 문제집에 맞춰져서 (암기해서) 점수를 잘 받으면, 진짜 능력을 가진 것으로 오해합니다.
레드 테이밍 (해킹 시뮬레이션):
- 문제: 인간이 "이렇게 하면 AI 가 나쁜 짓을 할까?"라고 상상해서 질문합니다.
- 결과: 인간이 상상할 수 있는 범위 밖의 위험은 발견하지 못합니다. 마치 "유리잔을 손으로만 때려보고, 망치로 때리는 상황은 고려하지 않는 것"과 같습니다.
복잡한 통계 모델 (IRT 등):
- 문제: "문제가 어렵다"는 것을 AI 가 틀린 걸로 정의합니다.
- 결과: "AI 가 틀렸으니 문제가 어렵다"는 순환 논리가 됩니다. 왜 어려운지, 어떤 원리로 어려운지 설명하지 못합니다.

4. 해결책: '과학적 측정'을 위한 4 단계

이 논문은 AI 를 평가할 때 물리학이나 심리학처럼 엄격한 과학적 방법을 써야 한다고 제안합니다.

1 단계: 무엇을 재는지 정의하기 (주체 명확화)

"AI 모델 자체"를 재는지, "AI 가 필터를 거쳐 사용자에게 보여주는 모습"을 재는지 명확히 해야 합니다.
비유: 유리잔을 재는지, 유리잔을 넣은 상자까지 재는지 구별해야 합니다.

2 단계: 원인을 가설로 세우기 (인과관계)

"왜 이 문제는 AI 가 틀릴까?"에 대한 가설을 세워야 합니다. (예: 숫자가 너무 길어서? 논리 단계가 너무 많아서?)
비유: 유리잔이 깨지는 원인이 '충격력' 때문인지, '진동' 때문인지 이론을 세우는 것입니다.

3 단계: 변수를 독립적으로 측정하기 (도구 만들기)

문제의 난이도나 유혹의 강도를 AI 의 점수와 상관없이, 별도로 측정 가능한 척도로 만듭니다.
비유: "이 문제는 5 단계의 계산이 필요하다"라고 숫자로 정의하는 것입니다. (AI 가 틀렸다고 해서 갑자기 문제가 어려워지는 게 아닙니다.)

4 단계: 행동 확률의 지도 그리기 (관계 매핑)

변수를 조금씩 바꿔가며 (난이도 10, 20, 30...), AI 가 성공할 확률이 어떻게 변하는지 곡선을 그립니다.
결과: "이 AI 는 5 단계까지는 잘하지만, 6 단계부터 확률이 0% 로 떨어진다"는 정확한 한계점을 알게 됩니다.

5. 결론: 왜 이것이 중요한가?

지금의 점수 방식은 "어제 이 문제를 맞췄다"는 사실만 알려줍니다. 하지만 미래의 AI 는 우리가 상상하지 못한 위험한 일을 할 수 있습니다.

이 논문의 핵심 메시지는 다음과 같습니다.

"우리는 AI 가 '어떤 문제'를 풀었는지 (결과) 가 아니라, '어떤 조건'에서 어떻게 변할지 (성질) 를 이해해야 합니다."

이는 마치 온도계를 발명하기 전, "손으로 만져서 뜨겁다/차갑다"고 느끼던 시대를 넘어, 정확한 온도 (섭씨/화씨) 를 재는 과학으로 나아가는 것과 같습니다.

과거: "이 AI 는 점수가 높으니 안전하다." (감각에 의존)
미래: "이 AI 는 '유혹의 강도'가 70% 를 넘으면 거짓말을 할 확률이 90% 로 급증한다." (과학적 측정)

이러한 과학적 측정이 가능해야만, AI 가 인간을 뛰어넘거나 우리가 직접 테스트할 수 없는 위험한 상황에서도 AI 가 어떻게 행동할지 예측하고 안전하게 통제할 수 있습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 제기 (Problem)

현대 인공지능 (AI) 평가 관행은 '능력 (capabilities)'과 '경향성 (propensities)'이라는 개념을 모호하게 사용하고 있으며, 이를 단순히 관측된 성능 (observable performance) 과 혼동하고 있습니다.

개념적 혼란: '능력', '기술', '가치', '성향' 등의 용어가 상호 교환적으로 사용되며, 벤치마크 데이터셋에서의 평균 점수나 적대적 공격 (red-teaming) 결과와 동일시됩니다.
측정의 부재: 현재의 평가 방식 (벤치마크 평균, 데이터 기반 잠재 변수 모델 등) 은 AI 시스템이 특정 조건에서 어떻게 행동할지에 대한 반사실적 (counterfactual) 관계를 설명하지 못합니다. 단순히 "무엇을 했는가 (What it did)"는 기록은 있지만, "어떤 조건에서 무엇을 할 것인가 (What it would do)"를 측정하는 과학적 기반이 부족합니다.
실질적 위험: 규제 프레임워크와 안전 평가가 요구되는 시점에서, 현재의 방법은 인간 수준을 넘어서는 성능이나 윤리적으로 테스트가 금지된 위험한 영역 (예: 생물무기 설계) 에서의 시스템 행동을 예측하거나 일반화할 수 없습니다.

2. 방법론 및 이론적 틀 (Methodology & Theoretical Framework)

저자들은 AI 의 능력과 경향성을 **성향 (Dispositions)**으로 재정의하고, 이를 측정하기 위한 철학적, 측정학적, 인지과학적 기반을 제시합니다.

A. 성향 (Dispositions) 의 정의

반사실적 속성: 성향은 시스템의 고유한 내재적 속성으로, 특정 조건 하에서 시스템이 어떻게 행동할 것인지에 대한 반사실적 (counterfactual) 관계로 정의됩니다.
- 예시: 유리가 깨지기 쉬운 (fragile) 성향은 현재 깨져 있는 것이 아니라, 특정 힘으로 치면 깨질 확률이 높다는 것입니다.
능력과 경향성의 구분:
- 능력 (Capabilities): 문제의 난이도나 요구 사항 (task demands) 이 변함에 따라 행동 확률이 어떻게 변하는지 (예: 수학 문제의 단계 수가 늘어날 때 정답률 감소).
- 경향성 (Propensities): 외부 인센티브나 상황적 단서 (incentives) 가 변함에 따라 행동 확률이 어떻게 변하는지 (예: 해로운 행동을 하도록 유도하는 프롬프트가 강화될 때 위험한 행동 발생 확률).

B. 성향 측정의 4 단계 프로세스

과학적으로 타당한 측정을 위해 다음 4 단계를 요구합니다:

측정 대상 정의 (Define the Subject): 측정하려는 시스템의 경계를 명확히 합니다 (예: 기본 모델 vs. 배포된 시스템, 필터링이 적용된 파이프라인 등).
인과적 기반 가설화 (Hypothesise the Causal Basis): 어떤 맥락적 속성 (contextual properties, $\pi$ ) 이 행동을 인과적으로 유발하는지 가설을 세웁니다. (예: 수학 문제의 '단계 수', '숫자 자리 수' 또는 '사용자의 도덕적 정당화 수준').
맥락 속성의 독립적 조작화 (Operationalise Contextual Properties): 성능 데이터에 의존하지 않고, 맥락 속성을 사전에 정의하고 측정 가능한 척도로 변환합니다. (순환적 논리 방지).
맥락 - 행동 확률의 매핑 (Map Context to Probability): 맥락 속성 ( $\pi$ ) 을 체계적으로 변화시키며, 목표 행동 ( $v$ ) 이 발생할 확률 $p(v | \pi, \theta)$ 을 경험적으로 매핑합니다. 여기서 $\theta$ 는 시스템의 잠재적 속성입니다.

3. 주요 기여 (Key Contributions)

개념적 정의: 능력과 경향성을 '성향 (dispositions)'으로 명확히 정의하고, 이들이 시스템 속성과 맥락 조건 사이의 인과적 관계에 기반함을 규명했습니다.
기존 방법론 비판:
- 벤치마킹: 고정된 데이터셋의 평균 점수는 이질적인 난이도를 단일 통계로 축소하여 성향의 구조를 왜곡합니다.
- 적극적 테스트 (Red-teaming/Elicitation): 인간이 상상한 제한된 적대적 상황만 샘플링하여, 시스템의 일반적인 경향성을 대표하지 못합니다.
- 잠재 변수 모델 (IRT 등): 데이터 기반의 통계적 분해는 인과적 기반을 식별하지 못하며, 측정 대상 (시스템) 에 따라 결과가 달라지는 등 성향 측정의 기본 요건을 위반합니다.
새로운 측정 프레임워크 제시: 성향을 존중하는 측정 과학을 위한 구체적인 로드맵 (위 4 단계) 을 제시했습니다. 이는 단순한 점수 산출이 아닌, 맥락 변수의 체계적 변화에 따른 행동 확률 함수의 추정을 요구합니다.

4. 결과 및 사례 (Results & Illustrations)

논문의 이론적 틀을 적용한 두 가지 예시 (Toy Illustration) 를 통해 기존 방법과의 차이를 보여줍니다.

계산 능력 (Arithmetic Capability) 측정:
- 기존: 고정된 수학 문제집의 정답률 (예: 62.5%).
- 제안: 연산 단계 수, 숫자 자리 수, 자리올림 복잡도 등 독립적으로 정의된 맥락 변수를 체계적으로 변화시킵니다.
- 결과: 시스템이 특정 난이도 임계값에서 정답률이 급격히 떨어지는지, 혹은 비선형적으로 감소하는지 등을 보여주는 **반응 함수 (Response Function)**를 얻습니다. 이는 단일 점수보다 시스템의 한계를 더 잘 설명합니다.
정직성 경향성 (Propensity for Honesty) 측정:
- 기존: 특정 프롬프트로 시스템을 속여 해로운 정보를 얻어내는지 여부 (성공/실패 이분법).
- 제안: 사용자의 도덕적 정당화 수준, 긴급성, 감독 신호 등 인센티브 관련 맥락 변수를 변화시킵니다.
- 결과: 위험한 행동을 할 확률이 인센티브 강도에 따라 어떻게 변하는지 매핑합니다. 이는 시스템이 실제 위험한 상황에서 어떻게 행동할지 (안전한 영역에서의 데이터로 위험 영역을 외삽) 예측하는 데 도움을 줍니다.

5. 의의 및 중요성 (Significance)

과학적 엄밀성 확보: AI 평가가 공학적 벤치마킹을 넘어, 물리학이나 심리학에서와 같은 **진정한 측정 과학 (Measurement Science)**으로 발전할 수 있는 이론적 토대를 마련했습니다.
안전 및 규제 대응: 인간 수준을 초과하거나 윤리적으로 테스트가 불가능한 영역 (예: 생물학적 무기, 핵무기 설계) 에서도 시스템의 위험성을 **외삽 (extrapolation)**하여 예측할 수 있는 가능성을 제시합니다.
정책적 함의: 규제 기관과 기업에게 단순한 점수 비교가 아닌, 시스템의 인과적 구조와 맥락적 민감성을 이해할 수 있는 도구를 제공합니다.
문화적 전환: "편의성 (convenience)"과 "단순한 비교" 중심의 평가 관행에서 벗어나, "이론 기반 (theory-driven)"과 "인과적 명확성"을 중시하는 새로운 평가 패러다임을 요구합니다.

결론적으로, 이 논문은 AI 시스템의 잠재적 위험과 능력을 평가하기 위해서는 단순한 성능 데이터의 집계가 아니라, 시스템과 맥락 사이의 인과적 관계를 규명하고 체계적으로 변형하여 행동 확률을 매핑하는 과학적 측정 체계가 필수적임을 강력하게 주장합니다.

Measuring What AI Systems Might Do: Towards A Measurement Science in AI

1. 문제: 우리는 무엇을 재고 있는 걸까요? (점수 vs 성질)

2. 핵심 개념: '성향 (Disposition)'이란 무엇인가?

3. 왜 지금의 평가 방식은 실패하는가?

4. 해결책: '과학적 측정'을 위한 4 단계

5. 결론: 왜 이것이 중요한가?

1. 문제 제기 (Problem)

2. 방법론 및 이론적 틀 (Methodology & Theoretical Framework)

A. 성향 (Dispositions) 의 정의

B. 성향 측정의 4 단계 프로세스

3. 주요 기여 (Key Contributions)

4. 결과 및 사례 (Results & Illustrations)

5. 의의 및 중요성 (Significance)

유사한 논문

Less is More: Data-Efficient Adaptation for Controllable Text-to-Video Generation

Better Understandings and Configurations in MaxSAT Local Search Solvers via Anytime Performance Analysis

Hybrid Agentic AI and Multi-Agent Systems in Smart Manufacturing

ReaMIL: Reasoning- and Evidence-Aware Multiple Instance Learning for Whole-Slide Histopathology

Pramana: Fine-Tuning Large Language Models for Epistemic Reasoning through Navya-Nyaya