Measuring What AI Systems Might Do: Towards A Measurement Science in AI

이 논문은 AI 의 능력과 성향을 '성향적 속성'으로 정의하고, 기존 평가 방식이 이를 측정하지 못함을 지적한 뒤, 인과적 맥락과 행동 간의 관계를 실증적으로 매핑하는 새로운 과학적 측정 체계를 제안합니다.

Konstantinos Voudouris, Mirko Thalmann, Alex Kipnis, José Hernández-Orallo, Eric Schulz

게시일 2026-03-03
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제: 우리는 무엇을 재고 있는 걸까요? (점수 vs 성질)

지금까지 AI 를 평가할 때 우리는 주로 **"시험 점수"**를 보았습니다.

  • "이 AI 는 수학 문제를 80% 맞추네요. 그래서 수학 실력이 좋습니다."
  • "이 AI 는 유해한 질문을 95% 거절하네요. 그래서 안전합니다."

하지만 저자들은 이렇게 말합니다. "점수는 '결과'일 뿐, '성질'이 아닙니다."

🍷 비유: 깨지기 쉬운 유리잔 (Fragility)

유리잔이 '깨지기 쉽다 (부서지기 쉽다)'는 성질을 가진 것은, 현재 깨져 있기 때문이 아니라 **"충격을 주면 깨질 가능성"**이 있기 때문입니다.

  • 현재의 AI 평가: 유리잔을 한 번 떨어뜨려서 깨졌는지, 안 깨졌는지 확인하고 "이 유리잔은 깨지기 쉽다"라고 결론 내립니다.
  • 저자가 원하는 평가: 유리잔을 다양한 힘 (1kg, 5kg, 10kg...) 으로 때려보며, "얼마나 강한 충격이 가해져야 깨지는지" 그 **한계점 (임계값)**을 찾아내는 것입니다.

지금의 AI 평가는 "어떤 문제에서 맞췄는지"만 기록할 뿐, **"어떤 상황에서 실패할지, 왜 실패할지"**에 대한 깊은 이해가 없습니다.

2. 핵심 개념: '성향 (Disposition)'이란 무엇인가?

논문은 AI 의 능력을 **성향 (Disposition)**이라고 부릅니다. 성향은 **"특정한 조건이 주어졌을 때, 시스템이 어떻게 행동할지 결정하는 내재적인 성질"**입니다.

  • 능력 (Capability): 문제가 얼마나 어려운가 (난이도) 에 따라 행동이 어떻게 변하는가?
    • 비유: "이 학생은 100 점짜리 문제를 풀면 100 점, 200 점짜리 문제를 풀면 80 점, 300 점짜리 문제를 풀면 0 점이다." -> 이 곡선이 진짜 능력입니다.
  • 성향 (Propensity): 유혹이나 동기가 주어졌을 때 행동이 어떻게 변하는가?
    • 비유: "이 학생은 친구가 부탁하면 거짓말을 할까? 경찰이 보고 있으면 안 할까?" -> 동기에 따른 행동 변화가 진짜 성향입니다.

3. 왜 지금의 평가 방식은 실패하는가?

저자는 현재 쓰이는 세 가지 방식을 비판합니다.

  1. 벤치마크 (시험지):

    • 문제: 미리 정해진 문제만 풀게 합니다. 마치 "유리잔을 1m 높이에서 떨어뜨려서 깨졌으니, 10m 에서도 깨지겠지"라고 추측하는 것과 같습니다.
    • 결과: AI 가 특정 문제집에 맞춰져서 (암기해서) 점수를 잘 받으면, 진짜 능력을 가진 것으로 오해합니다.
  2. 레드 테이밍 (해킹 시뮬레이션):

    • 문제: 인간이 "이렇게 하면 AI 가 나쁜 짓을 할까?"라고 상상해서 질문합니다.
    • 결과: 인간이 상상할 수 있는 범위 밖의 위험은 발견하지 못합니다. 마치 "유리잔을 손으로만 때려보고, 망치로 때리는 상황은 고려하지 않는 것"과 같습니다.
  3. 복잡한 통계 모델 (IRT 등):

    • 문제: "문제가 어렵다"는 것을 AI 가 틀린 걸로 정의합니다.
    • 결과: "AI 가 틀렸으니 문제가 어렵다"는 순환 논리가 됩니다. 왜 어려운지, 어떤 원리로 어려운지 설명하지 못합니다.

4. 해결책: '과학적 측정'을 위한 4 단계

이 논문은 AI 를 평가할 때 물리학이나 심리학처럼 엄격한 과학적 방법을 써야 한다고 제안합니다.

1 단계: 무엇을 재는지 정의하기 (주체 명확화)

  • "AI 모델 자체"를 재는지, "AI 가 필터를 거쳐 사용자에게 보여주는 모습"을 재는지 명확히 해야 합니다.
  • 비유: 유리잔을 재는지, 유리잔을 넣은 상자까지 재는지 구별해야 합니다.

2 단계: 원인을 가설로 세우기 (인과관계)

  • "왜 이 문제는 AI 가 틀릴까?"에 대한 가설을 세워야 합니다. (예: 숫자가 너무 길어서? 논리 단계가 너무 많아서?)
  • 비유: 유리잔이 깨지는 원인이 '충격력' 때문인지, '진동' 때문인지 이론을 세우는 것입니다.

3 단계: 변수를 독립적으로 측정하기 (도구 만들기)

  • 문제의 난이도나 유혹의 강도를 AI 의 점수와 상관없이, 별도로 측정 가능한 척도로 만듭니다.
  • 비유: "이 문제는 5 단계의 계산이 필요하다"라고 숫자로 정의하는 것입니다. (AI 가 틀렸다고 해서 갑자기 문제가 어려워지는 게 아닙니다.)

4 단계: 행동 확률의 지도 그리기 (관계 매핑)

  • 변수를 조금씩 바꿔가며 (난이도 10, 20, 30...), AI 가 성공할 확률이 어떻게 변하는지 곡선을 그립니다.
  • 결과: "이 AI 는 5 단계까지는 잘하지만, 6 단계부터 확률이 0% 로 떨어진다"는 정확한 한계점을 알게 됩니다.

5. 결론: 왜 이것이 중요한가?

지금의 점수 방식은 "어제 이 문제를 맞췄다"는 사실만 알려줍니다. 하지만 미래의 AI 는 우리가 상상하지 못한 위험한 일을 할 수 있습니다.

이 논문의 핵심 메시지는 다음과 같습니다.

"우리는 AI 가 '어떤 문제'를 풀었는지 (결과) 가 아니라, '어떤 조건'에서 어떻게 변할지 (성질) 를 이해해야 합니다."

이는 마치 온도계를 발명하기 전, "손으로 만져서 뜨겁다/차갑다"고 느끼던 시대를 넘어, 정확한 온도 (섭씨/화씨) 를 재는 과학으로 나아가는 것과 같습니다.

  • 과거: "이 AI 는 점수가 높으니 안전하다." (감각에 의존)
  • 미래: "이 AI 는 '유혹의 강도'가 70% 를 넘으면 거짓말을 할 확률이 90% 로 급증한다." (과학적 측정)

이러한 과학적 측정이 가능해야만, AI 가 인간을 뛰어넘거나 우리가 직접 테스트할 수 없는 위험한 상황에서도 AI 가 어떻게 행동할지 예측하고 안전하게 통제할 수 있습니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →