Each language version is independently generated for its own context, not a direct translation.
1. 문제: 우리는 무엇을 재고 있는 걸까요? (점수 vs 성질)
지금까지 AI 를 평가할 때 우리는 주로 **"시험 점수"**를 보았습니다.
- "이 AI 는 수학 문제를 80% 맞추네요. 그래서 수학 실력이 좋습니다."
- "이 AI 는 유해한 질문을 95% 거절하네요. 그래서 안전합니다."
하지만 저자들은 이렇게 말합니다. "점수는 '결과'일 뿐, '성질'이 아닙니다."
🍷 비유: 깨지기 쉬운 유리잔 (Fragility)
유리잔이 '깨지기 쉽다 (부서지기 쉽다)'는 성질을 가진 것은, 현재 깨져 있기 때문이 아니라 **"충격을 주면 깨질 가능성"**이 있기 때문입니다.
- 현재의 AI 평가: 유리잔을 한 번 떨어뜨려서 깨졌는지, 안 깨졌는지 확인하고 "이 유리잔은 깨지기 쉽다"라고 결론 내립니다.
- 저자가 원하는 평가: 유리잔을 다양한 힘 (1kg, 5kg, 10kg...) 으로 때려보며, "얼마나 강한 충격이 가해져야 깨지는지" 그 **한계점 (임계값)**을 찾아내는 것입니다.
지금의 AI 평가는 "어떤 문제에서 맞췄는지"만 기록할 뿐, **"어떤 상황에서 실패할지, 왜 실패할지"**에 대한 깊은 이해가 없습니다.
2. 핵심 개념: '성향 (Disposition)'이란 무엇인가?
논문은 AI 의 능력을 **성향 (Disposition)**이라고 부릅니다. 성향은 **"특정한 조건이 주어졌을 때, 시스템이 어떻게 행동할지 결정하는 내재적인 성질"**입니다.
- 능력 (Capability): 문제가 얼마나 어려운가 (난이도) 에 따라 행동이 어떻게 변하는가?
- 비유: "이 학생은 100 점짜리 문제를 풀면 100 점, 200 점짜리 문제를 풀면 80 점, 300 점짜리 문제를 풀면 0 점이다." -> 이 곡선이 진짜 능력입니다.
- 성향 (Propensity): 유혹이나 동기가 주어졌을 때 행동이 어떻게 변하는가?
- 비유: "이 학생은 친구가 부탁하면 거짓말을 할까? 경찰이 보고 있으면 안 할까?" -> 동기에 따른 행동 변화가 진짜 성향입니다.
3. 왜 지금의 평가 방식은 실패하는가?
저자는 현재 쓰이는 세 가지 방식을 비판합니다.
벤치마크 (시험지):
- 문제: 미리 정해진 문제만 풀게 합니다. 마치 "유리잔을 1m 높이에서 떨어뜨려서 깨졌으니, 10m 에서도 깨지겠지"라고 추측하는 것과 같습니다.
- 결과: AI 가 특정 문제집에 맞춰져서 (암기해서) 점수를 잘 받으면, 진짜 능력을 가진 것으로 오해합니다.
레드 테이밍 (해킹 시뮬레이션):
- 문제: 인간이 "이렇게 하면 AI 가 나쁜 짓을 할까?"라고 상상해서 질문합니다.
- 결과: 인간이 상상할 수 있는 범위 밖의 위험은 발견하지 못합니다. 마치 "유리잔을 손으로만 때려보고, 망치로 때리는 상황은 고려하지 않는 것"과 같습니다.
복잡한 통계 모델 (IRT 등):
- 문제: "문제가 어렵다"는 것을 AI 가 틀린 걸로 정의합니다.
- 결과: "AI 가 틀렸으니 문제가 어렵다"는 순환 논리가 됩니다. 왜 어려운지, 어떤 원리로 어려운지 설명하지 못합니다.
4. 해결책: '과학적 측정'을 위한 4 단계
이 논문은 AI 를 평가할 때 물리학이나 심리학처럼 엄격한 과학적 방법을 써야 한다고 제안합니다.
1 단계: 무엇을 재는지 정의하기 (주체 명확화)
- "AI 모델 자체"를 재는지, "AI 가 필터를 거쳐 사용자에게 보여주는 모습"을 재는지 명확히 해야 합니다.
- 비유: 유리잔을 재는지, 유리잔을 넣은 상자까지 재는지 구별해야 합니다.
2 단계: 원인을 가설로 세우기 (인과관계)
- "왜 이 문제는 AI 가 틀릴까?"에 대한 가설을 세워야 합니다. (예: 숫자가 너무 길어서? 논리 단계가 너무 많아서?)
- 비유: 유리잔이 깨지는 원인이 '충격력' 때문인지, '진동' 때문인지 이론을 세우는 것입니다.
3 단계: 변수를 독립적으로 측정하기 (도구 만들기)
- 문제의 난이도나 유혹의 강도를 AI 의 점수와 상관없이, 별도로 측정 가능한 척도로 만듭니다.
- 비유: "이 문제는 5 단계의 계산이 필요하다"라고 숫자로 정의하는 것입니다. (AI 가 틀렸다고 해서 갑자기 문제가 어려워지는 게 아닙니다.)
4 단계: 행동 확률의 지도 그리기 (관계 매핑)
- 변수를 조금씩 바꿔가며 (난이도 10, 20, 30...), AI 가 성공할 확률이 어떻게 변하는지 곡선을 그립니다.
- 결과: "이 AI 는 5 단계까지는 잘하지만, 6 단계부터 확률이 0% 로 떨어진다"는 정확한 한계점을 알게 됩니다.
5. 결론: 왜 이것이 중요한가?
지금의 점수 방식은 "어제 이 문제를 맞췄다"는 사실만 알려줍니다. 하지만 미래의 AI 는 우리가 상상하지 못한 위험한 일을 할 수 있습니다.
이 논문의 핵심 메시지는 다음과 같습니다.
"우리는 AI 가 '어떤 문제'를 풀었는지 (결과) 가 아니라, '어떤 조건'에서 어떻게 변할지 (성질) 를 이해해야 합니다."
이는 마치 온도계를 발명하기 전, "손으로 만져서 뜨겁다/차갑다"고 느끼던 시대를 넘어, 정확한 온도 (섭씨/화씨) 를 재는 과학으로 나아가는 것과 같습니다.
- 과거: "이 AI 는 점수가 높으니 안전하다." (감각에 의존)
- 미래: "이 AI 는 '유혹의 강도'가 70% 를 넘으면 거짓말을 할 확률이 90% 로 급증한다." (과학적 측정)
이러한 과학적 측정이 가능해야만, AI 가 인간을 뛰어넘거나 우리가 직접 테스트할 수 없는 위험한 상황에서도 AI 가 어떻게 행동할지 예측하고 안전하게 통제할 수 있습니다.
이런 논문을 받은편지함으로 받아보세요
관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.