A Structured Approach to Safety Case Construction for AI Systems

이 논문은 항공이나 원자력 분야의 전통적 안전 사례 접근법이 역동적이고 예측 불가능한 현대 AI 시스템의 특성을 포착하지 못한다는 점을 지적하고, AI 고유의 주장·논증·증거 분류 체계와 재사용 가능한 템플릿을 제시하여 진화하는 AI 시스템에 대한 신뢰할 수 있고 감사 가능하며 적응적인 안전 사례 구축을 위한 체계적인 방법론을 제안합니다.

Sung Une Lee, Liming Zhu, Md Shamsujjoha, Liming Dong, Qinghua Lu, Jieshan Chen, Lionel Briand

게시일 Mon, 09 Ma
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 왜 기존 방식은 AI 에게 실패했을까요? (기차 vs. 살아있는 생물)

과거 비행기나 원자력 발전소 같은 시스템을 만들 때는 **'기차'**를 만들 때와 비슷했습니다.

  • 기차 (전통 공학): 설계도면대로 부품을 조립합니다. "이 기어가 고장 나면 어떻게 될까?"를 미리 다 계산해 두죠. 모든 것이 정해져 있고, 한 번 만들어지면 잘 변하지 않습니다. 그래서 "이 기차는 안전하다"라고 완벽한 설계도로 증명할 수 있었습니다.

하지만 **AI 는 다릅니다. AI 는 '살아있는 생물'이나 '유연한 점토'**와 같습니다.

  • AI 의 특징:
    • 예측 불가: 학습을 시키면 어떤 능력을 갖게 될지 미리 다 알 수 없습니다. (예: 갑자기 새로운 언어를 배우거나, 엉뚱한 짓을 할 수도 있음)
    • 변화: 배포된 후에도 계속 업데이트되고, 새로운 데이터로 다시 학습됩니다.
    • 정답 없음: "이 답변이 100% 정답이다"라고 말할 수 없는 경우가 많습니다.

문제점: 기존의 안전 증명 방식은 "설계대로만 움직여야 한다"는 전제에 기반합니다. 하지만 AI 는 설계도대로 움직이지 않고, 스스로 배우고 변하기 때문에 기존의 '안전 증명서'는 AI 에게는 낡은 지도가 되어버린 것입니다.


2. 이 논문이 제안하는 해결책: "AI 전용 안전 증명서"

이 논문은 AI 의 특성을 반영한 **새로운 안전 증명서 작성 가이드 (템플릿)**를 만들었습니다. 이를 세 가지 핵심 요소로 나누어 설명해 보겠습니다.

① 주장 (Claim): "무엇을 증명할 것인가?"

  • 기존: "이 시스템은 100% 안전하다." (절대적)
  • AI 전용: "이 시스템은 특정 조건 안에서 안전하다" 또는 "이전 버전보다 더 안전하다." (상대적/조건부)
    • 비유: "이 비오는 날 우산은 100% 방수다"라고 하기보다, "이 우산은 10 분 내의 소나기에는 안전하다"라고 말하는 것입니다.

② 논리 (Argument): "왜 안전한가?"

  • 기존: "부품 A, B, C 가 모두 안전하므로 전체가 안전하다." (연역적)
  • AI 전용: "수천 번의 테스트에서 안전했고, 다른 시스템보다 나쁘지 않으며, 위험이 발견되면 즉시 막을 수 있다." (유도적, 통계적, 비교적)
    • 비유: "이 요리사가 안전하다"라고 증명할 때, "손가락을 잘랐던 적이 없다"는 사실 (데이터) 과 "다른 요리사들보다 실수가 적다"는 비교 (비교) 를 통해 증명하는 방식입니다.

③ 증거 (Evidence): "어떤 자료로 증명할 것인가?"

  • 기존: 설계서, 검사 기록, 공식 인증서.
  • AI 전용: 적대적 해킹 테스트 (Red-teaming), 실제 사용 데이터, 전문가의 판단, 모델이 왜 그런 결정을 내렸는지 설명하는 자료.
    • 비유: 요리사의 안전을 증명할 때, "위생 검사 통과증"뿐만 아니라, "실제 손님들의 리뷰"와 "다른 요리사들과의 요리 대결 결과"도 증거로 제시하는 것입니다.

3. 구체적인 활용 패턴 4 가지 (요리 레시피)

논문은 다양한 AI 상황에 맞춰 쓸 수 있는 **4 가지 '안전 증명 레시피 (패턴)'**를 소개합니다.

  1. 발견형 증명 (Discovery-driven):

    • 상황: AI 가 무엇을 할지 몰라서 테스트해 봐야 알 때.
    • 방법: "우리는 아직 모든 위험을 모릅니다. 하지만 계속 테스트하고 발견된 위험은 바로 고치고 있습니다."라고 증명합니다.
    • 비유: "이 새 요리는 아직 다 맛보지 못했지만, 매번 맛보면서 나쁜 맛을 찾아내고 고치고 있습니다."
  2. 기준치 비교형 (Marginal-risk without ground truth):

    • 상황: '정답'이 없는 경우 (예: 예술 작품 평가, tender 평가).
    • 방법: "완벽한 정답은 없지만, 기존에 사람이 하던 방식보다 나쁘지 않거나 더 좋습니다."라고 증명합니다.
    • 비유: "이 AI 가 쓴 글이 완벽할 수는 없지만, 기존에 사람이 쓴 글보다 오타가 적고 논리가 더 좋습니다."
  3. 지속적 진화형 (Continuous-evolution):

    • 상황: AI 가 계속 업데이트될 때.
    • 방법: "AI 가 변해도 안전성이 유지되도록 실시간으로 감시하고, 업데이트될 때마다 다시 검증합니다."
    • 비유: "이 자동차는 소프트웨어가 계속 업데이트되지만, 매번 업데이트할 때마다 안전 장치가 다시 작동하는지 확인합니다."
  4. 임계값 결정형 (Threshold-based):

    • 상황: 숫자로 위험을 판단할 때.
    • 방법: "위험도가 5% 미만이면 안전합니다. 현재 위험도는 2% 입니다."
    • 비유: "수온이 40 도를 넘으면 위험합니다. 현재 수온은 38 도이므로 안전합니다."

4. 실제 사례: 정부 입찰 심사 AI

논문의 마지막에는 실제 사례를 들어 설명합니다.

  • 상황: 정부가 기업 입찰을 심사할 때, 인간 심사관 2 명 대신 AI 1 명을 투입했습니다.
  • 문제: "AI 가 심사한 결과가 100% 맞다"라고 증명할 정답 (Ground Truth) 이 없습니다.
  • 해결: 이 논문이 제안한 '기준치 비교형' 방식을 썼습니다.
    • "AI 가 심사한 결과가 기존 인간 심사관 2 명이 한 결과보다 더 일관성 있고 (불일치율 0.2% 감소), 더 안전합니다."라고 증명했습니다.
    • 이를 위해 200 개의 가짜 입찰 서류로 실험을 하고, 통계적으로 "인간보다 나쁘지 않다"는 것을 숫자로 증명했습니다.

5. 결론: 왜 이것이 중요한가요?

이 논문은 AI 안전을 **"한 번 만들고 끝나는 문서"**가 아니라, **"AI 가 변하는 대로 계속 업데이트되는 살아있는 문서"**로 만들어야 한다고 말합니다.

  • 기존: "이 기차는 안전합니다. (끝)"
  • 이 논문의 제안: "이 AI 는 현재 이 조건에서 안전합니다. 하지만 우리가 계속 감시하고, 업데이트할 때마다 다시 검증하며, 새로운 위험이 발견되면 즉시 대응할 준비가 되어 있습니다."

이처럼 유연하고, 증거 기반이며, 계속 업데이트되는 안전 증명서를 통해 우리는 더 안전하고 신뢰할 수 있는 AI 세상을 만들 수 있게 됩니다.