Social, Legal, Ethical, Empathetic and Cultural Norm Operationalisation for AI Agents

이 논문은 고위험 분야에서 AI 에이전트의 사회적, 법적, 윤리적, 공감적, 문화적 규범 (SLEEC) 을 추상적 원칙에서 검증 가능한 구체적 요구사항으로 전환하는 체계적인 운영화 프로세스와 연구 의제를 제시합니다.

Radu Calinescu, Ana Cavalcanti, Marsha Chechik, Lina Marsso, Beverley Townsend

게시일 Fri, 13 Ma
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"인공지능 (AI) 이 인간 사회의 복잡한 규칙과 감정을 어떻게 배워야 하는가?"**에 대한 해답을 제시합니다.

간단히 말해, AI 가 병원, 경찰, 교통 같은 중요한 곳에서 일할 때, 단순히 "일만 잘하는 로봇"이 아니라 **"인간처럼 윤리적이고, 법을 지키며, 감정을 이해하는 로봇"**이 되게 만드는 방법론을 소개합니다.

이 내용을 이해하기 쉽게 **'새로운 직원을 채용하고 교육하는 과정'**에 비유해서 설명해 드리겠습니다.


🤖 핵심 비유: "AI 라는 신입 사원 교육 프로그램"

이 논문은 AI 를 개발하는 과정을 마치 새로운 직원을 뽑아 교육하고, 업무 매뉴얼을 만들고, 시험을 치러 합격시킨 뒤 채용하는 과정으로 설명합니다.

1. 문제: "일만 잘하면 되나요?"

지금까지 AI 는 "일 (기능) 을 얼마나 빠르게, 정확하게 하느냐"만 중요했습니다. 하지만 AI 가 자율주행차나 간호 로봇처럼 인간의 생명을 다루는 일을 할 때는 이야기가 다릅니다.

  • 상황: AI 가 환자의 사생활을 지키는 게 중요할지, 아니면 정확한 진단을 하는 게 중요할지 고민해야 합니다.
  • 해결책: 단순히 "일 잘하는 AI"가 아니라, **사회적 (Social), 법적 (Legal), 윤리적 (Ethical), 공감적 (Empathetic), 문화적 (Cultural)**인 규칙을 모두 따르는 SLEEC라는 5 가지 기준을 갖춘 AI 가 되어야 합니다.

2. 해결책: 5 단계 교육 프로세스 (SLEEC 운영화)

논문은 추상적인 "착한 AI"라는 개념을 실제 작동하는 코드로 바꾸는 5 단계 교육 과정을 제안합니다.

1 단계: 직무 능력 정의하기 (무엇을 할 수 있는가?)

  • 비유: "이 직원은 카메라를 볼 수 있고, 말을 할 수 있으며, 비상벨을 누를 수 있다."라고 직무 설명서를 작성합니다.
  • 중요한 점: 카메라가 있다는 건 '사생활 침해'라는 새로운 문제가 생길 수 있음을 의미하므로, 이 능력을 어떻게 통제할지 미리 생각해야 합니다.

2 단계: 규칙 만들기 (매뉴얼 작성하기)

  • 비유: 윤리학자, 변호사, 일반 시민, 개발자가 모여서 "이 직원은 이런 상황에 이렇게 행동해야 한다"는 구체적인 규칙을 만듭니다.
  • 예시: "환자가 넘어졌으면 (Trigger) -> 4 분 안에 구조대에 전화하라 (Response)"는 규칙을 만듭니다.
  • 예외 상황 (Defeater): "하지만 환자가 '안 돼'라고 말하면 (Defeater) -> 전화하지 마라." 같은 예외 규칙도 추가합니다.

3 단계: 규칙 검토하기 (상호작용 테스트)

  • 비유: 만든 규칙들이 서로 모순되지 않는지, 누락된 건 없는지 철저히 점검합니다.
  • 문제 발견: "환자가 넘어졌을 때 전화하라"는 규칙과 "환자가 거부하면 전화하지 마라"는 규칙이 충돌할 수 있습니다. (환자가 의식이 없으면 거부할 수 없으니?)
  • 해결: "환자가 의식이 없고 거부하지 않는 경우에만 전화하지 마라"처럼 규칙을 더 정교하게 다듬습니다.

4 단계: 실제 업무 적용 (교육 및 훈련)

  • 비유: 이 규칙들을 AI 로봇의 머릿속에 심어줍니다.
  • 방법: AI 가 학습할 때 "착한 행동 데이터"와 "나쁜 행동 데이터"를 구분해서 가르치고, 실제 작동 중에는 규칙을 위반하면 자동으로 멈추게 하는 **'안전장치 (Guardrails)'**를 설치합니다.

5 단계: 최종 시험 (합격 여부 판정)

  • 비유: AI 가 실제 상황 (시험) 에서 규칙을 지키는지 검증합니다.
  • 결과: 만약 규칙을 위반하는 행동을 보이면, 채용 (배포) 을 취소합니다. 아무리 똑똑해도 규칙을 지키지 못하면 쓸 수 없다는 뜻입니다.

🚧 남은 과제: "완벽한 교육은 아직 어렵다"

이론적으로는 완벽한 시스템이지만, 현실에서는 몇 가지 큰 장벽이 남아 있습니다.

  1. 추상적인 개념을 구체화하기 어렵다: "인간 존엄성"이나 "공감" 같은 거창한 말을 로봇이 이해할 수 있는 구체적인 코드로 바꾸는 게 매우 어렵습니다.
  2. 가치 충돌: "사생활 보호"와 "안전"이 충돌할 때, AI 가 어떻게 선택해야 할지 정하기 어렵습니다. (예: 범죄자를 잡기 위해 사생활을 침해할 수 있는가?)
  3. 기술적 한계: AI 가 인간의 미세한 감정이나 상황을 실시간으로 파악하려면 엄청난 계산 능력이 필요합니다.
  4. 변화하는 규칙: 사회의 규범은 시대에 따라 변합니다. AI 가 배포된 후에도 새로운 상황에 맞춰 스스로 규칙을 업데이트할 수 있게 만드는 게 어렵습니다.
  5. 사람들의 이해 부족: 개발자, 법률가, 일반인 모두가 같은 언어로 대화할 수 있도록 교육해야 합니다.

💡 결론: "착한 AI 를 위한 청사진"

이 논문은 **"AI 를 개발할 때, 기능만 쫓지 말고 인간 사회의 가치 (SLEEC) 를 먼저 설계하라"**고 말합니다.

마치 새로운 직원을 채용할 때, 단순히 실력만 보고 뽑지 않고 인성, 윤리, 팀워크까지 꼼꼼히 검증하는 과정과 같습니다. 이 과정을 통해 우리는 AI 가 인간을 해치지 않고, 오히려 인간을 더 잘 돕는 '신뢰할 수 있는 파트너'가 되기를 기대합니다.

만약 이 과정 중 하나라도 실패하면, 그 AI 는 세상에 나오지 못하게 (배포가 취소되어) 됩니다. 이것이 바로 AI 를 안전하게 만드는 가장 확실한 방법입니다.