Design Behaviour Codes (DBCs): A Taxonomy-Driven Layered Governance Benchmark for Large Language Models

이 논문은 추론 시 적용 가능한 모델 중립적인 거버넌스 레이어인 MDBC(150 개 행동 제약) 를 도입하여, 기존 안전성 필터링보다 36.8% 높은 위험 감소율과 EU AI 법규 준수성을 입증한 새로운 평가 프레임워크 DBC 를 제안합니다.

G. Madan Mohan, Veena Kiran Nambiar, Kiranmayee Janardhan

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"거대 인공지능 **(LLM)에 대해 설명합니다.

쉽게 말해, 인공지능이 실수를 하거나 위험한 말을 할 때, 단순히 "조심해"라고 말하는 것보다 훨씬 더 정교하고 체계적인 **"행동 규칙 **(DBC)을 적용하면 얼마나 안전해지는지 실험한 결과입니다.

이 내용을 일상적인 비유로 풀어서 설명해 드릴게요.


🚗 비유: 인공지능은 '운전면허를 딴 초보 운전자'입니다

지금까지 인공지능을 개발할 때는 두 가지 방법만 썼습니다.

  1. **훈련 **(RLHF 등) 운전학교에서 오랫동안 가르쳐서 본능적으로 위험한 행동을 하지 않게 만드는 것. (하지만 이 방법은 비용이 많이 들고, 한 번 가르치면 수정하기 어렵습니다.)
  2. **차단 **(모더레이션) 운전 중 위험한 행동을 하면 경찰이 즉시 차를 세우는 것. (하지만 이미 사고가 난 뒤에 막는 경우가 많고, 운전자가 왜 위험한지 이해하지 못합니다.)

이 논문은 세 번째 방법을 제안합니다.

"운전자가 차에 타자마자, '안전 운전 매뉴얼'을 대시보드에 붙여주는 것"

이 매뉴얼이 바로 DBC(행동 행동 코드)입니다.

📜 DBC란 무엇인가요? (150 개의 행동 규칙)

이 연구팀 (Yonih Ventures) 은 인공지능이 말을 할 때 지켜야 할 150 가지 구체적인 규칙을 만들었습니다. 이를 MDBC라고 부릅니다.

  • 규칙의 종류: "거짓말하지 않기", "편견 없이 대하기", "개인정보 흘리지 않기", "자신이 모르는 건 모른다고 하기" 등 150 가지입니다.
  • 특징: 인공지능의 뇌를 다시 가르칠 필요 없이, 대화를 시작할 때 이 규칙들을 시스템에 입력하면 됩니다. 마치 운전자가 차를 시작할 때 "안전벨트 착용, 신호 준수, 과속 금지"를 다시 상기시키는 것과 같습니다.

🧪 실험: 얼마나 효과가 있을까요?

연구팀은 인공지능에게 30 가지 위험한 상황 (거짓말, 편견, 해킹 시도, 개인정보 유출 등) 을 만들어서 공격해 보았습니다. (이를 '레드 팀' 공격이라고 합니다.)

그리고 세 가지 상황을 비교했습니다.

  1. 기본 상태: 아무 규칙도 없는 상태.
  2. 일반 안전 모드: "안전하게 말해"라는 막연한 지시만 있는 상태.
  3. DBC 적용 상태: 150 가지 구체적인 규칙이 적용된 상태.

📊 놀라운 결과 (숫자로 보는 변화)

  • **위험한 실수율 **(Risk Exposure Rate)

    • 기본 상태: 7.19% (약 100 번 중 7 번 실수)
    • 일반 안전 모드: 7.15% (거의 효과 없음)
    • DBC 적용: 4.55% (약 100 번 중 4 번 실수로 감소)
    • 결론: DBC 를 적용하니 위험한 실수가 약 37%나 줄어들었습니다! 일반 안전 모드와는 비교도 안 될 정도로 효과적이었습니다.
  • 법적 준수 점수:

    • 유럽의 AI 법 (EU AI Act) 같은 복잡한 규정을 얼마나 잘 지키는지 점수를 매겼는데, DBC 를 적용하면 점수가 8.5 점으로 크게 올라갔습니다.

🛡️ 왜 이렇게 효과가 좋을까요?

일반적인 안전 지시는 "무조건 나쁜 말은 하지 마"라고만 하지만, **DBC 는 "왜 나쁜지, 어떻게 해야 하는지"**를 구체적으로 알려줍니다.

  • 비유:
    • 일반 모드: "차량 사고 나지 않게 조심해!" (너무 막연함)
    • DBC 모드: "속도 60km 이하 유지, 신호등 빨간불 시 정지, 보행자 우선, 안전벨트 매기, 졸음 운전 금지..." (구체적이고 실행 가능함)

이처럼 구체적인 규칙이 적용되니, 인공지능이 헷갈려서 실수할 확률이 줄어든 것입니다. 특히 **거짓말 **(할루시네이션)을 줄이는 데 가장 큰 효과가 있었습니다.

⚠️ 하지만 완벽하지는 않습니다

연구팀은 인공지능이 이 규칙을 우회하려는 공격 (해커가 규칙을 속이는 시나리오) 을 시도해 보기도 했습니다.

  • 결과: 100 번의 공격 중 약 4~5 번은 규칙을 뚫고 실수를 했습니다.
  • 의미: 아직 100% 완벽하지는 않지만, 아무것도 안 한 것보다는 훨씬 안전하며, 앞으로도 더 발전할 수 있다는 뜻입니다.

💡 결론: 이 연구가 주는 메시지

이 논문은 **"인공지능을 안전하게 만들기 위해, 훈련만 시키는 게 아니라 '실시간 행동 규칙'을 적용하는 것이 훨씬 효과적이고 저렴하다"**는 것을 증명했습니다.

마치 운전자가 차를 탈 때마다 안전 수칙을 다시 확인하는 것처럼, 인공지능에게도 구체적인 행동 매뉴얼 (DBC) 을 제공하는 것이 미래의 AI 안전을 지키는 핵심 열쇠가 될 것입니다.

이 연구는 전 세계적으로 AI 규제가 강화되고 있는 시점에서, 기업들이 AI 를 안전하게 쓸 수 있는 실용적인 가이드라인을 제시했다는 점에서 매우 중요합니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →