Trust as Monitoring: Evolutionary Dynamics of User Trust and AI Developer Behaviour

Adeela Bashir, Zhao Song, Ndidi Bianca Ogbo, Nataliya Balabanova, Martin Smit, Chin-wing Leung, Paolo Bova, Manuel Chica Serrano, Dhanushka Dissanayake, Manh Hong Duong, Elias Fernandez Domingos, Nikita Huber-Kralj, Marcus Krellner, Andrew Powell, Stefan Sarkadi, Fernando P. Santos, Zia Ush Shamszaman, Chaimaa Tarzi, Paolo Turrini, Grace Ibukunoluwa Ufeoshi, Victor A. Vargas-Perez, Alessandro Di Stefano, Simon T. Powers, The Anh Han

게시일 2026-03-27

📖 3 분 읽기☕ 가벼운 읽기

보기: arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

🍎 비유: "사과 장수와 사과를 사는 고객"

이 논문의 세계는 **사과 장수 (AI 개발자)**와 **사과를 사는 고객 (사용자)**이 매일 거래를 반복하는 시장이라고 상상해 보세요.

1. 두 가지 선택지

장수 (개발자):
- 안전한 사과 (Cooperate): 비싼 유기농 비료를 써서 안전한 사과를 만듭니다. (비용이 듦)
- 위험한 사과 (Defect): 값싼 화학 약품을 써서 맛은 좋지만 배탈 날 위험이 있는 사과를 만듭니다. (비용이 적음, 하지만 걸리면 벌금)
고객 (사용자):
- 무조건 믿기 (Trust): 장수의 말을 믿고 사과를 사서 바로 먹습니다. (감시 비용 0 원)
- 무조건 의심하기 (Distrust): 아예 사과를 안 삽니다.
- 감시하기 (Monitor): 사과를 사기 전에 "이거 진짜 안전한가?"라고 장수를 꼼꼼히 검사합니다. (검사 비용 발생)
- 지능적인 신뢰 (Smart Trust): 처음엔 꼼꼼히 검사하다가, 장수가 몇 번 연속 안전한 사과를 주면 "이제 믿어도 되겠지?"라고 생각해서 검사를 줄입니다. (논문에서 'TUA', 'DtG'라고 부르는 전략)

2. 핵심 문제: "감시 비용"과 "벌금"

이 게임에서 가장 중요한 두 가지 변수가 있습니다.

감시 비용 (Monitoring Cost): 사과를 검사하려면 시간과 돈이 듭니다. 만약 감시 비용이 너무 비싸다면, 고객은 "검사는 귀찮으니 그냥 믿거나 아예 안 사겠다"라고 생각하게 됩니다.
벌금 (Punishment): 장수가 위험한 사과를 팔다가 걸리면 얼마나 큰 벌금을 내느냐입니다.

📊 연구 결과: 세 가지 미래 시나리오

이 논문의 분석에 따르면, 감시 비용과 벌금의 조합에 따라 세 가지 다른 미래가 펼쳐집니다.

🛑 시나리오 1: "아무도 사과를 안 사는 암흑기"

상황: 감시 비용이 너무 비싸고, 장수가 위험한 사과를 팔았을 때 받는 벌금도 미미할 때.
결과: 고객은 "검사는 너무 비싸고, 장수는 나쁜 사과를 팔아도 괜찮아. 차라리 아예 사과를 안 사자"라고 생각합니다.
현실: AI 기술이 발전할 기회를 놓치고, 아무도 AI 를 쓰지 않게 됩니다.

⚠️ 시나리오 2: "위험하지만 인기 있는 사과 (가장 위험한 상황)"

상황: 감시 비용은 비싸서 고객이 감시를 포기하고, 벌금도 약해서 장수가 위험한 사과를 팔아도 큰 타격이 없을 때.
결과: 고객은 "아무래도 감시하기 귀찮으니 그냥 믿고 사자"라고 생각하며, 장수는 "감시도 안 하고 벌금도 안 나오니 위험한 사과를 팔아도 이득이다"라고 생각합니다.
현실: 가장 위험한 상황입니다. 사람들은 AI 를 많이 쓰지만, 그 AI 는 안전하지 않아서 사고가 계속 발생합니다. (예: 개인정보 유출, 편향된 판단 등)

✅ 시나리오 3: "안전하고 인기 있는 사과 (이상적인 미래)"

상황: 감시 비용이 저렴하고, 장수가 위험한 사과를 팔았을 때 엄청난 벌금을 물게 될 때.
결과:
- 고객은 "검사가 싸니까 가끔은 확인해 보자"라고 생각하며, 장수가 안전한 사과를 주면 "이제 믿어도 되겠다"라고 신뢰를 줍니다.
- 장수는 "안전한 사과를 만들어야 벌금을 피하고, 고객이 믿어주니까 돈을 더 벌 수 있겠다"라고 생각하여 안전한 AI 를 개발합니다.
현실: AI 가 안전하게 발전하고, 사람들은 적절히 신뢰하며 AI 를 활용합니다.

💡 이 논문이 우리에게 주는 교훈

"맹신"은 위험합니다: 고객이 장수를 무조건 믿고 감시를 안 하면, 장수는 나쁜 사과를 팔게 됩니다. 신뢰는 맹신이 아니라, 적절한 감시 (점검) 가 가능할 때만 작동하는 것입니다.
"감시 비용"을 낮춰야 합니다: 정부가 AI 를 어떻게 검사할지, 어떤 문서가 필요한지 복잡하게 만들면 (감시 비용 상승), 사람들은 감시를 포기하고 AI 를 맹신하게 됩니다. 반대로, 검사가 쉽고 저렴하게 이루어져야 사람들이 적절히 감시할 수 있습니다.
"벌금"은 확실해야 합니다: 장수가 나쁜 사과를 팔았을 때, 걸리면 정말 큰 대가를 치르게 해야 합니다. 그래야 장수가 안전한 사과를 만들 동기가 생깁니다.

🎯 결론

이 논문은 **"AI 를 안전하게 하려면, 개발자만 착해지기를 바랄 게 아니라, 사용자가 감시할 수 있는 환경을 만들고, 나쁜 개발자에게는 확실한 처벌을 가하는 시스템이 필요하다"**고 말합니다.

우리가 AI 를 믿는다는 것은 "눈을 감고 믿는 것"이 아니라, **"검사를 할 수 있는 능력이 있으니까, 그 능력을 아껴서 믿는 것"**이라는 뜻입니다. 이것이 바로 이 논문이 말하는 **'신뢰의 진화'**입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 제기 (Problem)

AI 의 기능과 도입이 확대됨에 따라 AI 안전성 (AI Safety) 은 시급한 과제가 되었습니다. 기존의 AI 거버넌스 연구는 주로 안전한 개발을 위한 인센티브와 규제 기관의 효과적 집행에 초점을 맞추어 왔습니다. 그러나 기존 진화 게임 이론 (Evolutionary Game Theory, EGT) 모델들은 대부분 단발성 (one-shot) 상호작용을 가정하여, 사용자의 신뢰를 단순한 '채택 여부'의 선택으로만 모델링했습니다.

실제로 신뢰는 반복적인 상호작용, 경험, 기대, 그리고 관찰된 행동을 통해 형성되고 진화하는 동적 과정입니다. 또한, 기존 모델들은 신뢰를 협력 행위 자체와 혼동하거나, AI 개발자와 사용자 간의 비대칭적 관계와 '감시 (monitoring)'의 비용을 충분히 반영하지 못했습니다. 따라서 신뢰를 '감시 비용이 드는 상황에서 파트너의 행동을 덜 확인하는 것'으로 정의하고, 규제 체계 하에서 사용자의 신뢰 전략과 개발자의 안전/위험 개발 전략이 어떻게 공진화 (co-evolve) 하는지를 규명할 필요가 있습니다.

2. 방법론 (Methodology)

이 연구는 사용자와 AI 개발자 (크리에이터) 간의 비대칭적 반복 게임을 진화 게임 이론과 강화 학습을 결합하여 분석했습니다.

모델 설정:
- 사용자 (Users): 5 가지 전략을 선택합니다.
  - AllA: 항상 채택 (무조건 신뢰).
  - AllN: 절대 채택 안 함.
  - TFT (Tit-for-Tat): 처음 채택 후 이전 라운드의 결과에 따라 행동 (상시 감시).
  - TUA (Trust Until Adversity): 일정 횟수 ( $\theta_T$ ) 의 협력을 관찰한 후 무조건 신뢰로 전환 (감시 빈도 감소).
  - DtG (Distrust until Good): 일정 횟수 ( $\theta_D$ ) 의 배신을 관찰한 후 무조건 불신으로 전환.
- 개발자 (Developers):
  - C (Cooperate): 안전하고 규제 준수 AI 개발 (추가 비용 $c$ 발생).
  - D (Defect): 안전하지 않은 AI 개발 (비용 절감, 하지만 규제 위반 시 제재 $v$ 위험).
- 핵심 변수: 감시 비용 ( $\epsilon$ ), 규제 제재 강도 ( $v$ ), 안전하지 않은 AI 채택 시의 위험/손실 ( $\mu$ ).
분석 기법:
1. 무한 개체군 복제 동역학 (Replicator Dynamics): 전략의 빈도 변화를 미분 방정식으로 분석하여 장기적 균형 상태 (Equilibria) 를 도출.
2. 유한 개체군 확률적 동역학 (Stochastic Finite-Population Dynamics): 유한한 인구 크기에서 돌연변이와 확률적 선택 (Fermi distribution) 을 고려한 마르코프 체인 분석.
3. 강화 학습 (Reinforcement Learning, Q-learning): 에이전트가 환경과 상호작용하며 보상을 기반으로 정책을 학습하는 시뮬레이션을 통해 모델의 견고성 (Robustness) 검증.

3. 주요 기여 (Key Contributions)

신뢰의 새로운 정의와 모델링: 신뢰를 '협력 행위'가 아닌 **'감시 빈도의 감소'**로 정의하고, 이를 비대칭적 반복 게임에 성공적으로 통합했습니다. 이는 사회적 과학 이론 (신뢰는 복잡성을 줄이는 휴리스틱) 과 게임 이론을 연결합니다.
다중 분석 프레임워크의 통합: 무한 개체군 이론, 유한 개체군 확률적 모델, 그리고 강화 학습 (Q-learning) 시뮬레이션을 결합하여 다양한 학습 메커니즘 하에서 결론의 견고성을 입증했습니다.
거버넌스 인사이트 제공: 규제와 사용자 신뢰의 상호작용이 AI 안전성에 미치는 영향을 정량적으로 규명하여, 단순한 규제나 맹목적 신뢰만으로는 안전을 보장할 수 없음을 보여줍니다.

4. 주요 결과 (Results)

세 가지 분석 방법 모두에서 **세 가지 주요 장기적 regimes (정세)**가 관찰되었습니다.

비채택 및 위험 개발 (No Adoption, Unsafe Development):
- 감시 비용이 높거나 제재가 약할 때 발생.
- 사용자는 AI 를 채택하지 않고, 개발자는 안전하지 않은 시스템을 만듭니다.
광범위한 채택 but 위험한 시스템 (Unsafe but Widely Adopted):
- 제재가 약하거나 감시 비용이 높아 사용자가 감시를 포기할 때 발생.
- 사용자는 AI 를 계속 사용하지만, 개발자는 안전 비용을 회피하여 위험한 시스템을 유지합니다. (가장 우려되는 시나리오)
광범위한 채택 및 안전한 시스템 (Safe Systems, Widely Adopted):
- 유일하게 바람직한 상태.
- 조건: 안전하지 않은 행동에 대한 제재 ( $v$ ) 가 안전 개발의 추가 비용 ( $c$ ) 을 초과해야 하며, 사용자가 적어도 가끔 감시를 감당할 수 있을 만큼 감시 비용 ( $\epsilon$ ) 이 낮아야 함.

신뢰 기반 전략의 역할:
- 감시 비용이 낮을 때, TUA나 DtG 와 같은 적응형 신뢰 전략은 개발자의 협력을 유도하고 채택률을 높이는 데 기여합니다.
- 하지만 감시 비용이 너무 높아지면 이러한 전략은 무력화되어 시스템이 비협력적 상태로 붕괴됩니다.
- Q-learning 시뮬레이션에서도 감시 비용 증가 시 협력 행동이 급격히 감소하는 경향이 확인되었습니다.

5. 의의 및 시사점 (Significance)

이 연구는 AI 거버넌스 정책 수립에 다음과 같은 중요한 시사점을 제공합니다.

규제와 감시의 균형: 안전하고 신뢰할 수 있는 AI 생태계는 규제 (제재) 만으로는 불가능하며, 사용자가 감시를 수행할 수 있는 환경이 필수적입니다.
투명성과 저비용 감시: AI 시스템의 투명성, 표준화된 문서화, 접근 가능한 감사 보고서 등을 통해 실질적인 감시 비용 ( $\epsilon$ ) 을 낮추는 정책이 개발자의 안전 개발을 유도하는 핵심 동력입니다.
맹목적 신뢰의 위험: 사용자의 맹목적 신뢰 (AllA 전략) 나 규제만으로는 진화적 압력에 의해 시스템이 위험한 방향으로 흐를 수 있습니다. 사용자는 **적절히 감시 (Calibrated Trust)**를 유지해야 개발자가 안전을 유지할 인센티브를 갖게 됩니다.
정책적 권고: 규제 기관은 안전 기준 위반 시 강력한 제재 ( $v > c$ ) 를 부과해야 하며, 동시에 AI 시스템의 안전성을 검증하는 비용이 사용자에게 부담되지 않도록 인프라를 지원해야 합니다.

결론적으로, 이 논문은 AI 안전성을 확보하기 위해서는 강력한 규제, 낮은 감시 비용, 그리고 사용자가 상황에 맞게 신뢰를 조절할 수 있는 적응적 메커니즘이 결합된 통합적 접근이 필요함을 수학적으로 증명했습니다.