The Boiling Frog Threshold: Criticality and Blindness in World Model-Based Anomaly Detection Under Gradual Drift

Each language version is independently generated for its own context, not a direct translation.

이 논문은 인공지능 (RL 에이전트) 이 **"점점 더 나빠지는 감각"**을 언제쯤 알아차릴 수 있는지, 그리고 그 한계가 어디에 있는지를 연구한 내용입니다.

제목인 '끓는 물에 넣은 개구리 (Boiling Frog)' 비유가 핵심입니다. 개구리가 갑자기 뜨거운 물에 넣으면 도망치지만, 차가운 물에서 아주 천천히 온도를 높이면 개구리는 죽을 때까지 그 변화를 느끼지 못합니다. 이 논문은 AI 가 이런 '서서히 변하는 위험'을 언제쯤 깨닫는지, 그리고 왜 어떤 상황에서는 아예 깨닫지 못하고 망가져버리는지를 분석했습니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 핵심 발견: "AI 의 경보 시스템은 '급격한 변화'만 감지한다"

AI 는 스스로의 감각 (카메라나 센서) 이 망가져도, 그 변화가 너무 서서히 일어나면 "아, 내가 망가졌구나!"라고 생각하지 않습니다. 대신 "오늘은 좀 흐릿하네, 어제보다 조금 더 안 좋네" 정도로만 받아들이고 넘어갑니다.

하지만 변화의 속도가 **어떤 임계점 (문턱)**을 넘어서면, AI 는 갑자기 "이건 이상해! 뭔가 잘못됐어!"라고 경보를 울립니다.

비유: 귀가 먹먹해지는 상황을 상상해 보세요.
- 귀가 아주 천천히 막히면 (예: 1 년에 1% 씩), 당신은 "아, 오늘 좀 안 들리네"라고만 생각하다가 어느새 완전히 들리지 않게 됩니다.
- 하지만 귀가 갑자기 막히거나, 소음 수준이 갑자기 급격히 변하면 "어? 내 귀가 이상해!"라고 바로 깨닫습니다.
- 이 논문은 **"AI 가 언제쯤 '귀가 먹먹해졌다'고 깨닫는지 그 문턱 (임계점)"**을 찾아냈습니다.

2. 놀라운 발견 1: "진동하는 변화는 AI 가 절대 못 본다"

연구자들은 AI 에게 두 가지 방식으로 센서를 망가뜨려 보았습니다.

직선형: 센서 값이 계속 한쪽으로만 쑥쑥 변함 (예: 시야가 계속 흐려짐).
진동형 (사인파): 센서 값이 왔다 갔다 하며 평균은 그대로임 (예: 시야가 깜빡깜빡하지만 평균 밝기는 같음).

결과: AI 는 진동형 변화를 완전히 못 알아차렸습니다. 아무리 센서가 심하게 흔들려도 AI 는 "아, 오늘 날씨 좀 변덕스럽네" 정도로만 생각하고, 실제로는 그 변화를 '정상적인 노이즈'로 받아들여 버렸습니다.

비유: 시계추처럼 좌우로 흔들리는 진자를 보고 있으면, 시계추는 제자리에 있는 것처럼 느껴집니다. AI 의 뇌 (세계 모델) 는 "이 흔들림은 내 뇌가 만들어낸 정상적인 소음이야"라고 착각하며, 그 흔들림을 무시해버리는 것입니다. 마치 꿈속에서 일어나는 일처럼, AI 는 그 변화를 '현실'이 아닌 '내면의 소음'으로 처리해버립니다.

3. 놀라운 발견 2: "깨달기 전에 이미 죽는다 (Collapse Before Awareness)"

가장 무서운 발견은 Hopper라는 로봇 환경에서 일어났습니다. 이 로봇은 다리가 하나뿐이라 넘어지기 쉽습니다.

상황: 센서가 조금씩 망가져서 로봇이 넘어질 위험이 커졌습니다.
결과: AI 의 경보 시스템이 "위험해!"라고 울리기 전에, 로봇이 이미 넘어져서 죽어버렸습니다.
비유: 다리가 부러져서 쓰러지기 직전까지, "아, 다리가 조금 아픈데?"라고 생각하다가, 경보가 울리기 전에 이미 바닥에 쓰러져버린 상황입니다.
- 교훈: 매우 불안정한 로봇 (또는 시스템) 의 경우, 내부 경보 시스템만 믿으면 안 됩니다. 이미 경보가 울릴 때는 너무 늦은 경우가 많기 때문입니다.

4. 왜 이런 일이 일어날까? (세 가지 요소의 춤)

연구자들은 AI 가 언제 깨닫는지가 단순히 AI 의 능력 때문이 아니라, 세 가지 요소가 서로 춤을 추는 결과라고 설명합니다.

AI 의 '기본 소음' (Noise Floor): AI 가 평소 얼마나 많이 실수하는지. (예: 평소에도 시야가 흐릿한 AI 는 더 흐려져도 못 알아챔)
경보 시스템의 '예민함' (Detector Sensitivity): 경보가 얼마나 민감하게 설정되어 있는지. (예: "조금만 이상해도 울려라" vs "엄청나게 이상해야 울려라")
환경의 '특성' (Environment Dynamics): 그 환경이 얼마나 민감하게 반응하는지. (예: 다리가 하나인 로봇은 작은 변화에도 넘어지지만, 네 발 달린 로봇은 잘 넘어지지 않음)

핵심: "AI 가 얼마나 똑똑한가 (모델 크기)"는 중요하지 않았습니다. 똑똑한 AI 라도 위 세 가지 요소가 맞지 않으면 위험을 못 알아챕니다.

5. 우리가 무엇을 배울 수 있을까?

이 연구는 AI 를 현실 세계에 적용할 때 중요한 교훈을 줍니다.

서서히 변하는 위험은 무서워: AI 는 급격한 변화는 잘 감지하지만, 아주 천천히 변하는 위험 (점점 흐려지는 카메라, 서서히 느려지는 센서) 은 못 알아챕니다.
진동하는 해킹에 주의: 해커가 AI 의 센서를 좌우로 진동시키며 평균값은 유지하게 만든다면, AI 는 절대 그 해킹을 못 알아챕니다.
취약한 시스템은 외부 감시가 필요: 넘어지기 쉬운 로봇이나 시스템은 내부 경보만 믿지 말고, 다른 사람이 지켜보는 '외부 감시 시스템'이 꼭 필요합니다.

요약

이 논문은 **"AI 가 위험을 알아차리는 문턱은 고정된 것이 아니라, AI 의 성격, 경보 설정, 그리고 환경의 특성이 만나서 결정된다"**고 말합니다. 그리고 **"가장 위험한 상황은 AI 가 깨닫기도 전에 이미 망가져버리는 경우"**이며, **"진동하는 변화는 AI 가 절대 못 본다는 사실"**을 발견했습니다.

이는 AI 를 안전하게 만들려면 단순히 AI 를 똑똑하게 만드는 것뿐만 아니라, 어떤 환경에서 어떤 변화가 일어나는지를 미리 이해하고 경보 시스템을 설계해야 함을 알려줍니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

강화학습 (RL) 에이전트는 점점 더 학습된 세계 모델 (World Model) 에 의존하여 계획을 수립합니다. 세계 모델은 "다음에 무엇이 일어날지" 예측할 수 있으므로, 예측 오차 (Prediction Error, PE) 를 통해 환경의 변화나 에이전트의 지각 오류를 스스로 감시 (Self-monitoring) 할 수 있는 잠재력을 가집니다.

기존 연구는 갑작스러운 (Abrupt) 환경 변화 탐지에 초점을 맞추었지만, 실제 세계의 센서 노후화 (카메라 흐려짐, LiDAR 보정 드리프트) 또는 점진적인 적대적 공격은 점진적 (Gradual) 으로 발생합니다.

핵심 질문: 에이전트의 관측치가 점진적으로 오염될 때, 에이전트는 어느 드리프트 속도 (Drift Rate) 에서야 "깨어날" 수 있는가?
연구 목표: 점진적 드리프트 하에서 이상 탐지의 경계 (Boundary) 를 결정하는 요인이 무엇인지 규명하고, 탐지 가능한 영역과 무감각 (Blindness) 한 영역의 임계값을 분석하는 것.

2. 방법론 (Methodology)

2.1 실험 설정

환경: 4 가지 MuJoCo-v5 환경 (HalfCheetah, Hopper, Walker2d, Ant) 사용.
에이전트 및 세계 모델: PPO 알고리즘으로 학습된 에이전트와, 전이 데이터 (Transition) 를 기반으로 학습된 3 층 MLP(다층 퍼셉트론) 형태의 세계 모델 사용.
모델 용량: 작은 (128), 중간 (512), 큰 (1024) 은닉층 크기로 3 가지 용량 변형 실험.
드리프트 주입 (Drift Injection):
- 300 스텝 후부터 속도 관련 관측치에 드리프트 적용.
- 선형 (Linear): $g = \epsilon \cdot t$ (점진적 증가).
- 사인파 (Sinusoidal): $g = \epsilon \cdot \sin(2\pi \cdot 0.01 \cdot t)$ (주기적, 평균 0).
- 드리프트 강도 ( $\epsilon$ ) 를 $10^{-4}$ 부터 $0.5$까지 세밀하게 스윕.

2.2 이상 탐지기 (Detector Families)

세 가지 근본적으로 다른 탐지 기법을 사용하여 임계값 현상이 탐지기 특유의 아티팩트가 아님을 검증:

Doubt Index (DI): 예측 오차의 지수 이동 평균 (EMA) 을 유지하고, 기준선 대비 Z-score 로 이상을 탐지. (슬라이딩 윈도우 $W$ 와 임계값 $z$ 변형).
분산 탐지기 (Variance Detector): 예측 오차의 분산을 모니터링 (1 차 모멘트 대신 2 차 모멘트 사용).
백분위 탐지기 (Percentile Detector): 시간적 평활화 (Smoothing) 없이, 예측 오차가 기준선 분포의 특정 백분위수 ( $p$ ) 를 초과하는지 직접 비교.

3. 주요 기여 및 발견 (Key Contributions & Results)

3.1 임계값의 존재와 형태 불변성 (Threshold Existence and Shape Invariance)

급격한 시그모이드 전이: 모든 환경, 모든 탐지기, 모든 하이퍼파라미터 설정에서 탐지율은 드리프트 강도 ( $\epsilon$ ) 가 증가함에 따라 0% 에서 100% 로 급격하게 전이하는 시그모이드 (Sigmoid) 형태를 보임.
임계값 ( $\epsilon^*$ ) 의 위치: 임계값의 존재와 형태는 보편적이지만, 그 위치는 탐지기의 민감도와 환경의 노이즈 바닥 (Noise Floor) 구조에 따라 달라짐.
결론: 임계값의 존재는 세계 모델의 속성이지만, 그 위치는 3 가지 요소의 상호작용으로 결정됨.

3.2 사인파 드리프트에 대한 근본적인 맹점 (Sinusoidal Blindness)

발견: 모든 탐지기 (분산, 백분위, DI 포함) 가 사인파 형태의 주기적 드리프트를 완전히 탐지하지 못함.
원인: 사인파 드리프트는 0 을 중심으로 대칭적으로 진동하므로, 누적된 교란이 노이즈 바닥을 벗어나지 못함. 예측 오차 신호 자체에 드리프트 정보가 포함되어 있지 않음.
의미: 이는 탐지기의 한계가 아니라, 세계 모델이 주기적 변동을 '정상적인 변동'으로 흡수하여 모델 증거 (Model Evidence) 를 최적화하려는 세계 모델의 본질적 속성임. (예측 처리 이론에서 "꿈꾸기"와 유사한 현상).

3.3 인식 전 붕괴 (Collapse Before Awareness, CBA)

현상: 특히 Hopper(단일 다리 동역학) 와 같이 취약한 환경에서, 드리프트 강도가 중간 정도일 때 탐지기가 경보를 울리기 전에 에이전트의 정책이 물리적으로 붕괴 (낙하) 함.
영향: "치명적이지만 탐지 불가능한" 실패 모드가 존재함. 에이전트가 깨어나기 전에 이미 죽는 상황.
범위: Hopper 에서 가장 뚜렷하게 나타나며, Walker2d 에서도 일부 관찰됨. HalfCheetah 와 Ant 는 더 안정적인 동역학으로 인해 CBA 가 발생하지 않음.

3.4 $\epsilon^$ 의 분석적 특성화 (Analytical Characterization of $\epsilon^$ )

멱법칙 (Power Law): 환경 내부에서는 임계값 $\epsilon^*$ 가 탐지기 파라미터 ( $z$ , $W$ ) 에 대해 멱법칙을 따름 ( $R^2 = 0.89 \sim 0.97$ ).
환경 간 예측 실패: 환경 간에는 전역 모델이 실패 ( $R^2 = 0.45$ ). 이는 환경별 동역학 구조 ( $\partial P_E / \partial \epsilon$ ) 가 누락된 변수임을 시사.
노이즈 바닥의 구조: 기본 MSE 만으로는 임계값 순서를 설명할 수 없음. 예측 오차 분포의 꼬리 두께 (Tail heaviness) 와 같은 분포의 형태가 중요함.

3.5 모델 용량 불변성 (Capacity Independence)

세계 모델의 용량 (크기) 을 변화시켜도 $\epsilon^*$ 의 위치는 거의 변하지 않음.
이유: Z-score 정규화가 사용되기 때문. 모델이 정확해지면 절대적 노이즈는 줄어들지만 기준선 분산도 줄어들어, 상대적 비율 (드리프트/노이즈) 은 일정하게 유지됨. 즉, 임계값은 모델의 정확도 문제가 아니라 신호 - 대 - 노이즈 비율의 문제임.

4. 논의 및 의의 (Discussion & Significance)

4.1 이론적 재해석: 단순한 속성에서 상호작용으로

기존의 "세계 모델의 학습된 노이즈 바닥에서 임계값이 발현된다"는 관점을 넘어, 세 가지 요소의 3-way 상호작용으로 재정의됨:

노이즈 바닥 구조: 기본 MSE 가 아닌 예측 오차 분포의 전체 형태 (꼬리 두께 등).
탐지기 민감도: 민감도 - 특이도 곡선상의 운영 점.
환경 동역학: 드리프트에 대한 예측 오차의 반응 ( $\partial PE / \partial \epsilon$ ).

4.2 예측 처리 (Predictive Processing) 이론과의 연결

노이즈 바닥은 예측 처리의 정밀도 가중치 (Precision weighting) 에 해당.
$\epsilon^*$ 는 정밀도 가중된 예측 오차 임계값.
사인파 맹점은 모델 증거 최적화를 위해 주기적 변동을 노이즈로 흡수하는 적응적 반응.

4.3 실무적 함의 (Practical Implications)

주기적 교란의 무효화: 0 을 중심으로 대칭적으로 진동하는 드리프트 패턴은 PE 기반 모니터링에 보이지 않음. 적대적 공격자가 이를 악용할 수 있음.
CBA 의 위험성: 취약한 에이전트 (안전이 중요한 분야) 는 내부 감시 시스템이 작동하기 전에 치명적 실패를 겪을 수 있음. 외부 감시 시스템이 필수적.
MSE 의 한계: 모델의 기본 정확도 (MSE) 가 탐지 능력을 예측하는 지표가 아님. 배포 전 환경별 $\partial PE / \partial \epsilon$ 반응을 특성화해야 함.

5. 결론

이 논문은 RL 에이전트의 자기 감시 (Self-monitoring) 경계가 단순한 모델의 속성이 아니라, 노이즈 바닥, 탐지기, 환경 동역학 간의 복잡한 상호작용에 의해 결정됨을 증명함. 특히 점진적 드리프트 하에서 에이전트가 "깨어나기 전에 붕괴"하거나 "주기적 변화를 보지 못하는" 근본적인 한계를 규명함으로써, 비정상 환경에서 RL 에이전트를 배포할 때의 이론적 토대와 실용적 가이드라인을 제공함.