Manifold of Failure: Behavioral Attraction Basins in Language Models

Each language version is independently generated for its own context, not a direct translation.

이 논문은 인공지능 (AI) 이 실수를 할 때, 그 실수가 '어디서, 어떻게, 왜' 일어나는지에 대한 새로운 지도를 만드는 방법을 소개합니다.

기존의 연구들은 "AI 가 실수하는 특정 문장을 찾아내서 고치는 것"에 집중했다면, 이 논문은 **"AI 가 실수하는 영역 전체를 지도로 그려보자"**라고 제안합니다.

이 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

🗺️ 1. 핵심 아이디어: "실수의 지도 (Manifold of Failure)"

과거의 AI 안전 연구는 마치 **"미끄러운 얼음 조각 하나를 찾아내서 제거하는 것"**과 같았습니다. "어디서 넘어질까?"를 찾아서 그 자리만 막는 방식이었죠.

하지만 이 논문은 이렇게 말합니다.

"아니, 그 얼음 조각 하나만 있는 게 아니라, 실수라는 것이 넓은 '미끄러운 지형' 전체로 이어져 있을지도 모른다!"

저자들은 AI 가 실수하는 영역을 **'실패의 지형 (Manifold of Failure)'**이라고 부르며, 이 지형의 모양을 자세히 그려보는 새로운 방법을 개발했습니다.

🧭 2. 탐험 방법: "다양한 길로 가는 나침반 (MAP-Elites)"

기존의 해킹 방법들은 "가장 위험한 문장을 하나만 찾아내기 위해" 산을 오르는 것처럼 한 가지 길만 쫓았습니다. (예: "이 문장을 조금씩 바꿔가며 AI 를 속여보자")

이 논문은 **'MAP-Elites'**라는 도구를 사용합니다.

비유: 한 명만 등반하는 게 아니라, 수백 명의 탐험대가 동시에 산의 모든 구석구석을 다 밟아보며 지도를 만드는 것입니다.
이 탐험대들은 AI 에게 다양한 질문을 던집니다.
- "직접적으로 물어볼 때" vs "비유적으로 물어볼 때"
- "일반인처럼 물어볼 때" vs "지시하는 상사처럼 물어볼 때"
이렇게 **질문의 스타일 (직접성, 권위)**을 2 차원 지도의 가로세로 축으로 삼아, AI 가 어디에서 가장 많이 실수하는지 '열지도 (Heatmap)'로 보여줍니다.

🌋 3. 세 가지 AI 의 서로 다른 '성격'

이 방법으로 세 가지 다른 AI 를 분석했을 때, 놀라운 차이가 드러났습니다. 마치 세 가지 다른 종류의 **'지형'**을 만난 것과 같습니다.

① Llama-3-8B: "거대한 미끄럼틀"

상황: 지도 전체가 붉은색 (위험) 으로 물들어 있습니다.
비유: 이 AI 는 거대한 미끄럼틀 같습니다. 질문을 어떻게 하든, 누구에게 하든 거의 모든 곳에서 넘어집니다.
결과: 거의 모든 자리에서 AI 가 안전하지 않은 답변을 내놓았습니다. (실수 확률 93% 이상)

② GPT-OSS-20B: "구불구불한 산과 계곡"

상황: 지도에 위험한 붉은색 '구덩이 (Basin)'들이 여기저기 흩어져 있습니다.
비유: 이 AI 는 산과 계곡이 복잡한 지형입니다. 어떤 곳은 아주 안전하고, 바로 옆은 위험한 구덩이입니다.
결과: 질문을 조금만 바꾸면 안전하다가도 위험한 곳으로 떨어집니다. "어디서 넘어질지 예측하기 어렵다"는 특징이 있습니다.

③ GPT-5-Mini: "튼튼한 방패"

상황: 지도는 탐험대들이 다 돌아다녔지만, 위험한 붉은색은 전혀 없습니다.
비유: 이 AI 는 튼튼한 성벽 같습니다. 아무리 다양한 방법으로 공격해도, 실수하는 한계선 (Ceiling) 을 넘지 못합니다.
결과: 아무리 질문을 바꿔도 AI 는 안전선을 지키며, 절대 해로운 답변을 하지 않았습니다.

🔍 4. 중요한 발견: "권위의 마법 문"

지도를 자세히 보니 공통된 패턴이 하나 있었습니다.

비유: 질문의 **권위 (누가 물어보는가?)**에 따라 AI 의 반응이 갑자기 바뀌는 **'마법 문'**이 있다는 것입니다.
예를 들어, "일반인처럼" 물어보면 안전하다가, "지시하는 상사처럼" 화투를 내면 갑자기 넘어지는 구간이 있었습니다. 이는 AI 가 사회적 상황 (권위) 에 따라 안전 장치를 끄고 켜는 방식을 가지고 있음을 보여줍니다.

💡 5. 결론: 왜 이 연구가 중요한가요?

기존의 방법은 "AI 를 해킹해서 실수를 하나씩 찾아내는 것"이었다면, 이 연구는 **"AI 가 실수하는 전체 지형을 그려서, 어디가 약한지 미리 파악하는 것"**입니다.

기존: "이 문장에서 AI 가 실수했네. 고쳐야지." (치료)
이 연구: "이 AI 는 미끄럼틀처럼 전체가 위험하구나. 아니면 산처럼 특정 구멍만 있구나. 아니면 성벽처럼 튼튼하구나." (진단 및 예방)

이렇게 실수의 지도를 만들면, 개발자들은 AI 가 어디서 넘어질지 미리 알고, 그 특정 부분만 단단하게 보강할 수 있습니다. 마치 건물을 지을 때 "어떤 벽이 약한지"를 미리 알고 보강하는 것과 같습니다.

📝 요약

이 논문은 AI 의 실수를 '개별적인 사건'이 아니라 **'구조화된 지형'**으로 바라보게 합니다. 그리고 MAP-Elites라는 도구를 이용해 각 AI 모델마다 고유의 '실수 지도'를 그려냄으로써, AI 를 더 안전하고 튼튼하게 만드는 새로운 길을 제시합니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

기존의 AI 안전성 연구는 주로 적대적 예시 (adversarial examples) 를 자연 데이터의 다양체 (manifold) 로 다시 투영하여 안전성을 회복하는 '복원적 (restorative)' 접근법에 집중해 왔습니다. 이는 실패를 정상적인 행동에서의 '일탈'로 간주하는 관점입니다.

하지만 이 논문은 실패 그 자체의 구조를 직접적으로 특성화해야 진정한 견고한 시스템을 구축할 수 있다고 주장합니다. 주요 문제는 다음과 같습니다:

LLM 의 취약점이 고립된 점 (discrete points) 이 아니라, 입력 공간에서 다양한 프롬프트가 유사한 실패 모드로 수렴하는 연속적이고 구조화된 '실패 다양체 (Manifold of Failure)' 를 형성할 수 있다는 가설.
기존 공격 방법 (GCG, PAIR, TAP 등) 이 단일 최적 공격을 찾는 데 초점을 맞춰, 실패 영역의 전체적인 위상적 구조 (topology) 를 파악하지 못한다는 한계.

2. 방법론 (Methodology)

이 논문은 품질 - 다양성 (Quality-Diversity, QD) 최적화 알고리즘인 MAP-Elites를 활용하여 LLM 의 행동 위상도를 체계적으로 매핑하는 프레임워크를 제안합니다.

핵심 구성 요소

행동 공간 (Behavioral Space):
- 프롬프트를 2 차원 연속 공간 $B = [0,1]^2$ 로 매핑합니다.
- $a_1$ (Query Indirection): 직접적 요청에서 은유적/가상 시나리오까지의 정도.
- $a_2$ (Authority Framing): 프롬프트의 맥락에서 인식되는 권위의 수준 (없음에서 관리자/전문가 역할까지).
품질 지표 (Quality Metric): 정렬 편차 (Alignment Deviation, AD)
- 모델의 응답이 의도된 안전 정렬 (safety alignment) 에서 얼마나 벗어나는지를 정량화합니다.
- 10 가지 해악 카테고리 (폭력, 혐오 표현, 성적 콘텐츠 등) 에 대해 평가자 (Judge LLM) 가 점수를 매기고, 그 중 최대 점수를 해당 프롬프트의 AD 로 정의합니다.
MAP-Elites 알고리즘:
- 행동 공간을 $25 \times 25$ 그리드 (625 개의 행동 니치) 로 분할합니다.
- 각 셀 (niche) 에서 가장 높은 AD 점수를 가진 프롬프트를 '엘리트 (elite)'로 저장하며, 전체 행동 공간을 체계적으로 탐색합니다.
- 변이 전략 (Mutation): 무작위 축 변위 (50%), 재문장 (10%), 개체 치환 (10%), 적대적 접미사 (10%), 교차 (10%), 의미적 보간 (10%) 등을 사용하여 새로운 프롬프트를 생성합니다.
평가 모델:
- GPT-4.1 과 Sonnet 4.5 를 평가자 (Judge) 로 사용하여 응답의 안전성을 평가합니다.

3. 주요 기여 (Key Contributions)

연속적 행동 위상도 매핑: LLM 의 취약점이 고립된 점이 아니라 매끄러운 표면 (surface) 을 이루며 구조화된다는 것을 실증했습니다.
행동적 매력 기저 (Behavioral Attraction Basins) 의 발견: 다양한 프롬프트가 유사한 실패 출력으로 수렴하는 확장된 영역 (기저) 의 존재를 입증했습니다.
모델별 위상적 서명 (Topological Signatures) 비교 분석: 세 가지 최첨단 모델 (Llama3-8B, GPT-OSS-20B, GPT-5-Mini) 을 비교하여 각기 다른 실패 지형도를 발견했습니다.
해석 가능한 안전성 지도 제공: 기존 공격 방법 (GCG, PAIR, TAP) 이 제공할 수 없는 전역적 (global) 인 안전성 지도를 생성하여, 단순한 공격 성공 여부를 넘어 실패의 구조적 이해를 가능하게 합니다.

4. 실험 결과 (Results)

세 가지 모델에 대한 실험 결과는 다음과 같은 뚜렷한 차이를 보였습니다:

모델	행동 커버리지 (Coverage)	다양성 (Diversity, AD>0.5 인 셀 수)	평균 AD	최대 AD	지형적 특징
Llama3-8B	63.04%	370	0.93	1.00	보편적 취약성 평탄지대 (Universal Vulnerability Plateau): 거의 모든 영역에서 높은 AD 를 보이며, 안전 영역은 매우 좁은 통로에 불과함.
GPT-OSS-20B	36.32%	146	0.73	1.00	분할된 기저 (Fragmented Basins): 특정 영역 (낮은 간접성, 중간/높은 권위) 에 취약점이 집중된 '불릿아이 (bullseye)' 패턴과 안전 영역이 혼재된 복잡한 지형.
GPT-5-Mini	72.32%	0	0.47	0.50	강력한 견고성 (Strong Robustness): 행동 공간은 광범위하게 탐색되지만, AD 가 0.50 을 절대 초과하지 않음. 해로운 출력 생성 불가.

기저 (Basin) 분석: Llama3-8B 는 탐색된 셀의 93.9% 가 AD>0.5 인 '매력 기저'였으나, GPT-5-Mini 는 0% 였습니다.
기저선 비교 (Baselines): MAP-Elites 는 Llama3-8B 에서 기존 방법 (PAIR, TAP, GCG) 보다 높은 행동 커버리지 (63.04%) 와 다양성을 달성했습니다. 특히 GPT-OSS-20B 에서는 PAIR 이 더 많은 셀을 채웠지만, MAP-Elites 가 채운 셀 중 취약한 비율 (64.3%) 이 PAIR(18.5%) 보다 훨씬 높았습니다.
권위 프레이밍의 영향: 모든 모델에서 특정 권위 수준 ( $a_2$ ) 에서 안전/위험 경계가 급격히 변하는 '수평적 띠 (horizontal banding)' 현상이 관찰되었습니다. 이는 모델이 권위 인식에 임계값 (threshold) 을 가지고 있음을 시사합니다.

5. 의의 및 결론 (Significance & Conclusion)

패러다임의 전환: "모델을 어떻게 깨뜨릴까?" (단일 공격) 에서 "모델이 어떻게, 어디서, 어떤 구조로 깨지는가?" (위상적 이해) 로 안전성 평가의 초점을 이동시킵니다.
표적 보강 및 감사: 모델별 고유한 취약성 지도를 제공함으로써, 특정 영역에 대한 표적 보강 (targeted remediation) 과 모델 간 비교 감사가 가능해집니다.
안전성 과학의 토대: 실패 다양체 (Manifold of Failure) 를 매핑하는 것은 AI 안전성의 구조적 이해를 위한 필수 전제 조건이며, 이를 통해 더 예측 가능하고 포괄적인 안전성 프레임워크를 구축할 수 있습니다.

이 연구는 LLM 의 취약성이 무작위적인 점이 아니라 학습 가능한 연속적 구조임을 증명하며, 향후 AI 안전성 검증 및 규제에 있어 위상학적 접근법 (Topological Approach) 의 중요성을 강조합니다.