Conditioned Activation Transport for T2I Safety Steering

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"AI 가 그림을 그릴 때, 나쁜 내용 (폭력, 혐오 표현 등) 이 나오지 않도록 막으면서도, 그림의 아름다움과 원래 의도는 해치지 않는 방법"**을 제안한 연구입니다.

기존의 방법들은 나쁜 내용을 막으려다 보니, 오히려 그림이 뭉개지거나 엉뚱한 모양이 되는 문제가 있었습니다. 이 논문은 이를 해결하기 위해 **'조건부 활성화 수송 (CAT)'**이라는 새로운 기술을 개발했습니다.

이 복잡한 기술을 일상적인 비유로 쉽게 설명해 드릴게요.

🎨 1. 문제 상황: "나쁜 그림을 지우려다 캔버스까지 망가뜨렸다"

지금까지 AI 그림 그리기 모델 (T2I) 에는 안전 장치가 있었습니다. 하지만 기존 방식은 "전체 캔버스에 대포를 쏘는" 방식이었습니다.

기존 방법 (ActAdd, Linear-ACT): "나쁜 그림이 나오지 않게 하라!"라고 AI 에게 명령하면, AI 는 나쁜 내용뿐만 아니라 좋은 내용까지 다 지워버립니다.
- 비유: 친구가 "너의 나쁜 습관을 고쳐라!"라고 말했을 때, 친구가 "그럼 너는 아예 말을 하지 마!"라고 반응하는 것과 같습니다. 나쁜 습관은 고쳐졌지만, 친구와의 대화 (그림의 질) 도 사라져버린 거죠.
- 결과: 나쁜 그림은 사라졌지만, 대신 그림이 흐릿해지거나 엉뚱한 모양 (예: 폭력 장면을 지우려다 사람 얼굴이 뭉개짐) 으로 변해버립니다.

🛠️ 2. 해결책: "조건부 활성화 수송 (CAT)"의 등장

이 논문은 **"나쁜 내용이 나올 때만, 딱 그 부분만 정밀하게 수정하라"**는 아이디어를 제안합니다. 이를 위해 두 가지 핵심 장비를 만들었습니다.

① 정밀한 지도 (SafeSteerDataset): "나쁜 것과 좋은 것의 차이만 남긴다"

AI 가 나쁜 내용과 좋은 내용을 구분하려면, 두 가지가 매우 비슷하지만 한 가지 차이점만 있는 예시가 필요합니다.

비유: "소풍 가는 가족" (안전) 과 "소풍 가는 가족이 폭풍우에 맞서고 있는 모습" (위험) 처럼, 배경과 인물은 똑같은데 위험 요소만 추가된 쌍을 2,300 개나 만들어 AI 에게 가르쳤습니다.
이렇게 하면 AI 는 "아, 배경은 그대로 두고 '폭풍우'라는 요소만 제거해야구나"라고 정확히 학습할 수 있습니다.

② 스마트한 문지기 (Conditioning): "나쁜 냄새가 날 때만 문을 닫는다"

기존 방법은 그림을 그리는 내내 계속 "나쁜 거 금지!"라고 외쳤지만, CAT 는 문지기를 배치합니다.

비유: AI 가 그림을 그리는 과정은 요리사가 재료를 섞는 과정과 같습니다.
- 기존: 요리사가 재료를 섞는 내내 "나쁜 재료 넣지 마!"라고 소리쳐서, 좋은 재료 (고기, 채소) 도 다 버려버립니다.
- CAT (이 연구): 요리사가 재료를 섞을 때, 나쁜 냄새 (위험한 신호) 가 나기 시작하는 순간에만 문지기가 "잠깐! 이 재료는 버려!"라고 말합니다. 냄새가 나지 않는 정상적인 요리 과정에는 간섭하지 않습니다.

③ 유연한 변형기 (Non-linear Transport): "구부러진 길을 곧게 펴다"

나쁜 내용과 좋은 내용은 AI 의 머릿속 (잠재 공간) 에서 단순히 '왼쪽/오른쪽'으로만 떨어져 있는 게 아니라, 구불구불한 길처럼 복잡하게 얽혀 있습니다.

비유: 나쁜 내용과 좋은 내용을 구분하는 선이 구불구불한 강물처럼 생겼다면, 기존 방법은 강물을 직선으로 자르려다 물이 새어 나가는 문제가 있었습니다.
CAT는 이 구불구불한 강물 모양을 그대로 따라가며, 나쁜 물 (위험한 내용) 만은 다른 곳으로 부드럽게 흘려보냅니다. (비유: 구불구불한 강을 따라가며 나쁜 물만 분리해내는 정교한 필터)

📊 3. 실험 결과: "나쁜 건 사라지고, 좋은 건 그대로"

이 새로운 방법 (CAT) 을 최신 AI 모델 두 가지 (Z-Image, Infinity) 에 적용해 봤습니다.

결과: 나쁜 그림이 나올 확률 (공격 성공률) 은 대폭 감소했지만, 그림의 화질이나 원래 의도 (예: "고양이를 그리라"고 했을 때 고양이 모양) 는 거의 손상되지 않았습니다.
반면, 기존 방법들은 나쁜 그림을 막으려다 그림이 뭉개져서 "이게 뭐지?"가 될 정도로 화질이 떨어졌습니다.

💡 4. 요약: 왜 이 연구가 중요한가?

이 연구는 **"안전과 품질은 서로 trade-off(교환 관계) 가 아니다"**라고 증명했습니다.

과거: "안전하게 하려면 화질을 포기해야 해."
이제: "안전하면서도 화질이 좋은 그림을 그릴 수 있다."

마치 **"나쁜 말만 걸러주는 필터"**를 달아서, 친구의 말 (그림) 은 그대로 들으면서 독만 제거하는 것과 같습니다. 이 기술은 앞으로 AI 가 만들어내는 모든 이미지 (뉴스, 예술, 광고 등) 가 해롭지 않으면서도 아름답게 만들어지는 데 큰 역할을 할 것으로 기대됩니다.

Each language version is independently generated for its own context, not a direct translation.

이 논문은 텍스트-이미지 (T2I) 생성 모델의 안전성 (Safety) 을 강화하기 위한 새로운 방법론인 **조건부 활성화 수송 (Conditioned Activation Transport, CAT)**을 제안합니다. 기존 방법론들이 안전성 확보와 이미지 품질 유지 사이의 트레이드오프를 해결하지 못했던 한계를 극복하고, 더 정교하고 효율적인 안전 조향 (Safety Steering) 기술을 제시합니다.

다음은 논문의 주요 내용을 기술적으로 요약한 것입니다.

1. 문제 정의 (Problem)

안전성 취약성: 최신 T2I 모델 (Diffusion, AutoRegressive 등) 은 강력한 생성 능력을 갖추었음에도 불구하고, 유해하거나 독성 (toxic) 이 있는 콘텐츠를 생성하는 경향이 있습니다.
기존 활성화 조향 (Activation Steering) 의 한계: 추론 시 모델의 내부 활성화 (activation) 를 조작하여 안전성을 높이는 기존 방법 (예: ActAdd, Linear-ACT) 은 다음과 같은 문제를 겪습니다.
- 선형성 가정의 실패: 안전과 위험한 개념이 선형적으로 분리된다고 가정하지만, 실제 T2I 모델의 잠재 공간 (latent space) 에서 안전성 메커니즘은 비선형적이거나 복잡한 기하학적 구조를 가집니다.
- 이미지 품질 저하: benign(안전한) 프롬프트에 대해 과도하게 조향을 적용하면, 모델이 자연스러운 이미지 매니폴드 (manifold) 에서 벗어나 이미지가 왜곡되거나 품질이 급격히 떨어집니다.
- 동적 위험 표현의 간과: 위험한 표현이 네트워크의 깊은 층에서 동적으로 나타날 수 있는데, 기존 조건부 방법들은 초기 층의 특징에만 의존하여 이를 효과적으로 감지하지 못합니다.

2. 제안 방법: 조건부 활성화 수송 (CAT)

CAT 은 안전성과 이미지 품질 사이의 균형을 맞추기 위해 **기하학적 조건부 (Geometry-based Conditioning)**와 **비선형 수송 맵 (Nonlinear Transport Maps)**을 결합합니다.

A. SafeSteerDataset 구축

문제: 기존 데이터셋은 안전/위험 프롬프트 쌍의 의미적 유사성이 낮아, 정확한 안전 방향 (safety direction) 을 분리하기 어렵습니다.
해결: 23 개의 하위 카테고리 (성적, 증오, 폭력 등) 로 구성된 **2,300 개의 대비 쌍 (contrastive pairs)**으로 구성된 'SafeSteerDataset'을 구축했습니다.
- 각 쌍은 의미적으로 매우 유사하지만 (코사인 유사도 > 0.7), 하나는 안전하고 다른 하나는 명시적으로 유해한 프롬프트로 구성됩니다.
- 이를 통해 독성 활성화 매니폴드의 기하학적 구조를 고정밀도로 매핑할 수 있습니다.

B. 핵심 구성 요소

비선형 수송 맵 (Non-Linear Transport Map, $T_\theta$ ):
- 기존 선형 방법 (ActAdd, Linear-ACT) 은 분산이나 회전, 비볼록 (non-convex) 구조를 처리하지 못합니다.
- CAT 는 **MLP(다층 퍼셉트론)**를 사용하여 복잡한 비선형 벡터장을 학습합니다.
- 정규화 손실 함수: 유해 샘플은 안전한 타겟으로 매핑하되, 안전한 입력은 항등 함수 (identity function) 로 유지되도록 정규화 항 ( $\lambda$ ) 을 추가하여 benign 이미지의 품질을 보호합니다.
조건부 활성화 (Conditioning, $C$ ):
- 모든 활성화에 대해 조향을 적용하는 대신, 현재 활성화가 '위험 영역'에 속할 때만 조향을 적용합니다.
- 기하학적 인식 조건부 (Geometry-Aware Conditioning): 단순한 바운딩 박스 (Min-Max) 대신 **마할라노비스 거리 (Mahalanobis distance)**를 기반으로 한 확률적 또는 OOD(Out-of-Distribution) 모델링을 사용합니다.
- 이는 위험 개념의 공분산 구조에 맞춰 타원형의 결정 경계를 형성하여, benign 쿼리에 대한 간섭을 최소화합니다.
수식적 표현:
$z' = z + \alpha \cdot C(\bar{z}) \cdot (T_\theta(\bar{z}) - \bar{z})$
- 여기서 $C(\bar{z})$ 는 게이트 (0 또는 1) 역할을 하여, 위험하지 않은 경우 ( $C=0$ ) 원본 생성을 유지합니다.

3. 주요 기여 (Key Contributions)

SafeSteerDataset 공개: 의미적으로 정렬된 2,300 개의 안전/위험 프롬프트 쌍을 포함하는 새로운 벤치마크 데이터셋을 공개했습니다.
CAT 프레임워크 제안: 비선형 MLP 수송 맵과 기하학적 조건부 메커니즘을 결합하여, 안전성 향상과 이미지 품질 저하 사이의 트레이드오프를 해결했습니다.
광범위한 검증: Diffusion Transformer(Z-Image) 와 AutoRegressive(Infinity) 모델 등 두 가지 최첨단 아키텍처에서 CAT 의 효과성을 입증했습니다.

4. 실험 결과 (Results)

평가 지표: 공격 성공률 (ASR, 낮을수록 좋음) 과 텍스트 - 이미지 정렬 점수 (CLIP Score, 높을수록 좋음).
성능:
- Z-Image 모델: CAT 는 ASR 을 33.91% 에서 6.96% 로 획기적으로 낮추면서도 CLIP 점수 (0.33) 를 유지했습니다. 반면, 기존 선형 방법들은 ASR 을 낮추는 대신 CLIP 점수가 0.22~0.25 로 급락하여 이미지 품질이 심각하게 훼손되었습니다.
- Infinity 모델: 선형 방법 (Linear-ACT) 은 ASR 을 0% 로 만들었지만, 생성된 이미지가 노이즈처럼 변해 CLIP 점수가 0.07 로 떨어졌습니다. CAT 는 ASR 4.78% 를 유지하면서 CLIP 점수 0.32 를 기록하여 우수한 균형을 보였습니다.
기하학적 유효성 검증: 합성 데이터 실험에서 선형 방법은 비볼록 (non-convex) 이나 다중 모드 (multi-modal) 분포를 올바르게 변환하지 못했으나, CAT 의 MLP 수송 맵은 이러한 복잡한 기하학적 구조를 성공적으로 매핑했습니다.
모달리티 조향: 텍스트 인코더와 비전 백본을 모두 조향할 때 가장 좋은 성능을 발휘했습니다.

5. 의의 및 결론 (Significance)

안전성의 비선형성 규명: T2I 모델의 안전성 경계는 단순한 선형 방향이 아니라 복잡한 비선형 기하학적 구조임을 실험적으로 증명했습니다.
실용적 안전 솔루션: 추론 시 (inference-time) 모델 재학습 없이도 적용 가능하며, 유해 콘텐츠는 제거하되 benign 콘텐츠의 품질은 유지하는 실용적인 안전 장치를 제공합니다.
향후 연구 기반: SafeSteerDataset 과 CAT 프레임워크는 향후 T2I 모델의 안전성 연구 및 벤치마킹을 위한 중요한 자원으로 활용될 것입니다.

이 논문은 생성형 AI 의 안전성을 높이기 위해 단순한 선형 보정을 넘어, 데이터의 기하학적 특성을 고려한 정교한 활성화 조작이 필요함을 강조하며, 이를 성공적으로 구현한 첫 번째 체계적인 접근법 중 하나입니다.