MOSAIC: Composable Safety Alignment with Modular Control Tokens

이 논문은 다양한 맥락에 따라 안전 규칙을 유연하게 조합하고 적용할 수 있도록, 고정된 백본 모델 위에 학습 가능한 제어 토큰을 도입한 모듈형 안전 정렬 프레임워크 'MOSAIC'을 제안합니다.

Jingyu Peng, Hongyu Chen, Jiancheng Dong, Maolin Wang, Wenxi Li, Yuchen Li, Kai Zhang, Xiangyu Zhao

게시일 2026-03-18
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🛡️ MOSAIC: AI 의 안전장치를 '레고 블록'처럼 자유롭게 조립하다

이 논문은 인공지능 (AI) 이 얼마나 안전한지, 그리고 그 안전 기준을 어떻게 유연하게 바꿀 수 있는지에 대한 새로운 아이디어를 제시합니다. 제목인 MOSAIC(모자이크) 는 마치 다양한 색상의 타일을 모아 하나의 그림을 만들 듯, AI 의 안전 규칙을 작은 조각들로 나누어 필요할 때만 조립한다는 의미를 담고 있습니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 지금의 문제점: "단단하게 굳어버린 안전장비"

지금까지 AI 를 안전하게 만들기 위해 사용했던 방법들은 두 가지 큰 단점이 있었습니다.

  • **방법 A **(모델 자체를 고치는 것) AI 의 두뇌 (파라미터) 자체를 다시 학습시켜 안전 규칙을 심어놓는 방식입니다.
    • 비유: 마치 아이에게 "술은 절대 마시지 마"라고 가르친 뒤, 그 기억을 지우지 않고 평생 가지고 다니게 만드는 것입니다. 만약 나중에 "성인이 된 아이에게는 술에 대한 설명도 필요해"라고 상황이 바뀐다면, 다시 아이를 학교에 보내고 (재학습) 모든 것을 다시 가르쳐야 합니다. 비용도 많이 들고, 다른 능력 (예: 수학 실력) 이 떨어질 위험도 있습니다.
  • **방법 B **(메모를 붙이는 것) AI 에게 "술은 마시지 마"라고 긴 메모 (프롬프트) 를 붙여서 알려주는 방식입니다.
    • 비유: 매번 대화할 때마다 AI 에게 긴 규칙서를 읽어주는 것입니다. 규칙이 너무 길어지면 AI 가 지쳐서 규칙을 잊어버리거나, 엉뚱한 부분까지 막아버릴 수 있습니다.

2. MOSAIC 의 해결책: "안전 레고 블록"

저자들은 이 문제를 해결하기 위해 MOSAIC이라는 새로운 방식을 제안합니다.

  • 핵심 아이디어: AI 의 두뇌는 건드리지 않고, **작은 '안전 레고 블록' **(학습 가능한 제어 토큰) 만 따로 만들어서 사용합니다.
  • 어떻게 작동할까요?
    • 레고 블록: 각 안전 규칙 (예: '도박 금지', '술 금지', '폭력 금지') 마다 작은 레고 블록 하나씩이 있습니다.
    • 상황에 따른 조립:
      • 어린이가 질문할 때: '도박'과 '술' 레고 블록을 AI 앞에 붙입니다. AI 는 "이건 안 돼요!"라고 거절합니다.
      • 성인 전문가가 질문할 때: '폭력' 레고 블록만 붙입니다. '도박'이나 '술' 레고는 떼어내므로, 성인에게는 관련 정보를 알려줄 수 있습니다.
    • 장점: AI 의 두뇌 (기반 모델) 는 그대로 두기 때문에, 원래의 똑똑함은 유지된 채로 안전 규칙만 순간적으로 바꿀 수 있습니다.

3. 기술적인 마법: "과도한 거절"을 막는 비법

이 방식이 잘 작동하려면 두 가지 중요한 기술이 필요합니다.

  1. **레고 조합 훈련 **(Combinational Task Sampling)
    • 레고 블록 하나하나가 혼자 있을 때도, 다른 블록들과 섞였을 때도 제 역할을 하도록 훈련시킵니다. 마치 레고 조각들이 서로 충돌하지 않고 잘 어울리도록 연습시키는 것과 같습니다.
  2. **상상력 교정 **(Counterfactual Knowledge Distillation)
    • 문제: 안전 레고 블록을 붙였을 때, AI 가 "아, 안전 블록이 붙었네? 그럼 모든 질문을 거절해야겠다!"라고 오해해서, 안전한 질문까지 거절하는 경우가 생깁니다 (과도한 거절).
    • 해결: AI 에게 "안전 블록이 붙었을 때와 붙지 않았을 때의 대답을 비교해봐. 안전한 질문은 원래대로 대답하고, 위험한 질문만 거절해"라고 가르칩니다.
    • 비유: **스승이 "이 학생은 위험한 질문만 거절하고, 나머지는 평소처럼 친절하게 대답해"**라고 가르치는 것과 같습니다.

4. 실험 결과: "정확하고 유연한 안전"

저자들은 실제 상황에 가까운 새로운 테스트 데이터를 만들어 실험했습니다.

  • 결과: 기존 방법들보다 **위험한 질문을 정확히 막아내는 능력 **(방어 성공률) 이 매우 높으면서도, **안전한 질문까지 막아버리는 실수 **(과도한 거절) 가 훨씬 적었습니다.
  • 확장성: 새로운 안전 규칙 (예: '성인물 금지') 이 생겼을 때, AI 를 다시 학습시킬 필요 없이 해당 레고 블록만 추가하면 바로 적용됩니다.

5. 한 줄 요약

MOSAIC 은 AI 의 두뇌를 건드리지 않고, 상황에 따라 필요한 '안전 레고 블록'만 끼워 넣음으로써, 어린이에게는 엄격하고 성인에게는 유연한 AI 를 만들어주는 똑똑한 시스템입니다.

이 기술은 앞으로 AI 가 다양한 국가, 연령대, 상황에 맞춰 안전 기준을 유연하게 조절할 수 있는 길을 열어줄 것으로 기대됩니다.

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →