MOSAIC: Composable Safety Alignment with Modular Control Tokens

本論文は、凍結された基盤モデルに対して学習可能な制御トークンを導入し、文脈に応じて安全制約を柔軟に組み合わせることで、過剰な拒否を抑制しつつモデルの有用性を維持する「MOSAIC」と呼ばれるモジュール型安全アライメントフレームワークを提案しています。

Jingyu Peng, Hongyu Chen, Jiancheng Dong, Maolin Wang, Wenxi Li, Yuchen Li, Kai Zhang, Xiangyu Zhao

公開日 2026-03-18
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🏠 今までの問題点:「硬くて重い鍵」か「頼りないメモ」

AI に安全な回答をさせるための方法は、これまで主に 2 つありました。しかし、どちらも完璧ではありませんでした。

  1. モデル自体を修正する方法(パラメータレベルのアライメント)

    • 例え: AI の頭脳そのものを「安全な性格」に書き換えてしまうこと。
    • 問題点: 一度書き換えると、その性格は固定されてしまいます。例えば、「子供向けには危険なことを教えるな」と設定した AI を、後で「大人向けには教えていい」と変えようとしても、頭脳を全部書き直す必要があり、とても大変で、他の能力(例えば料理のレシピを教える力)まで壊してしまうリスクがあります。
  2. 指示文でお願いする方法(プロンプトベース)

    • 例え: AI に「ねえ、賭け事の話はしないでね」という長いメモを貼り付けておくこと。
    • 問題点: AI はこのメモを「ただのお願い」と捉えてしまい、時々聞き入れ忘れたり、メモが長すぎて本来の質問に集中できなくなったりします。また、「お酒のレシピ」と「ギャンブル」を同時に禁止したい場合、メモがごちゃごちゃになって混乱します。

✨ 新しい解決策:MOSAIC(モザイク)

この論文が提案するMOSAICは、**「AI の頭脳は変えずに、小さな『魔法のタグ』を貼り付ける」**というアイデアです。

🧩 1. 小さな「制御トークン」= 魔法のタグ

MOSAIC は、AI の頭脳(ベースモデル)を一切変えません。代わりに、**「ギャンブル禁止タグ」「お酒禁止タグ」**のような、とても小さなデジタルのタグ(制御トークン)を学習させます。

  • どう使う?
    • ユーザーが「カジノの勝ち方」を聞いたら、**「ギャンブル禁止タグ」**を AI の質問の前に貼り付けます。AI はそのタグを見て「あ、これは禁止事項だ」と判断し、断ります。
    • ユーザーが「モヒトの作り方」を聞いたら、**「お酒禁止タグ」**を貼り付けます。
    • もし「ギャンブルと酒」の両方が問題になる質問なら、2 つのタグを同時に貼り付けます

このタグは、AI の頭脳そのものではなく、**「着脱可能なアクセサリー」**のようなものです。必要な時だけつけ、不要な時は外せます。

🎨 2. 「モザイク」のように組み合わせる

これが「MOSAIC(モザイク)」と呼ばれる理由です。
それぞれのタグ(安全ルール)は独立して作られていますが、組み合わせて使えます

  • 「子供向けモード」= 賭け事タグ + 暴力タグ
  • 「大人向けモード」= 賭け事タグのみ
  • 「特定の国向けモード」= 法律タグ + 文化タグ

このように、必要なルールだけをパズルのように組み合わせて、その場その場に合わせた安全対策を瞬時に作れるのが最大の特徴です。

🛡️ 3. 「やりすぎ防止」の仕組み

これまでの方法だと、「安全対策」を強くしすぎると、 harmless(無害)な質問まで「断る」ようになってしまいます(例:「お酒のレシピ」を聞いたら、単に「お酒」が含まれているだけで断ってしまう)。

MOSAIC は、これを防ぐために**「もしタグがなかったらどう答えるか?」**を AI に学習させます。

  • 学習方法: 「タグあり」の時の回答と、「タグなし」の時の回答を比べます。
  • 効果: 「この質問はタグがなくても大丈夫な内容だから、タグがあっても断らないでね」という**「過剰な拒否」を防ぐ学習**が行われます。これにより、必要な時はしっかり断りつつ、普段の会話には邪魔にならないようになります。

📊 結果:どう変わった?

実験では、新しいテストデータを使ってこの方法が試されました。

  • 高い安全性: 危険な質問には、ほぼ 100% の確率で「断る」ことができました。
  • 低い過剰拒否: 安全な質問を間違って断ってしまうことが、従来の方法に比べて大幅に減りました。
  • 柔軟性: 新しい安全ルール(例えば「新しい法律」)ができたとき、AI の頭脳を全部作り直す必要なく、新しいタグを少し追加するだけで対応できました。

🌟 まとめ

MOSAICは、AI の安全対策を「一度きりの硬い設定」から、**「状況に合わせて組み換えられる、柔軟なブロック」**に変える画期的な方法です。

  • AI の能力は守る(頭脳を変えない)。
  • 必要な時だけ安全にする(タグを貼る)。
  • 邪魔にならない(過剰に断らない)。

これにより、子供にも大人にも、国や状況に合わせて、ちょうどいい安全レベルの AI を提供できるようになる未来が描かれています。

自分の分野の論文に埋もれていませんか?

研究キーワードに一致する最新の論文のダイジェストを毎日受け取りましょう——技術要約付き、あなたの言語で。

Digest を試す →