MOSAIC: Composable Safety Alignment with Modular Control Tokens

该论文提出了 MOSAIC 框架,通过引入可组合的模块化控制令牌,在冻结的预训练模型上实现了灵活、上下文感知且低误拒的安全对齐,有效解决了现有方法难以兼顾动态安全规则与模型通用能力的问题。

Jingyu Peng, Hongyu Chen, Jiancheng Dong, Maolin Wang, Wenxi Li, Yuchen Li, Kai Zhang, Xiangyu Zhao

发布于 2026-03-18
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 MOSAIC(马赛克)的新方法,旨在解决大型人工智能(LLM)在“安全合规”方面的一个核心痛点:如何既安全又灵活,还能不“误伤”正常用户?

为了让你轻松理解,我们可以把大语言模型想象成一个超级聪明的“全能管家”

1. 现在的困境:管家要么太死板,要么太啰嗦

目前,给管家定规矩主要有两种笨办法:

  • 方法 A:修改管家的大脑(参数级对齐)

    • 比喻:你想让管家学会“对小孩不能讲恐怖故事”,于是你强行把管家的大脑结构改了一遍,把“恐怖”这个概念从他的记忆里彻底抹去或锁死。
    • 缺点
      1. 太贵:每次想加个新规矩(比如“对老人不能讲赌博”),都得重新把管家的大脑“手术”一次,成本极高。
      2. 副作用:手术容易伤及无辜。本来管家能正常回答“怎么做菜”,结果因为改了大脑,他连“怎么做菜”都忘了,或者变得太胆小,连“怎么做蛋糕”都不敢说了(这就是论文里说的过度拒绝,Over-refusal)。
      3. 不灵活:给小孩用的规矩,给大人用就不合适了。但大脑改好了,很难随时切换。
  • 方法 B:在耳边唠叨(提示词/Prompt 级对齐)

    • 比喻:管家大脑没变,但你每次问他问题前,都要在耳边念一段长长的咒语:“记住!不能讲赌博!不能讲酒精!不能讲恐怖故事!……"
    • 缺点
      1. 容易忘:管家虽然聪明,但咒语念太长,他可能听一半就忘了,或者理解偏差,该拒绝的时候不拒绝。
      2. 效率低:每次对话都要带着一大段咒语,占用了宝贵的“注意力”空间,导致管家回答问题的速度变慢,内容变少。

2. MOSAIC 的解决方案:给管家配“智能开关”

MOSAIC 提出了一种全新的思路:不要动管家的大脑,也不要念长咒语,而是给他配一套“智能开关”(控制令牌/Control Tokens)。

  • 核心概念
    想象管家手里有一排微小的、可插拔的“安全芯片”

    • 有一块芯片叫“儿童模式”,插上它,管家自动屏蔽赌博和恐怖内容。
    • 有一块芯片叫“成人模式”,插上它,管家可以讲一些成人话题,但屏蔽色情。
    • 有一块芯片叫“法律模式”,插上它,管家遵守当地法律。
  • 怎么工作?

    • 模块化:这些芯片是独立的小零件(论文里叫“可学习的控制令牌”),它们不改变管家的大脑结构,只是像插件一样插在输入端。
    • 可组合:如果你需要“儿童模式 + 法律模式”,就把这两块芯片同时插上。管家会自动理解:“哦,既要保护孩子,又要守法”,然后精准地拒绝违规内容。
    • 不伤大脑:因为管家的大脑(基础模型)是冻结的(没被修改),所以他原本“做菜”、“写诗”、“聊天”的聪明才智完全保留,不会因为加了安全芯片就变笨。

3. 训练过程:如何教会管家识别这些开关?

这就好比训练管家如何使用这些开关,论文用了两个聪明的技巧:

  • 技巧一:混合训练(组合采样)

    • 问题:如果只教管家单独用“儿童芯片”,他可能一看到“儿童芯片”就对所有问题都拒绝,连“儿童怎么搭积木”都拒绝。
    • MOSAIC 的做法:在训练时,故意把不同的芯片随机组合起来教。比如今天教“儿童 + 赌博”,明天教“儿童 + 酒精”。
    • 效果:管家学会了精细操作。他知道:“哦,插上‘儿童芯片’时,只有涉及‘赌博’才拒绝,但‘搭积木’可以正常回答。”这大大减少了“误杀”正常问题。
  • 技巧二:反事实教学(Counterfactual KD)

    • 问题:怎么防止管家太胆小?
    • MOSAIC 的做法:在训练时,让管家看同一个问题两次。
      1. 第一次:没插芯片,管家正常回答(比如“怎么做鸡尾酒”)。
      2. 第二次:插上“禁酒芯片”,管家必须拒绝。
      3. 关键一步:如果管家在没插芯片时回答得很好,但插了芯片后,对无关问题(比如“怎么做蛋糕”)也拒绝,系统就会惩罚他。
    • 效果:这就像告诉管家:“只有当问题真的违规时,你才要拒绝;如果是好问题,哪怕插了芯片,你也要像没插一样正常回答。”这极大地降低了过度拒绝(Over-refusal)。

4. 为什么这很重要?(实际意义)

  • 场景多变
    • 在美国合法的酒文化内容,在中国可能就不行;给成年人看的内容,给未成年人看就不行。
    • MOSAIC 允许你像搭乐高一样,根据用户是谁(小孩/大人)、在哪里(中国/美国)、在什么场景(学校/酒吧),动态地插上不同的“安全芯片”。
  • 省钱省力
    • 不需要每次换规矩都重新训练整个大模型(那是天价)。只需要训练几个小小的“芯片”(参数极少),就能实现灵活切换。
  • 更精准
    • 实验证明,MOSAIC 既能精准地拒绝坏人(防御成功率极高),又不会误伤好人(过度拒绝率极低),还能保留管家原本的聪明才智。

总结

MOSAIC 就像给 AI 管家配了一套“智能安全眼镜”
以前,要么把管家的大脑改得小心翼翼(容易变笨),要么在耳边不停唠叨(容易听漏)。
现在,MOSAIC 让管家戴上不同的眼镜:

  • 戴上“儿童眼镜”,自动过滤不适合孩子的内容;
  • 戴上“法律眼镜”,自动过滤违法内容;
  • 摘下眼镜,他就是一个无所不知、反应敏捷的超级助手。

这套方法让 AI 的安全管理变得灵活、低成本且精准,真正实现了“千人千面”的安全服务。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →