MOSAIC: Composable Safety Alignment with Modular Control Tokens

El paper presenta MOSAIC, un marco modular que utiliza tokens de control aprendibles sobre un modelo base congelado para habilitar una alineación de seguridad compuesta y adaptable al contexto, logrando un alto rendimiento defensivo con menos rechazos excesivos y sin comprometer la utilidad del modelo.

Jingyu Peng, Hongyu Chen, Jiancheng Dong, Maolin Wang, Wenxi Li, Yuchen Li, Kai Zhang, Xiangyu Zhao

Publicado 2026-03-18
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un chef de cocina muy talentoso (el modelo de lenguaje o LLM) que puede cocinar de todo: desde recetas complejas hasta consejos de viaje. Sin embargo, este chef tiene un problema: a veces, sin querer, prepara platos que no son adecuados para ciertos comensales. Por ejemplo, si un niño pide cómo hacer un cóctel con alcohol, el chef debería decir "no", pero si un adulto lo pide, podría decir "sí".

El problema actual es que la mayoría de los chefs de IA tienen las reglas de seguridad "grabadas a fuego" en su cerebro. Si quieres cambiar una regla (por ejemplo, "prohibido el alcohol para menores"), tienes que reentrenar todo el cerebro del chef, lo cual es costoso, lento y a veces hace que olvide cómo cocinar bien otras cosas. Otras veces, simplemente le gritas instrucciones al chef ("¡No hagas alcohol!"), pero si le gritas muchas cosas a la vez, se confunde y empieza a rechazar hasta recetas inocentes como "cómo hacer un pastel".

Aquí es donde entra MOSAIC.

¿Qué es MOSAIC? (La analogía de los "Botones Mágicos")

MOSAIC es como un panel de control con botones intercambiables que se colocan frente al chef, en lugar de reescribir su cerebro.

  1. No tocas el cerebro: El chef sigue siendo el mismo, con todo su talento intacto.
  2. Usas "Fichas de Control": Imagina que cada regla de seguridad (como "Prohibido apuestas" o "Prohibido alcohol") es una pequeña ficha magnética o un token de control.
  3. Combinación flexible:
    • Si el usuario es un niño, pones la ficha de "Prohibido alcohol" y la de "Prohibido apuestas".
    • Si el usuario es un adulto, quitas esas fichas.
    • Si el usuario es un juego de rol medieval, quizás solo activas la ficha de "Prohibido violencia gráfica".

El sistema MOSAIC aprende a crear estas fichas. Lo genial es que puedes combinarlas libremente. Si activas la ficha de "Alcohol" y la de "Apuestas" al mismo tiempo, el chef sabe exactamente cómo actuar sin confundirse.

¿Cómo aprenden estas fichas a funcionar bien? (El entrenamiento)

El papel explica dos trucos inteligentes para entrenar estas fichas:

  1. La "Gimnasia de Combinaciones":
    En lugar de enseñar al chef solo con una regla a la vez, el sistema le muestra mezclas. Le dice: "Oye, hoy vamos a probar la regla de Alcohol + Apuestas + Terror". Esto evita que las fichas se peleen entre sí. Es como entrenar a un equipo de fútbol: no solo practican solos, sino que aprenden a jugar juntos en diferentes formaciones.

  2. El "Espejo de Realidad" (Para no ser demasiado estricto):
    A veces, si le pones muchas fichas de seguridad al chef, se vuelve paranoico y rechaza preguntas inocentes (como "¿cómo se hace un mojito?"). Para evitar esto, MOSAIC usa un truco llamado distilación de conocimiento contrafactual.

    • La analogía: Imagina que le preguntas al chef: "¿Qué hubieras dicho si no tuviera estas fichas de seguridad?". El chef responde: "Un mojito fácil". Luego, el sistema le dice: "Muy bien, pero como tengo la ficha de 'Menores', debes decir 'No'".
    • El objetivo es que el chef solo cambie su respuesta cuando sea estrictamente necesario, manteniendo su naturalidad en todo lo demás. Así, no se vuelve un robot gruñón que dice "no" a todo.

¿Por qué es importante esto?

  • Ahorro de tiempo y dinero: No necesitas reentrenar al modelo gigante cada vez que quieras cambiar una regla para un país o una edad específica. Solo cambias las fichas.
  • Menos errores: Evita que el modelo sea demasiado estricto y rechace cosas útiles (como explicar cómo funciona una ruleta en un contexto educativo, en lugar de enseñar a ganar).
  • Adaptabilidad: Puedes crear un "chef" que se adapte a un abuelo, a un niño, a un abogado o a un médico, simplemente cambiando las fichas que le pones delante.

En resumen

MOSAIC es como darle a una IA un set de gafas de realidad aumentada. Dependiendo de quién sea el usuario, le pones unas gafas diferentes que le muestran el mundo con ciertas reglas de seguridad activadas, sin tener que cambiar la forma en que la IA ve el mundo en su interior. Es más rápido, más flexible y hace que la IA sea más inteligente y menos torpe al decir "no".

¿Ahogado en artículos de tu campo?

Recibe resúmenes diarios de los artículos más novedosos que coincidan con tus palabras clave de investigación — con resúmenes técnicos, en tu idioma.

Probar Digest →