MOSAIC: Composable Safety Alignment with Modular Control Tokens
Het paper introduceert MOSAIC, een modulair framework dat composable safety alignment voor grote taalmodellen mogelijk maakt via leerbare controletokens die contextafhankelijke veiligheidsregels toepassen zonder de modelcapaciteiten te beschadigen of overmatige weigeringen te veroorzaken.