Discern Truth from Falsehood: Reducing Over-Refusal via Contrastive Refinement
O artigo apresenta o DCR (Discernment via Contrastive Refinement), um novo método de alinhamento que reduz o excesso de recusa em modelos de linguagem grandes, permitindo-lhes distinguir com precisão entre prompts verdadeiramente tóxicos e aqueles que apenas parecem ser, sem comprometer a segurança ou as capacidades gerais do modelo.