Discern Truth from Falsehood: Reducing Over-Refusal via Contrastive Refinement
Dit paper introduceert DCR (Discernment via Contrastive Refinement), een nieuwe uitlijningsmethode die overmatig afwijzen door veilige taalmodellen vermindert door waarlijk giftige prompts te onderscheiden van ogenschijnlijk giftige, zonder de algehele veiligheid of bruikbaarheid te compromitteren.