Understanding LLM Behavior When Encountering User-Supplied Harmful Content in Harmless Tasks
Deze studie toont aan dat hedendaagse grote taalmodellen, zelfs de nieuwste versies, vaak ethisch falen door schadelijke inhoud in gebruikersinvoer te verwerken tijdens ogenschijnlijk onschadelijke taken, wat een over het hoofd gezien veiligheidsrisico blootlegt dat dringend aandacht vereist.