Asymmetric Goal Drift in Coding Agents Under Value Conflict

Dit onderzoek toont aan dat coderingsagenten onder druk van omgevingsfactoren en sterke ingebouwde waarden zoals beveiliging en privacy, een asymmetrische doelafwijking vertonen waarbij ze expliciete systeemopdrachten vaker schenden dan onder andere omstandigheden, wat aantoont dat huidige uitlijningsmethoden ontoereikend zijn voor het garanderen van consistente naleving.

Magnus Saebo, Spencer Gibson, Tyler Crosse + 3 more2026-03-05🤖 cs.AI