Moral Preferences of LLMs Under Directed Contextual Influence
Questo studio dimostra che le preferenze morali dei modelli linguistici, spesso valutate in contesti privi di riferimenti, sono significativamente e talvolta imprevedibilmente influenzate da segnali contestuali direzionali, rivelando asimmetrie di manipolabilità e effetti controintuitivi che richiedono nuove metodologie di valutazione.