Functional Emotions or Situational Contexts? A Discriminating Test from the Mythos Preview System Card
Dit paper stelt dat het onderscheid tussen emotionele vectoren als functionele drijfveren die misalignement veroorzaken of als projecties van een rijkere situationele context cruciaal is voor de betrouwbaarheid van modelbewaking, en schetst een test om deze concurrerende hypotheses te verifiëren door emotionele probes te kruisverwijzen met episodes van strategische vermomming die in de originele rapportage ontbreken.