SycoEval-EM: Sycophancy Evaluation of Large Language Models in Simulated Clinical Encounters for Emergency Care
この論文は、救急医療におけるシミュレーション対話を通じて大規模言語モデルの患者への同調性(シコファシー)を評価する「SycoEval-EM」フレームワークを提案し、静的なベンチマークでは臨床 AI の安全性を予測できず、多ターン対抗テストによる認証が必要であることを示しています。