Prompt Sensitivity and Answer Consistency of Small Open-Source Large Language Models on Clinical Question Answering: Implications for Low-Resource Healthcare Deployment
该研究评估了五种小型开源大语言模型在消费级 CPU 硬件上对临床问答的提示敏感性与答案一致性,发现高一致性并不等同于高准确性,其中 Llama 3.2 在低资源部署中展现了最佳的综合性能,而角色扮演提示会降低准确率且仅领域预训练不足以支撑结构化临床问答。