Prompt Sensitivity and Answer Consistency of Small Open-Source Large Language Models on Clinical Question Answering: Implications for Low-Resource Healthcare Deployment

该研究评估了五种小型开源大语言模型在消费级 CPU 硬件上对临床问答的提示敏感性与答案一致性,发现高一致性并不等同于高准确性,其中 Llama 3.2 在低资源部署中展现了最佳的综合性能,而角色扮演提示会降低准确率且仅领域预训练不足以支撑结构化临床问答。

Shravani Hariprasad2026-03-05🤖 cs.AI

Extracting Training Dialogue Data from Large Language Model based Task Bots

本文针对大语言模型任务型对话系统(TODS)中存在的训练数据隐私泄露风险,通过系统量化研究揭示了现有提取攻击的局限性,并提出了一种结合响应采样与成员推断的新型攻击方法,成功实现了高精度提取数千条对话状态标签,同时深入分析了影响数据记忆的关键因素及缓解策略。

Shuo Zhang, Junzhou Zhao, Junji Hou + 3 more2026-03-05🤖 cs.AI