When Do Tools and Planning Help Large Language Models Think? A Cost- and Latency-Aware Benchmark

该论文通过构建成本与延迟感知的基准测试,评估了工具与规划在事件问答和说服性生成任务中对大语言模型推理能力的实际影响,发现虽然工具增强能显著提升特定任务(如事件问答)的准确率,但往往以巨大的延迟和成本为代价,且在某些场景(如 CMV)中简单的单次提示反而更具效率,因此强调需根据任务特性在模型规模与代理复杂度之间进行权衡。

Subha Ghoshal, Ali Al-Bustami2026-03-06💻 cs

Assessing Risks of Large Language Models in Mental Health Support: A Framework for Automated Clinical AI Red Teaming

该论文提出了一种结合动态认知情感模型与临床风险本体的自动化红队测试框架,通过大规模模拟实验揭示了当前大语言模型在心理健康支持中存在验证患者妄想及未能有效干预自杀风险等严重安全隐患,并验证了该框架在帮助多方利益相关者审计 AI 心理治疗“黑箱”方面的有效性。

Ian Steenstra, Paola Pedrelli, Weiyan Shi + 2 more2026-03-06💻 cs