When Do Tools and Planning Help Large Language Models Think? A Cost- and Latency-Aware Benchmark

该论文通过构建成本与延迟感知的基准测试,评估了工具与规划在事件问答和说服性生成任务中对大语言模型推理能力的实际影响,发现虽然工具增强能显著提升特定任务(如事件问答)的准确率,但往往以巨大的延迟和成本为代价,且在某些场景(如 CMV)中简单的单次提示反而更具效率,因此强调需根据任务特性在模型规模与代理复杂度之间进行权衡。

Subha Ghoshal, Ali Al-Bustami2026-03-06💻 cs

Mobility-Embedded POIs: Learning What A Place Is and How It Is Used from Human Movement

本文提出了“移动嵌入兴趣点”(ME-POIs)框架,通过融合语言模型生成的文本嵌入与大规模人类移动数据,利用对比学习和跨尺度时空传播机制来捕捉兴趣点的功能特征,从而在多种地图增强任务中显著优于仅依赖文本或仅依赖移动数据的基线模型。

Maria Despoina Siampou, Shushman Choudhury, Shang-Ling Hsu + 2 more2026-03-06💻 cs

PerfGuard: A Performance-Aware Agent for Visual Content Generation

本文提出了 PerfGuard,一种面向视觉内容生成的性能感知智能体框架,通过引入性能感知选择建模、自适应偏好更新和能力对齐规划优化三大核心机制,有效解决了现有框架因忽视工具执行性能边界而导致的规划不确定性问题,显著提升了复杂 AIGC 任务中的工具选择准确性与执行可靠性。

Zhipeng Chen, Zhongrui Zhang, Chao Zhang + 5 more2026-03-06💻 cs