Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为DTDR（动态工具依赖检索）的新方法，旨在让手机或电脑上的小型人工智能（AI）助手变得更聪明、更高效。

为了让你更容易理解，我们可以把 AI 助手想象成一位正在厨房忙碌的“超级厨师”，而它需要完成的复杂任务（比如“帮我做一顿晚餐并叫外卖”）就是菜谱。

1. 现在的困境：厨师的“工具墙”太乱了

想象一下，这位厨师面前有一面巨大的墙，上面挂满了成千上万个工具：切菜刀、搅拌机、烤箱、甚至还有修水管的扳手、开瓶器等等。

传统方法的问题：
当用户说“我要做意大利面”时，传统的 AI 助手会像是一个只认字面意思的实习生。它可能会根据“做”和“面”这两个词，去墙上找所有带“做”或“面”字的工具。结果，它可能把“修水管的扳手”也拿过来，因为它觉得“扳手”和“工具”有关。
- 后果：厨师（AI）被一堆不相关的工具（扳手、开瓶器）干扰了，不仅找错了工具，还因为要在巨大的工具列表里翻找，导致反应变慢，甚至把任务搞砸。
旧有的改进方法：
以前的研究试图给厨师一张“静态清单”，比如“做意大利面通常只需要刀和锅”。但这张清单是死板的。如果任务变成了“做意大利面，但要先去超市买番茄”，旧方法可能还是只给刀和锅，忘了给“购物清单”或“导航工具”。它无法理解任务的动态变化。

2. 我们的新方案：DTDR（智能导航员）

这篇论文提出的 DTDR，就像是给这位厨师配备了一位经验丰富的“导航员”。

这个导航员不仅知道用户要做什么（初始查询），还能时刻盯着厨师已经做了什么（执行历史）。

动态调整：
- 第一步：用户说“做意大利面”。导航员立刻判断：这时候只需要“切菜刀”和“煮锅”。它把墙上其他几千个工具（如修水管的扳手）统统屏蔽掉，只把刀和锅推到厨师面前。
- 第二步：厨师切好了菜，准备煮面。导航员看到厨师已经拿了刀，立刻意识到下一步需要“煮锅”和“炉灶”。它迅速把“切菜刀”收走，换上“炉灶”。
- 第三步：如果任务中途变成了“面煮好了，但发现没盐了，需要去超市”，导航员会立刻根据“面煮好了”这个新状态，把“盐罐”换成“购物袋”和“地图”。

核心创新点：
以前的方法只看“用户想要什么”（静态），或者只看“上一步做了什么”（静态依赖）。而 DTDR 是同时看“用户想要什么” 加上 “刚才发生了什么”。它像是一个懂事的管家，知道在什么时间点，该给主人递什么工具。

3. 为什么这很重要？（两大好处）

A. 更聪明（准确率飙升）

因为导航员只给厨师看当下最可能用到的那几个工具，厨师就不会被无关的工具（比如修水管的扳手）分心。

比喻：就像你在考试时，如果试卷上只印了这道题需要的公式，你就不容易算错。
数据：论文显示，这种方法让 AI 完成任务的成功率提高了 23% 到 104%。

B. 更快速、更省电（效率提升）

想象一下，如果厨师每次都要在一面挂满 1000 个工具的墙前找东西，他得花很多时间，大脑（手机芯片）也会很累。

比喻：DTDR 就像把工具墙变成了智能传送带。它只把需要的 3-5 个工具送到厨师手边，其他几千个工具根本不出现在视野里。
结果：
1. 提示词变短了：AI 不需要阅读几千个工具的说明书，只需要读几个，所以反应速度更快。
2. 手机更省电：因为处理的信息少了，手机电池能撑得更久。这对于要在手机上运行 AI 非常重要。

4. 两种“导航员”模式

论文里还介绍了两种实现这个导航员的方法，就像两种不同的招聘策略：

DTDR-C（聚类法）：
- 比喻：像是一个经验丰富的老员工。它把过去成千上万个成功的做菜案例（演示数据）分门别类。当新任务来了，它先看看这个任务像哪一类案例，然后直接调用那一类案例中常用的工具组合。
- 特点：不需要复杂的训练，像查字典一样快，适合资源紧张的设备。
DTDR-L（学习法）：
- 比喻：像是一个正在学习的新员工。它通过观察大量的做菜过程，自己总结规律：“哦，原来只要用了‘切菜刀’，下一步大概率要用‘煮锅’"。它学会了这种概率关系。
- 特点：更灵活，能处理更复杂的情况，但需要一点点训练。

总结

这篇论文的核心思想就是：不要让 AI 面对整个工具库，而要给它一个“动态的、只包含当前所需工具”的迷你工具箱。

通过同时考虑“用户想要什么”和“刚才做了什么”，DTDR 让手机上的 AI 助手变得更像真正的智能管家：它知道在什么时候该拿出什么工具，既不会拿错，也不会浪费时间。这让在手机上运行强大的 AI 助手变得真正可行且高效。

Each language version is independently generated for its own context, not a direct translation.

论文技术总结：动态工具依赖检索以实现高效函数调用 (Dynamic Tool Dependency Retrieval for Efficient Function Calling)

1. 研究背景与问题定义

背景：
大型语言模型（LLM）通过函数调用（Function Calling）增强其使用外部工具的能力，已成为自动化复杂任务的关键。然而，在**端侧设备（On-device）**部署此类代理面临两大挑战：

资源限制：严格的内存和延迟预算要求检索模块必须轻量级。
工具集复杂性：面对庞大且异构的工具集，如何高效选择相关工具而不引入无关信息。

现有方法的局限性：
当前的工具检索方法主要存在以下缺陷：

静态输入依赖：许多方法仅基于用户查询（Query）与工具描述的语义相似度进行检索，忽略了任务执行过程中的动态上下文。
缺乏多步依赖建模：现有方法难以捕捉工具之间的多步依赖关系（例如：先获取邮箱地址，再发送邮件）。
上下文偏差：基于静态工具依赖图的方法往往基于历史轨迹的统计概率，容易偏向频繁调用的工具，而忽略了当前特定任务的上下文演变，导致检索出无关工具，降低执行效率和准确率。

核心问题：
如何在资源受限的端侧设备上，设计一种轻量级的检索机制，既能感知当前用户查询，又能适应不断演变的执行轨迹（工具调用历史），从而精准检索出相关的工具及其依赖关系？

2. 方法论：动态工具依赖检索 (DTDR)

作者提出了动态工具依赖检索 (Dynamic Tool Dependency Retrieval, DTDR)，这是一种轻量级的检索框架。其核心思想是检索模块 $\omega$ 应同时基于用户查询 ( $q$ ) 和已执行的工具调用历史 ( $f_{0:t-1}$ ) 来动态预测下一步最可能的工具集合 $F_t$ 。

2.1 核心架构

DTDR 利用演示数据（Demonstration Data）来学习工具依赖关系，并提出了两种轻量级变体：

DTDR-C (基于聚类的无监督方法)：
- 原理：使用预训练嵌入模型将查询映射到工具依赖图。
- 流程：
  - 对演示查询进行 K-Means 聚类。
  - 为每个聚类构建一个加权工具依赖图（Markov Chain），记录在特定工具序列后出现下一个工具的概率。
  - 测试时，根据查询找到最近的聚类，结合当前工具历史，在对应的依赖图中遍历以预测下一步工具。
- 优势：无需训练分类器，参数极少，适合极低资源场景。
DTDR-L (基于线性分类器的监督方法)：
- 原理：训练一个单层线性分类器，输入为“查询 + 工具历史”的拼接嵌入，直接预测下一个工具的概率分布。
- 流程：
  - 将查询 $q$ 和历史 $f_{0:t-1}$ 拼接后通过嵌入模型。
  - 线性层输出每个工具的概率，通过阈值 $\alpha$ 截断，得到候选工具集。
- 优势：能够更直接地学习查询与历史之间的复杂依赖模式，通常性能更优。

2.2 提示工程策略 (Prompt Encoding)

为了将检索到的工具子集高效地注入 LLM 提示中，作者对比了多种策略：

Hard Masking (硬掩码)：直接从提示中移除不相关的工具描述，仅保留检索到的子集。这显著减少了 Token 数量，特别适合小模型。
Soft Masking (软掩码)：保留所有工具，但通过强调检索到的工具列表来引导模型。
加权 (Weighted)：在提示中提供工具的概率分数，辅助模型决策。
结论：对于小模型，加权硬掩码 (Weighted Hard Masking) 效果最佳，因为它既简化了问题空间又提供了概率引导。

3. 主要贡献

提出了轻量级工具依赖检索框架 (DTDR)：
- 首个同时感知查询和多步历史的检索方法，能够动态恢复最小化的任务特定依赖子图。
- 证明了仅依赖查询或仅依赖静态历史的方法无法有效解决复杂的工具检索任务。
全面的评估与基准测试：
- 在四个数据集（TinyAgent, TaskBench DailyLife, HuggingFace, Multimedia）和多种 LLM 骨干（Qwen 系列 0.6B-14B, GPT-4o, Gorilla-V2）上进行了系统评估。
- 评估指标涵盖检索精度（MRR, F1）、下游任务准确率（函数选择准确率 FSA, 端到端成功率 FCA）以及计算效率（提示长度、模型 footprint）。
提示策略分析：
- 深入分析了不同 ICL（上下文学习）编码策略对性能的影响，确定了加权硬掩码在大多数场景下的优越性，并解释了其在不同模型规模和数据分布下的适用性。

4. 实验结果

4.1 检索性能

DTDR-L 在 TinyAgent 数据集上将函数选择准确率（FSA）从基线的 25.6% 提升至 65.1%，MRR 达到 0.93。
DTDR-C 相比静态依赖检索器（ToolNet）提升了 50-100% 的检索指标。
动态方法显著优于仅基于查询相似度（QTS）或仅基于历史（静态 DR）的方法。

4.2 端到端任务成功率

在具有工具依赖的数据集上，DTDR 将端到端成功率（FCA）相比无 ICL 基线提升了 300%-600%。
相比现有的最佳工具检索基线，DTDR 将成功率提升了 23% 到 104%。
小模型表现：在 Qwen 3 4B 模型上，DTDR-L 的表现甚至超过了无 ICL 的 Qwen 3 14B 和 GPT-4o，证明了动态检索能有效弥补小模型推理能力的不足。

4.3 效率分析

提示长度：DTDR 通过动态裁剪无关工具，将提示长度减少了高达 51%，可变部分（Variable Section）减少了 72%。
延迟：由于提示长度缩短，预填充（Prefill）时间显著降低，非常适合端侧低延迟场景。

4.4 消融实验

历史长度：工具历史长度 $l=3$ 时性能达到峰值，过长的历史收益递减。
聚类数量：DTDR-C 在聚类数约为演示数据量的 1/10 时表现最佳。
数据量：DTDR-L 对数据量敏感，少于 1k 样本时容易过拟合，而 DTDR-C 更为鲁棒。

5. 意义与未来展望

研究意义：

端侧 AI 的突破：DTDR 证明了在资源受限的端侧设备上，通过轻量级的动态检索机制，可以显著提升 LLM 代理的复杂任务执行能力，缩小了端侧模型与云端大模型的差距。
范式转变：从静态的“查询 - 工具”匹配转向动态的“查询 + 历史 - 工具”依赖建模，更符合真实世界中多步任务执行的逻辑。
效率与精度的平衡：通过硬掩码和动态裁剪，实现了在大幅降低计算成本的同时提升任务成功率。

未来方向：

处理不完美的演示数据（Noisy Demonstrations）。
扩展到多模态工具任务（如机器人控制）。
适应动态变化的工具集（工具更新或新增）。

总结：
该论文提出了一种高效、轻量且动态的工具检索方法 DTDR，解决了现有端侧函数调用代理在复杂多步任务中检索精度低、上下文感知差的问题。实验表明，该方法在多个基准测试中显著优于现有最先进方法，为在移动设备上部署高性能智能代理提供了关键技术支撑。

Dynamic Tool Dependency Retrieval for Efficient Function Calling