Help Without Being Asked: A Deployed Proactive Agent System for On-Call Support with Continuous Self-Improvement

Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一个名为 Vigil（哨兵） 的创新系统，它就像是一个**“不知疲倦、主动帮忙的超级实习生”**，专门在云服务平台（比如字节跳动的火山引擎）处理客户投诉和故障时，协助人类客服专家。

为了让你更容易理解，我们可以把整个场景想象成一家繁忙的“医院急诊室”。

1. 背景：急诊室太忙了

现状：每天有成千上万的病人（客户）带着各种疑难杂症（技术故障）涌入急诊室。
人类医生（客服专家）：他们非常忙，既要处理紧急重症，又要写病历、搞研发。当病人太多时，医生忙不过来，病人就得排队等很久。
以前的“机器人助手”（被动型 Agent）：以前的机器人就像是一个**“分诊台”。病人刚进门，机器人问一句：“哪里不舒服？”如果机器人能回答，就解决了；如果机器人觉得“这题太难，我也不会”，它就会立刻说：“我去叫医生”，然后转身就走，彻底消失**。
- 问题：一旦医生接手，机器人就“下班”了。即使医生正在忙别的，病人问了一个机器人其实能回答的小问题（比如“怎么更新 IP 白名单？”），机器人也帮不上忙，因为它的任务周期在转交医生时就结束了。

2. Vigil 的登场：全程陪诊的“超级实习生”

Vigil 不一样，它是一个**“主动型”的助手。它不像分诊台那样，一旦医生接手就消失。相反，它一直站在医生旁边**，像个聪明的实习生。

不打扰，但时刻准备着：
- 当医生正在全神贯注地给病人做复杂检查（处理核心故障）时，Vigil 会安静地观察。
- 一旦病人问了一个简单的问题（比如“我刚才那个步骤对吗？”或者“这个报错是什么意思？”），而医生还没空回答，Vigil 会立刻跳出来，主动给出答案。
- 比喻：就像你在看医生时，旁边有个懂医术的实习生，趁医生在写处方时，主动帮你把“怎么吃药”、“忌口什么”这些简单问题解答了，让医生能专心处理大难题。
不抢功，只补位：
- Vigil 不会抢医生的风头。它会把答案做成一张**“小卡片”**，上面写着“这是 AI 助手提供的建议”，并附上来源。如果病人或医生觉得对，点一下“接受”，问题就解决了。

3. 核心魔法：越用越聪明的“自我进化”

这是 Vigil 最厉害的地方。以前的机器人，知识是固定的，像一本过期的旧字典，需要人工不断去更新，很慢。

Vigil 有一个**“自动学习日记”**：

场景一（学新招）：如果 Vigil 遇到一个它不会的问题，医生给出了完美的解决方案。Vigil 会立刻把这个“问题 + 医生的答案”记下来，变成自己的新知识。下次再有人问同样的问题，Vigil 就能直接回答了。
场景二（改错）：如果 Vigil 自信地给出了一个答案，但病人说“不对，我是用 Go 语言写的，不是 Python"。Vigil 不会死脑筋，它会立刻反思：“哦，原来我的答案有局限性。”它会修正自己的知识库，把“适用于 Python"改成“适用于 Python，但 Go 语言需要升级版本”。
比喻：这就像是一个**“活体知识库”**。以前是老师傅手把手教徒弟，现在徒弟（Vigil）自己看师傅治病，看完就学会，而且还能发现自己记错了的地方，自动修正。

4. 实际效果：真的有用吗？

这篇文章说，Vigil 已经在火山引擎的“急诊室”里工作了10 个多月。

数据：它处理了超过 13 万次咨询，生成了 13 万多次主动帮助。
成果：
- 在医生介入后，它依然能解决 40.5% 的后续问题，大大减轻了医生的负担。
- 它不仅能回答，还能在紧急故障（比如服务器突然挂了）发生时，迅速从第一个病人的对话中学到临时解决方案，并立刻告诉第二个、第三个遇到同样问题的病人，抢在医生回复之前就把问题解决了。

5. 总结：它到底好在哪？

如果把云服务的客服支持比作**“打怪升级”**：

以前的机器人：是个**“一次性道具”**，用完就扔，遇到难打的怪就喊人，喊完人就不管了。
Vigil：是个**“随身智能辅助系统”**。它全程在线，不仅能打小怪（回答简单问题），还能在人类玩家（客服）打大怪时，自动捡取掉落的装备（新知识），并实时更新自己的攻略，让整个人类 +AI 的团队配合得越来越默契，效率越来越高。

一句话总结：Vigil 就是一个**“不知疲倦、主动补位、且能自我进化的超级助手”**，它让客服专家不再被琐碎问题缠身，让故障解决得更快，让系统越用越聪明。

Each language version is independently generated for its own context, not a direct translation.

这是一份关于论文《Help Without Being Asked: A Deployed Proactive Agent System for On-Call Support with Continuous Self-Improvement》（无需请求的帮助：一种具有持续自我改进能力的已部署主动式代理系统）的详细技术总结。

1. 研究背景与问题 (Problem)

在像火山引擎（Volcano Engine）这样的大规模云平台中，每天产生数千个客户工单，主要通过“值班（On-call）”对话处理。这给人类支持分析师带来了巨大的工作负荷。

现有的研究主要关注被动式代理（Reactive Agents），即利用大语言模型（LLM）作为第一道防线直接与客户交互。然而，被动式代理存在两个关键缺陷：

过早退出（Premature Disengagement）： 一旦代理无法解决某个子问题并将工单升级给人工分析师，代理通常会立即退出会话。这意味着它无法在人工介入后继续协助回答后续问题、跟踪解决进度或缩短端到端响应时间。
知识更新滞后（Static Knowledge）： 现有的检索增强生成（RAG）系统依赖人工维护的知识库。在快速演变的云故障场景中，新的症状、缓解措施或临时变通方案往往首先出现在活跃的对话中，但难以及时更新到知识库中，导致代理无法利用这些新信息帮助后续遇到相同问题的客户。

2. 方法论 (Methodology)

为了解决上述问题，作者提出了 Vigil，一种**主动式代理（Proactive Agent）**系统。Vigil 不取代第一线的被动代理，而是作为人类分析师的助手，在人工介入后的整个值班生命周期中持续工作。

Vigil 的核心架构包含两个主要功能模块：

2.1 在线主动响应 (Online Proactive Response)

Vigil 实时监控客户与分析师之间的对话，在无需显式调用的情况下主动提供帮助。

上下文感知的问题识别 (Context-Aware Question Identification)：
- 将识别任务建模为分类问题，将客户消息分为三类：范围内（Within Scope）（云产品/运维问题）、范围外（Out of Scope）（复杂主观决策）、无需协助（No assistance needed）（寒暄或已解决）。
- 只有当消息被分类为“范围内”且分析师尚未回答时，Vigil 才会介入。
答案生成 (Answer Generation)：
- 利用多轮对话历史重写问题，使其明确且自包含。
- 采用多路径检索策略（RAG），结合领域文档知识库和历史问答对。
- 集成工具调用（MCP/A2A），检索日志、告警和诊断元数据，确保回答基于真实系统状态。
答案去重 (Answer Deduplication)：
- 使用基于语义相似度的去重机制。计算新生成答案的嵌入向量与当前会话中历史答案的余弦相似度。如果相似度超过阈值（ $\theta=0.7$ ），则抑制冗余回答，避免重复打扰。
交互卡片设计 (Proactive Response Card)：
- 以独立的卡片形式展示回答，明确区分 AI 与人类消息，提供引用链接以确保可验证性，并包含“接受（Accept）”按钮用于收集反馈。

2.2 持续自我改进 (Continuous Self-Improvement)

Vigil 利用其延长的行动周期，从对话中持续学习，自动更新知识库，减少对手工维护的依赖。

从未回答问题中学习： 当 Vigil 无法回答而由人类分析师解决时，系统自动解析后续对话，提取解决方案并构建新的问答对（QA Pair）存入知识库。
从已回答问题中学习（答案审查机制）：
- 保持 (Keep)： 如果人类分析师的回答与 Vigil 一致，或对话未再讨论该话题，则保留该条目。
- 删除 (Delete)： 如果后续对话证明 Vigil 的回答完全错误（如引用过时或不适用的文档），则从知识库中删除该条目。
- 更新 (Update)： 如果存在细微差异（如缺少背景信息），系统会分析差异原因，丰富引用细节并更新条目。
从外部文档中学习： 自动捕获分析师在对话中分享的官方文档链接，提取结构化知识，确保信息的准确性和时效性。

3. 关键贡献 (Key Contributions)

提出了 Vigil 主动式代理系统： 填补了被动代理在人工介入后“失声”的空白，通过持续监控和主动回答，扩展了自动化支持的行动周期。
设计了持续自我改进机制： 建立了一个闭环系统，能够从人类分析师的解决过程、未回答的查询以及共享的外部文档中自主提取和更新知识，显著降低了对静态知识库的依赖。
大规模生产环境部署与验证： 在火山引擎生产环境部署超过 10 个月，处理了超过 13 万次值班会话，并通过定量指标和案例研究证明了其有效性和实用性。

4. 实验结果 (Results)

研究在火山引擎生产环境中进行了评估（截至 2026 年 1 月，处理了 131,433 次值班，生成 136,234 次主动响应）：

扩展覆盖范围 (Q1)： 在 40.5% 的人工介入值班中，Vigil 继续提供了有价值的协助，有效缩短了客户等待时间。
问题识别能力 (Q2)： 引入专门的问题识别模块后，不同基础模型（如 GPT-5, Qwen-VL 等）的加权 F1 分数显著提升。例如，GPT-5-mini 的 F1 分数提升了 203.2%，表明该模块能有效约束模型专注于领域内问题。
答案准确性 (Q3)： 消融实验表明，包含“自我改进”和“答案审查”模块的完整 Vigil 系统，其答案准确率远高于仅依赖基础 LLM 的基线。
- 在 Seed-1.6 模型上，完整系统的准确率达到 0.591，相比无自我改进版本提升了 282.6%。
- 这意味着超过一半的主动回答是正确且有帮助的。
去重效果 (Q4)： 通过调整相似度阈值 $\theta$ ，在 0.7 时达到了最佳的加权 F1 分数（0.752），有效平衡了避免冗余和提供全面协助之间的关系。

5. 意义与启示 (Significance & Lessons Learned)

人机协作新范式： Vigil 证明了 AI 不应仅在故障初期介入，而应作为人类专家的“副驾驶”贯穿整个故障处理过程，特别是在人类专家忙碌或需要多轮排查时提供即时支持。
实时性与延迟的权衡： 在值班场景中，响应速度至关重要。过于复杂的推理链（如多步规划）可能导致延迟，使得“及时但稍简略”的回答比“完美但迟到”的回答更有价值。
反馈的模糊性处理： 显式反馈（如点击“接受”）是强信号，但缺乏反馈并不一定代表回答错误。Vigil 通过对话上下文分析来自动判断答案质量，避免了因用户未点击反馈而错误地丢弃有效知识。
动态知识演进： 系统展示了从“静态知识库”向“动态、自进化知识库”转变的可行性，能够迅速吸收新出现的故障模式和解决方案。

总结：
Vigil 是一个在工业界成功落地的主动式 AI 代理系统。它通过“持续在场”和“自我进化”两大核心能力，有效缓解了云服务平台值班支持的压力，提升了故障解决效率，并为未来构建更智能、自适应的运维助手提供了重要的实践参考。

Help Without Being Asked: A Deployed Proactive Agent System for On-Call Support with Continuous Self-Improvement

1. 背景：急诊室太忙了

2. Vigil 的登场：全程陪诊的“超级实习生”

3. 核心魔法：越用越聪明的“自我进化”

4. 实际效果：真的有用吗？

5. 总结：它到底好在哪？

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 在线主动响应 (Online Proactive Response)

2.2 持续自我改进 (Continuous Self-Improvement)

3. 关键贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与启示 (Significance & Lessons Learned)

类似论文

LABBench2: An Improved Benchmark for AI Systems Performing Biology Research

Linear Programming for Multi-Criteria Assessment with Cardinal and Ordinal Data: A Pessimistic Virtual Gap Analysis

Seven simple steps for log analysis in AI systems

Turing Test on Screen: A Benchmark for Mobile GUI Agent Humanization

AHC: Meta-Learned Adaptive Compression for Continual Object Detection on Memory-Constrained Microcontrollers