原作者： Bettina Fazzinga, Sergio Flesca, Filippo Furfaro, Luigi Pontieri, Francesco Scala

发布于 2026-05-07

📖 1 分钟阅读☕ 轻松阅读

原作者： Bettina Fazzinga, Sergio Flesca, Filippo Furfaro, Luigi Pontieri, Francesco Scala

原始论文采用 CC BY 4.0 许可（http://creativecommons.org/licenses/by/4.0/）。 ✨ 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性，请参阅原始论文。阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

想象一下，你试图理解一个故事，但你拥有的只是一份原始的、低层级的行动清单，而非实际的情节。

问题：“翻译”鸿沟
设想一位医院患者的就诊历程。计算机日志可能记录一系列微小、具体的行动：“患者被触碰”、“抽血”、“测量血压”、“插入针头”。这些就是低层级事件。

然而，医生或管理者并不想看到一堆琐碎的行动清单；他们想知道高层级的故事：“准备阶段”、“住院阶段”和“术前阶段”。

问题在于，一个微小的行动（例如“抽血”）可能发生在上述三个大阶段的任何一个之中。这就像看到电影中的角色拿起一个杯子：他们是在开会前喝咖啡？是在为客人倒茶？还是仅仅在清理？如果没有上下文，这就是一场猜谜游戏。如果你猜错了，整个患者护理的故事就会被搞乱。

解决此问题的旧方法
该论文描述了两种先前的解决方法，但两者都存在缺陷：

“严格规则手册”方法（抽象论证）：
想象一位非常严格、逻辑严密的侦探，他知晓医院的所有规则。
- 规则： “术前阶段必须在住院阶段之后发生。”
- 规则： “如果未完成准备阶段，则不能开始术前阶段。”
  这位侦探会将每一个可能的故事与规则进行核对。如果某个故事违反了规则，它就会被剔除。
- 缺陷： 有时规则过于宽松。侦探可能会说：“好吧，从技术上讲，这可能是住院阶段，或者可能是术前阶段，或者可能是准备阶段。”侦探会给你一份包含 50 种可能性的庞大清单。虽然准确，但这令人难以招架，且计算缓慢。
“模式识别器”方法（机器学习）：
想象一位阅读过成千上万份过往患者故事的学生。
- 工作原理： 该学生看到“抽血”，并回忆起：“哦，在我读过的故事中，80% 的情况下这都发生在住院阶段。”
- 缺陷： 这位学生需要海量的过往故事库来学习。如果该学生没有见过足够的例子，他们可能会猜错。此外，他们不了解严格的规则。他们可能会将“抽血”事件猜测为“术前阶段”，尽管规则规定术前阶段尚未开始。

新解决方案：“神经符号”团队
作者提出让严格侦探（推理器）与模式识别器（机器学习）组成团队。他们称这种方法为“神经符号”方法。

以下是他们在实时中协同工作的方式：

初步猜测： 模式识别器（机器学习）观察当前事件以及之前发生的历史。它说：“我有 80% 的把握这是住院阶段，15% 的把握是准备阶段，5% 的把握是术前阶段。”它提供了一份按可能性排序的最可能故事清单。
现实核查： 严格侦探（推理器）接过这份简短的清单，并将其与硬性规则进行核对。
- “等等，”侦探说，“规则规定术前阶段还不能发生。所以，那 5% 的猜测是不可能的。我把它划掉。”
- “还有，”侦探补充道，“规则规定现在不能连续出现两次住院阶段。所以那 15% 的猜测也是无效的。”
最终答案： 系统仅向用户呈现有效的选项，并按模式识别器认为的可能性高低进行排序。

为何这很重要
该论文声称，这种团队组合解决了旧方法的弱点：

更快、更清晰： 不再是侦探给你 50 个令人困惑的可能性，而是模式识别器将其缩小到前 3 个，然后侦探只需确认这 3 个中哪些是合法的。你会得到一份简短的、排序良好的最佳答案清单。
所需数据更少： 模式识别器通常需要成千上万的例子才能学得好。但由于有严格侦探在旁纠正错误，模式识别器无需完美。即使这位学生没读过多少书，侦探仍能阻止他们犯愚蠢的错误。论文的实验表明，即使训练样本非常少，这个团队的表現也远优于单独的学生。
解释“为什么”： 如果系统拒绝了一个想法，侦探可以解释原因（例如：“我拒绝了‘术前阶段’，因为规则规定必须先进行‘准备阶段’"）。

总而言之
该论文提出了一种系统，它将机器学习模型的直觉（基于模式进行猜测）与基于规则的系统的逻辑（对照事实进行核查）相结合。这创造了一种工具，它既聪明到足以猜对故事，又快速到足以实时完成，且严格到足以确保故事符合规则。当你没有足够的过往例子来单独教会计算机一切时，这种方法尤为有用。

Each language version is independently generated for its own context, not a direct translation.

技术摘要：结合抽象论证与机器学习以高效分析低层过程事件流

1. 问题定义

本文探讨了过程挖掘中日志抽象的挑战，具体涉及将低层事件流解释为高层业务活动。在许多现代场景（如智能工厂、医疗保健）中，过程轨迹由原始的、低层动作（事件）组成，这些动作与高层过程活动之间不存在直接的、一对一的映射关系。相反，事件类型与活动类型之间通常存在多对多的关系，从而形成了“抽象鸿沟”。

这种鸿沟导致了解释问题：确定哪个高层活动实例生成了特定的低层事件。现有解决方案面临两个主要局限性：

知识驱动方法（如抽象论证框架或 AAF）能够处理复杂约束并提供解释，但在约束宽松时可能会产生过多合理的解释，导致信息过载和高昂的计算成本。
示例驱动方法（如监督机器学习序列标记器）能够对可能的解释进行排序，但在训练数据稀缺、噪声大或不足以捕捉复杂过程行为时往往失效，且缺乏执行严格领域约束的机制，也无法为被拒绝的解释提供逻辑解释。

本文提出了一种神经符号方法，结合两种范式的优势：利用机器学习（ML）提供上下文感知、概率性的候选解释，并利用抽象论证基于形式化领域知识对这些候选项进行细化，以确保有效性并提供解释。

2. 方法论

所提出的框架集成了两个不同的 AI 组件：轨迹标记器（ML）和基于 AAF 的推理器（符号）。

2.1 组件

轨迹标记器（M）：一种基于子符号的机器学习模型（具体为序列标记模型），在标注的日志轨迹上进行训练。它根据轨迹中先前事件的上下文，预测当前事件 $e_{curr}$ $e_{c u r r}$ 的可能活动的概率分布。测试了两种架构：
- $M_A$ ：基于 LSTM 的架构，捕捉序列依赖关系。
- $M_B$ ：使用固定长度事件嵌入窗口的深度神经网络（DNN）架构。
基于 AAF 的推理器（R）：一个基于抽象论证框架的知识驱动模块。它编码了：
- 类型级映射：事件类型与活动类型之间的关系（包括首次、中间、最后等生命周期阶段）。
- 声明式过程模型：定义在活动实例上的时序约束（例如必须、不、优先）。
  推理器构建一个 AAF，其中论点代表候选解释，攻击代表与领域知识的冲突。有效的解释对应于 AAF 的首选扩展。

2.2 混合工作流（在线分析）

核心贡献是一种交互式的在线算法（算法 1），该算法增量地处理运行中的轨迹：

初始更新：推理器根据全局类型级映射推导出的所有候选解释，更新其内部 AAF。
ML 预测：轨迹标记器 $M$ 基于轨迹上下文，预测当前事件 $e_{curr}$ 的概率分布 $p_d$ 。
知识驱动修订：推理器 $R$ 过滤 ML 预测。任何被领域知识判定为无效的活动（即不在 AAF 的任何有效解释中）的概率被设为零。
平滑与归一化：为防止 ML 模型将所有有效候选项的概率分配为零的情况，对剩余概率应用拉普拉斯类平滑程序，然后进行归一化。
AAF 细化：推理器仅使用具有非零概率的活动（即前 $k$ 个候选项）重建 AAF。这显著减少了论证求解器的搜索空间。
输出：系统向用户呈现按概率排序的有效解释列表，并允许交互式查询（例如，“该事件是否是活动 A 的开始？”）以及解释为何其他解释被拒绝。

3. 主要贡献

本文声称有两个主要贡献：

通过排序增强解释：通过利用数据驱动的知识，该方法以排序的、部分的方式（前 $k$ 个）呈现事件解释，解决了纯推理方法在约束宽松时固有的信息过载问题。
提高数据效率：通过利用过程模型知识（约束），该方法在标注训练数据稀缺或不足以学习过程紧密特征的场景中，提高了示例驱动抽象方法的性能。

作者将此定位为一种神经符号策略，其中 ML 模型充当“用于推理的学习”机制以加速探索，而推理器充当“用于学习的推理”机制以修正和验证 ML 预测。

4. 实验结果

实验在合成数据集上进行（灵感来源于真实的意大利区域机构过程），具有不同的轨迹长度和映射不确定性水平（多对多关系）。

准确性与鲁棒性：混合方法（标记器 + 推理器）在准确率、精确率、召回率和 F1 分数方面始终优于单独的标记器和单独的推理器。值得注意的是，当标记器表现不佳时（例如，由于复杂的架构如 $M_A$ 或数据有限），推理器显著提升了性能。
数据效率：在训练集大小减少（从 100% 降至 20%）的实验中，混合方法保持了比单独标记器显著更高的准确率。混合方法的性能曲线要平坦得多，证明了对数据稀缺的鲁棒性。
信息过载减少：该方法大幅减少了分析师必须考虑的候选解释数量。对于长度为 60 的轨迹，与仅使用推理器相比，信息过载的减少（以正确活动的排名位置差异衡量）超过了 20 个备选方案。
计算时间：虽然混合方法由于推理步骤而比单独标记器慢，但平均预测时间仍保持在1 秒左右，这在业务流程分析背景下被认为是可行的。标记器本身的计算开销与推理过程相比可以忽略不计。

5. 意义与创新性

本文断言，这项工作代表了首次尝试在过程挖掘环境中利用神经符号方法进行低层轨迹的交互式探索性分析。

与现有神经符号解决方案的关键区别包括：

约束范围：行为约束跨越输入（过去事件）和输出（当前事件）变量，而许多现有方法仅约束输出。
运行时执行：约束是在解释会话的运行时执行的，而不是在模型训练期间。这提供了灵活性，使用户能够在不重新训练 ML 模型的情况下更改约束。
查询能力：该框架支持表达性强的、面向过程的查询，并为被拒绝的解释提供解释，超越了简单的概率估计或样本生成。

作者得出结论，该框架通过实现有效的人机回环协作，推动了最先进技术的发展，结合了 ML 的速度和上下文感知能力与符号推理的可靠性和可解释性，特别是在数据可能有限或过程结构松散复杂的工程应用中。

6. 局限性与未来工作

作者承认，该方法依赖于领域知识（约束）的可用性。如果约束太少或不存在，推理器就无法有效地指导标记器。此外，如果标注数据极其稀缺，即使是混合方法也可能难以应对。

确定的未来工作方向包括：

半监督学习：利用带有熵正则化损失的未标注日志轨迹来改进标记器训练。
主动学习：开发策略以选择最具信息量的未标注轨迹供专家标注，从而改进标记器模型。
概率约束：研究将概率领域知识（例如，“活动 A 在 80% 的情况下跟随 B"）直接纳入 AAF 的机制，因为当前框架仅处理确定性约束。

Combining Abstract Argumentation and Machine Learning for Efficiently Analyzing Low-Level Process Event Streams