Bridging Discrete Marks and Continuous Dynamics: Dual-Path Cross-Interaction for Marked Temporal Point Processes

该论文提出了 NEXTPP 框架,通过结合自注意力机制处理离散事件标记与神经微分方程建模连续时间演化,并利用交叉注意力模块实现两者的双向交互,从而有效解决了标记时序点过程中离散与连续依赖难以统一建模的问题,在多个真实数据集上显著优于现有最先进模型。

Yuxiang Liu, Qiao Liu, Tong Luo, Yanglei Gan, Peng He, Yao LIu

发布于 2026-03-13
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 NEXTPP 的新人工智能模型,它的任务是预测未来会发生什么事件

为了让你轻松理解,我们可以把这个世界想象成一个繁忙的“城市交通系统”,而我们要预测的就是下一辆车什么时候出现,以及它是什么类型的车

1. 核心难题:为什么以前的方法不够好?

在现实生活中,事件(比如地震、推文、出租车接单)发生的时间是不规则的,而且每个事件都有类型(标记)。

  • 以前的“离散派”模型(像 RNN 或 Transformer):
    它们就像只看红绿灯的交警。它们非常擅长记住“刚才发生了 A 事件,紧接着发生了 B 事件”这种顺序关系。但是,它们把时间看作是一格一格的(比如每秒一格),忽略了事件之间连续流动的时间感。如果两辆车之间隔了 1 秒还是 10 秒,它们可能觉得差不多,但这在现实中差别巨大。

  • 以前的“连续派”模型(像 Neural ODE):
    它们就像看着水流的水文专家。它们能完美地模拟时间是如何平滑、连续地流逝的,能精准捕捉到“距离上次事件过了多久”这种细微的时间变化。但是,它们往往忽略了事件的类型。比如,它们知道“现在该发生地震了”,但不知道是“小震”还是“大震”,因为类型信息在它们眼里被模糊掉了。

痛点: 现实世界中,**“发生了什么类型的事”“这件事发生的时间”**是互相影响的。

  • 例子: 如果刚才发生了一次小地震(类型),可能会引发很快的余震(时间);如果刚才发生的是大震,可能接下来会有一段平静期
  • 以前的模型要么懂时间不懂类型,要么懂类型不懂时间,无法把这两者双向结合

2. NEXTPP 的解决方案:双车道交叉互动

NEXTPP 就像是一个拥有“双核大脑”的超级交通指挥官,它同时运行两条并行的“车道”,并让它们时刻互相交流

第一条车道:离散事件流(“类型专家”)

  • 角色: 负责记住所有发生过的事件类型(比如:是地震、推文还是出租车?)。
  • 工具: 使用自注意力机制(Self-Attention)
  • 比喻: 这就像是一个历史学家,他在翻阅一本厚厚的日记,记住:“昨天发生了 A,前天发生了 B,它们之间有什么逻辑联系?”他非常擅长理解事件之间的语义关系

第二条车道:连续时间流(“时间专家”)

  • 角色: 负责模拟时间是如何平滑流逝的
  • 工具: 使用神经微分方程(Neural ODE)
  • 比喻: 这就像是一个物理学家,他在观察一条流动的河流。他不在乎具体的“事件点”,而在乎水流(时间)是如何连续变化的。他能精准计算出从上一个事件到下一个事件之间,时间流逝的“加速度”和“轨迹”。

核心创新:交叉互动(Cross-Interaction)

这是 NEXTPP 最厉害的地方。它不是让两条车道各跑各的,而是建了一座双向立交桥,让“历史学家”和“物理学家”随时对话:

  • 类型影响时间: “历史学家”告诉“物理学家”:“刚才发生的是大震,所以接下来的时间流可能会变慢(因为要等余震)。”
  • 时间影响类型: “物理学家”告诉“历史学家”:“距离上次事件已经过了很久,根据时间规律,现在发生新类型事件的概率变大了。”

通过这种双向交流,模型既能精准预测时间,又能准确判断类型

3. 它是如何工作的?(简单三步走)

  1. 编码(Embedding): 把每一个事件(时间和类型)变成计算机能懂的数字向量。
  2. 双路进化(Dual-Path):
    • 一路用“自注意力”提取事件间的逻辑。
    • 一路用“微分方程”模拟时间的连续流动。
    • 然后,通过“交叉注意力”把这两路信息融合在一起,互相修正。
  3. 预测与采样(Prediction & Sampling): 基于融合后的信息,模型会计算出一个“强度函数”(就像天气预报里的降雨概率),然后使用一种叫“稀疏采样”的技巧,生成未来的事件序列。

4. 效果如何?(实战表现)

作者在五个真实世界的数据集上测试了 NEXTPP,包括:

  • 地震数据: 预测余震的时间和震级。
  • 出租车数据: 预测出租车在纽约哪里接单。
  • 社交媒体数据: 预测推文被转发的时间和内容。

结果: NEXTPP 在所有测试中都击败了目前最先进的模型。

  • 它预测的时间更准(误差更小)。
  • 它预测的事件类型更对(准确率更高)。
  • 它甚至能解释为什么会这么预测(通过注意力热力图,我们可以看到模型确实关注到了关键的历史事件)。

总结

想象一下,以前的模型要么是个只看日历的记事员(懂顺序,不懂时间流逝),要么是个只看钟表的物理学家(懂时间,不懂事件内容)。

NEXTPP 则是一个全能的超级顾问:它既拿着日历,又盯着钟表,而且这两样东西会实时互相提醒

  • “嘿,刚才那是个大事件,时间得慢点走!”
  • “嘿,时间已经过了这么久,该换个新事件了!”

正是这种离散(事件)与连续(时间)的完美融合,让 NEXTPP 成为了预测未来不规则事件序列的顶尖高手。