GraphProp: Training the Graph Foundation Models using Graph Properties

本文提出了 GraphProp 方法,通过分两阶段训练(先利用图不变量预测构建结构基础模型,再将其作为位置编码融合节点属性),有效解决了图基础模型在跨域结构泛化上的不足,显著提升了其在图分类等任务中的表现,特别是在处理无节点属性图时的优势。

Ziheng Sun, Qi Feng, Lehao Lin, Chris Ding, Jicong Fan

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 GraphProp 的新方法,旨在训练一种更强大的“图基础模型”(Graph Foundation Model, GFM)。

为了让你轻松理解,我们可以把图(Graph)想象成社交网络分子结构

  • 节点(Nodes):就像人(在社交网络中)或原子(在分子中)。
  • 边(Edges):就像人与人之间的朋友关系,或原子之间的化学键。
  • 节点特征(Node Features):就像人的“简历”(职业、爱好)或原子的“属性”(碳、氧、氢)。
  • 图结构(Graph Structure):就是这些人或原子是如何连接在一起的拓扑形状。

🌟 核心痛点:以前的模型“偏科”

以前的图基础模型(GFMs)就像是一个只擅长读简历的翻译官

  • 它能把不同领域(比如化学分子和社交网络)的“简历”(节点特征)翻译成一种通用的语言。
  • 但是,它不太擅长理解“人际关系网”本身的结构。
  • 问题在于:化学分子的“简历”(化学性质)和社交网络的“简历”(用户属性)完全不同,没法通用。如果模型只靠读简历,一旦遇到没有简历的图(比如只有连接关系,没有属性),它就彻底懵了。

💡 GraphProp 的灵感:寻找“跨界的共同语言”

作者发现,虽然不同领域的“简历”千差万别,但**连接方式(结构)**却有着惊人的共性。

  • 比喻:想象一下,无论是“分子世界”还是“社交世界”,它们都有一些共同的几何规律。比如,一个网络里有没有“死胡同”(直径)、连接有多紧密(连通性)、能不能用几种颜色给节点染色而不冲突(色数)。
  • 这些规律就像数学公理,不管是在化学里还是在社会学里,它们都适用。这就是图不变量(Graph Invariants)

🚀 GraphProp 是怎么工作的?(两阶段训练法)

GraphProp 的训练过程分为两个聪明的步骤,就像培养一个全能侦探

第一阶段:训练“结构侦探”(Structural GFM)

  • 任务:这个侦探不看“简历”,只看“关系网”。
  • 方法:给它看各种各样的图(甚至可以是随机生成的假图),让它去预测数学属性
    • 比如:“这个图里最长的路径有多长?”、“这个图需要几种颜色才能把相邻节点区分开?”
  • 目的:通过做这些数学题,强迫模型学会理解纯粹的图形结构。因为它预测的是通用的数学规律,所以它学会了跨越不同领域的“结构通用语”。
  • 优势:即使没有标签、没有属性,只要有图的结构,它就能练级。

第二阶段:训练“全能侦探”(Comprehensive GFM)

  • 任务:现在,我们要让侦探既懂结构,又懂具体的“简历”。
  • 方法
    1. 把第一阶段学到的“结构理解”变成一种位置编码(就像给每个节点贴上“我在网络中的位置”的标签)。
    2. 把这些标签和具体的“简历”(节点特征)结合起来。
    3. 利用上下文学习(In-context Learning),让模型在遇到新任务时,能像大语言模型(LLM)一样,根据上下文快速适应。
  • 结果:这个模型既懂通用的结构规律,又能处理特定领域的具体信息。

🌈 为什么这很厉害?(用大白话总结)

  1. 不再“偏科”:以前的模型遇到没有“简历”的图就抓瞎,GraphProp 因为先学会了“结构语言”,所以即使图是空的(没有属性),它也能通过结构理解世界。
  2. 数据饥渴症治愈:训练大模型通常需要海量带标签的数据。但 GraphProp 的第一阶段可以利用无标签的图,甚至随机生成的假图来训练,因为它是在做数学题(预测属性),不需要人工标注。这大大降低了数据门槛。
  3. 真正的跨领域:它证明了“结构”是连接不同领域(如化学、社交、生物)的桥梁。

🎯 实验结果

作者在多个数据集上进行了测试,包括那些没有节点属性的图(比如只有连接关系的社交网络)。

  • 结果:GraphProp 在大多数情况下都击败了现有的最强模型(SOTA),特别是在那些“没有简历”的图上,表现提升巨大。

📝 一句话总结

GraphProp 就像是一个先学会了“几何与拓扑”通用语言,再学习具体“方言”的超级翻译官。它不再依赖具体的“简历”(节点特征),而是通过理解万物互联的“结构规律”,实现了真正的跨领域通用智能。