TigerVector: Supporting Vector Search in Graph Databases for Advanced RAGs

本文介绍了 TigerVector,这是一个集成于 TigerGraph 原生图数据库中的系统,通过扩展顶点属性类型、构建 MPP 向量索引框架以及增强 GSQL 查询语言,实现了向量搜索与图查询的高效融合,从而显著提升了混合搜索能力、可扩展性及性能。

Shige Liu, Zhifang Zeng, Li Chen, Adil Ainihaer, Arun Ramasami, Songting Chen, Yu Xu, Mingxi Wu, Jianguo Wang

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一个名为 TigerVector 的新系统,它是由普渡大学和 TigerGraph 团队共同开发的。为了让你轻松理解,我们可以把整个故事想象成升级一家超级图书馆

1. 背景:为什么我们需要这个新系统?

想象一下,现在的**大语言模型(AI)**就像一位博学但有点“死脑筋”的图书管理员。

  • 传统的做法(向量数据库): 管理员手里只有一本“关键词索引本”。如果你问“关于猫的故事”,他只能根据“猫”这个词去翻书。但他不知道“猫”和“狗”是邻居,也不知道“猫”在“公园”里遇到了“狗”。这导致他找到的书往往不够精准,甚至答非所问。
  • 图数据库的做法(GraphRAG): 管理员手里有一张巨大的“关系地图”。他知道谁和谁认识,谁和谁有关联。这能帮他理解复杂的上下文,比如“那个喜欢猫的人,他的朋友是谁”。

痛点: 以前,如果你想让管理员既懂“关键词”又懂“关系图”,你得给他配两个助手:一个专门管关键词(向量库),一个专门管关系图(图数据库)。

  • 问题: 这两个助手各干各的,数据要跑来跑去(数据孤岛),而且他们经常对不上号(数据不一致)。比如,关键词助手说“这是张三写的”,关系图助手说“张三没写过”,这就很尴尬。

2. TigerVector 是什么?

TigerVector 就是把这两个助手合并成了一个“超级全能管理员”,并且让他住进了同一个办公室(TigerGraph 数据库)。

它不再让数据在两个系统间搬运,而是直接在同一个地方,既支持关键词搜索(向量搜索),又支持关系推理(图查询)。

3. 它是如何工作的?(核心黑科技)

为了让这个“超级管理员”既快又准,TigerVector 用了几个聪明的招数:

🏗️ 招数一:把“书”和“书皮”分开存(解耦存储)

  • 比喻: 想象一本书,里面的文字(普通属性,如作者、标题)很轻,但书皮上贴了一张巨大的、复杂的“全息地图”(向量数据,如内容的语义)。
  • 做法: 以前,大家把地图和文字硬塞在一起,找地图时得把整本书都翻一遍,很慢。TigerVector 把“全息地图”单独拿出来,放在一个专门的“地图仓库”里,但通过编号和原来的书一一对应。
  • 好处: 找地图时,直接去地图仓库,不用翻文字书,速度飞快;而且更新地图时,不会弄乱原来的文字。

🚀 招数二:千人千面,同时开工(MPP 并行架构)

  • 比喻: 以前图书馆只有一个管理员,你让他找 1 亿本书,他得累死。
  • 做法: TigerVector 把图书馆分成了几千个小隔间(分区),每个隔间都有一个管理员(计算核心)。当你问问题时,所有管理员同时在自己的隔间里找,最后把结果汇总。
  • 好处: 就像让 1000 个人同时找书,速度比一个人快几百倍。

🧩 招数三:一张嘴说两种语言(GSQL 语言增强)

  • 比喻: 以前你要找书,得先对管理员说“我要找关于猫的书”(向量搜索),然后拿着结果去问另一个管理员“这些书里哪本是张三写的”(图查询)。
  • 做法: TigerVector 发明了一种新语言(GSQL 的扩展),你可以直接说:“帮我找张三写的关于猫的、最像‘可爱’这个词的书。”
  • 好处: 一句话搞定,不用在两个系统间跳来跳去,还能把“找书”和“找关系”完美融合。

4. 它有多厉害?(实验结果)

作者把 TigerVector 和其他几个著名的“图书馆”做了比赛:

  • 对手 A(Neo4j): 老牌图数据库,现在也加了向量功能。
    • 结果: TigerVector 比它快 3 到 5 倍,而且找得更准。
  • 对手 B(Amazon Neptune): 亚马逊的云服务,功能很强但很贵。
    • 结果: TigerVector 在便宜 22 倍的硬件上,跑得比它快 2 倍,效果还一样好。
  • 对手 C(Milvus): 专门做向量搜索的“特种兵”,速度极快。
    • 结果: TigerVector 竟然能和它打成平手,甚至在某些情况下更快!

5. 这对我们意味着什么?

简单来说,TigerVector 的出现,让AI 变得更聪明、更懂上下文,而且成本更低

  • 以前: 你想让 AI 分析“某位客户在所有社交媒体上对某款产品的负面评价”,AI 可能只能找到几篇带“负面”关键词的文章,漏掉了很多隐含的抱怨。
  • 现在: 有了 TigerVector,AI 可以瞬间找到所有相关的人,顺着他们的关系网,把那些没有直接说“负面”但意思相近的评论都挖出来,还能把这些评论和具体的产品、时间、地点串联起来。

总结一句话:
TigerVector 就像给数据库装上了“透视眼”和“超级大脑”,让它在处理海量数据时,既能看清细节(向量搜索),又能看懂全局关系(图搜索),而且不用花双倍的钱去养两个系统。这对于未来构建更智能的 AI 应用(比如更精准的医疗诊断、更懂你的购物助手)来说,是一个巨大的进步。