Do GPUs Really Need New Tabular File Formats?

本文证明,Parquet 文件中 GPU 扫描性能瓶颈源于次优的、以 CPU 为中心的配置文件,而非格式本身,并表明应用 GPU 感知设置可在不改变 Parquet 规范的前提下将有效读取带宽提升至 125 GB/s。

原作者: Jigao Luo, Qi Chen, Carsten Binnig

发布于 2026-05-27✓ Author reviewed
📖 1 分钟阅读☕ 轻松阅读

原作者: Jigao Luo, Qi Chen, Carsten Binnig

原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

想象一下,你拥有一个巨大的图书库(你的数据),存储在一个仓库(你的硬盘)中。你还有一位超级快速的机器人图书管理员(你的 GPU),它的职责是阅读这些书籍并回答问题。

多年来,这座图书馆一直使用一种名为Parquet的特定归档系统进行组织。该系统的设计初衷是面向人类图书管理员:它将书籍分组为小而 manageable 的堆,方便人类一次拿起一摞。

然而,机器人图书管理员则不同。它不会一次只拿起一摞;它拥有成千上万只手,可以同时抓取数十摞。但由于图书馆仍是按人类需求组织的,机器人大部分时间都在等待下一摞被递给它,或者它只动用了极少部分的手。机器人本身极其迅速,但图书馆的组织方式拖了它的后腿。

这篇论文提出了一个简单的问题:我们是否需要专门为机器人发明一种全新的归档系统?

作者们回答:不需要。 相反,我们只需遵循几条简单的规则,重新整理现有的书籍即可。

以下是他们解决问题的方法,基于四条主要的“通行规则”:

1. “更多书堆”规则(增加页数量)

  • 问题: 旧系统将某个部分的所有数据放入一本巨大而厚重的书中。机器人试图阅读它,但由于书太大无法拆分,它一次只能使用一只手。
  • 解决方案: 他们将那些巨著切分成许多更小、更薄的页面。现在,机器人可以用它的 100 只手一次抓取 100 页。
  • 结果: 机器人不再无所事事;它正忙着同时动用所有的手。

2. “大箱子”规则(增加行组大小)

  • 问题: 旧系统向机器人发送的是像邮票一样微小的包裹。尽管机器人速度很快,但送货卡车(驱动器与机器人之间的连接)却被过多的微小包裹堵住了。
  • 解决方案: 他们开始发送巨大的、全尺寸搬家纸箱,而不是邮票大小的包裹。
  • 结果: 送货卡车现在可以全速行驶,持续不断地为机器人输送数据。

3. “智能打包”规则(编码灵活性)

  • 问题: 旧系统使用一种通用的、一刀切的方法来打包书籍。有时这能让书籍变小,但往往收效甚微。
  • 解决方案: 他们逐一检查每本书,并选择最佳的压缩方式。如果一本书包含大量重复的单词,他们就使用特殊代码将其缩得极小;如果一本书本身就很短,他们就保持原样。
  • 结果: 书籍在书架上占用的空间更少,因此送货卡车需要承载的重量更轻,使整个过程更快。

4. “别包装”规则(避免不必要的压缩)

  • 问题: 有时,旧系统即使书籍本身已经很小,仍会用厚重的泡泡纸(压缩)将其包裹起来。机器人随后不得不花时间拆开包装,这浪费了能量。
  • 解决方案: 他们决定:“如果泡泡纸不能让包裹显著变小,就不要使用它。”
  • 结果: 机器人通过跳过那些不需要拆包的书籍的拆包步骤,节省了时间。

压轴大戏:机器人与人类的对决

作者们测试了这种新布局。

  • 旧方式: 机器人速度缓慢,几乎未能发挥其超能力。
  • 新方式: 通过仅重新组织现有的 Parquet 文件(无需发明新格式),他们使机器人的数据读取速度提高了125 倍

他们还表明,当机器人与送货卡车协同工作(重叠读取与处理)时,效率会更高。事实上,经过重组的机器人速度如此之快,几乎达到了送货卡车本身的理论速度极限。

核心结论

该论文得出结论:我们不需要烧毁图书馆并从头重建一座新馆。我们只需通过一些聪明的调整重新上架书籍即可。

通过微调数据的打包和分组方式,现有的 Parquet 格式已经可以在现代 GPU 上以闪电般的速度运行。这省去了所有人学习新系统的麻烦,同时保持了所有旧软件的兼容性,同时仍获得了我们所需的巨大速度提升。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →