Do GPUs Really Need New Tabular File Formats?

想象一下，你拥有一个巨大的图书库（你的数据），存储在一个仓库（你的硬盘）中。你还有一位超级快速的机器人图书管理员（你的 GPU），它的职责是阅读这些书籍并回答问题。

多年来，这座图书馆一直使用一种名为Parquet的特定归档系统进行组织。该系统的设计初衷是面向人类图书管理员：它将书籍分组为小而 manageable 的堆，方便人类一次拿起一摞。

然而，机器人图书管理员则不同。它不会一次只拿起一摞；它拥有成千上万只手，可以同时抓取数十摞。但由于图书馆仍是按人类需求组织的，机器人大部分时间都在等待下一摞被递给它，或者它只动用了极少部分的手。机器人本身极其迅速，但图书馆的组织方式拖了它的后腿。

这篇论文提出了一个简单的问题：我们是否需要专门为机器人发明一种全新的归档系统？

作者们回答：不需要。 相反，我们只需遵循几条简单的规则，重新整理现有的书籍即可。

以下是他们解决问题的方法，基于四条主要的“通行规则”：

问题： 旧系统使用一种通用的、一刀切的方法来打包书籍。有时这能让书籍变小，但往往收效甚微。
解决方案： 他们逐一检查每本书，并选择最佳的压缩方式。如果一本书包含大量重复的单词，他们就使用特殊代码将其缩得极小；如果一本书本身就很短，他们就保持原样。
结果： 书籍在书架上占用的空间更少，因此送货卡车需要承载的重量更轻，使整个过程更快。

作者们测试了这种新布局。

他们还表明，当机器人与送货卡车协同工作（重叠读取与处理）时，效率会更高。事实上，经过重组的机器人速度如此之快，几乎达到了送货卡车本身的理论速度极限。

该论文得出结论：我们不需要烧毁图书馆并从头重建一座新馆。我们只需通过一些聪明的调整重新上架书籍即可。

通过微调数据的打包和分组方式，现有的 Parquet 格式已经可以在现代 GPU 上以闪电般的速度运行。这省去了所有人学习新系统的麻烦，同时保持了所有旧软件的兼容性，同时仍获得了我们所需的巨大速度提升。

技术摘要：GPU 真的需要新的表格文件格式吗？