SQaLe: A Large Text-to-SQL Corpus Grounded in Real Schemas

本文介绍了 SQaLe,这是一个基于 135,875 个真实数据库模式构建的大规模半合成文本转 SQL 数据集,通过 principled 生成管道创建了 51 万余条高质量三元组,旨在解决现有数据在规模、复杂度和多样性方面的瓶颈,从而推动文本转 SQL 模型的泛化能力研究。

Cornelius Wolff, Daniel Gomm, Madelon Hulsebos

发布于 2026-02-27
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 SQALE 的新项目,它的核心目标是解决人工智能(AI)在“听懂人话并自动写数据库代码”(Text-to-SQL)这一任务上遇到的瓶颈。

为了让你轻松理解,我们可以把整个故事想象成训练一个超级“数据库翻译官”

1. 现在的困境:翻译官的“教材”太少了

想象一下,你正在训练一个 AI 翻译官,让它能把人类说的“我想查一下上个月卖得最好的鞋子”翻译成数据库能懂的代码(SQL)。

  • 过去的问题:以前用来训练它的“教材”(数据集)就像只有几本薄薄的练习册。这些练习册里的题目太简单,或者太假(比如全是虚构的、完美的表格)。
  • 结果:AI 背熟了这些简单的题目,但一遇到真实世界里那种成千上万张表、关系错综复杂、甚至表名写得乱七八糟的数据库,它就彻底懵了,要么查不出数据,要么查错。

2. SQALE 的解决方案:打造一座“超级图书馆”

SQALE 团队决定给这个 AI 翻译官造一座超级图书馆,里面装满了真实世界的教材。

  • 素材来源(SchemaPile):他们从互联网上收集了 22,989 个真实存在的数据库结构(就像收集了成千上万本真实的账本、病历本、电商后台截图)。
  • 魔法扩写(生成管道):仅仅有这些还不够,因为真实的数据库虽然多,但每个都不够大。于是,他们请了一位“超级作家”(大语言模型 Qwen3),让它基于这些真实的账本,“无中生有”地扩写
    • 比喻:就像你有一张真实的“学校课程表”,AI 能基于这张表,合理想象并扩展出整个“大学校园”甚至“整个教育体系”的课表,包括食堂、宿舍、图书馆等,而且保持风格一致。
  • 最终成果:他们生成了 51 万多组 高质量的“问题 - 数据库结构 - 答案”三件套。

3. 这座图书馆有什么特别之处?(三大特点)

为了让 AI 真正变强,SQALE 的教材设计非常讲究,就像给翻译官安排了三种特殊的训练:

A. 规模与复杂度的“马拉松” (Schema Size & Density)

  • 以前的教材:只有几个小表格,像是一个小卖部的账本。
  • SQALE 的教材:包含了从“小卖部”到“跨国集团”各种规模的数据库。有的数据库有 90 多张表400 多列数据,还有 1300 多万个 关联关系(外键)。
  • 比喻:这就像让翻译官不仅学会数数,还要学会在迷宫一样的巨型城市里找路,而不是只在自家客厅里找东西。

B. 真实世界的“脏乱差” (Realism & Ambiguity)

  • 以前的教材:表名都是完美的 user_id, order_date
  • SQALE 的教材:保留了真实世界的“瑕疵”。表名可能叫 usr_tbl 或者 t1,有的关联关系是隐性的,甚至有的问题本身就很模糊(比如用户说“查一下那个大的”,但没说哪个大)。
  • 比喻:这就像让翻译官去听嘈杂的菜市场里的对话,而不是在录音棚里听播音员说话。只有经历过这种“噪音”,AI 才能真正听懂人话。

C. 千变万化的“考题” (Query Diversity)

  • 以前的教材:题目都很直白。
  • SQALE 的教材:题目涵盖了各种复杂的逻辑,比如“把 A 表和 B 表连起来,再和 C 表对比,最后筛选出 D 条件”。
  • 比喻:这就像让翻译官不仅会做“填空题”,还要会做“奥数题”和“逻辑推理题”。

4. 为什么要这么做?(愿景)

论文作者认为,就像人类通过阅读海量书籍来增长智慧一样,AI 也需要海量且高质量的数据来进化。

  • 现状:现在的 AI 模型很大,但数据太少,就像给法拉利加了一箱普通汽油,跑不快。
  • SQALE 的作用:它提供了“高标号汽油”。有了这个数据集,未来的 AI 翻译官就能更通用、更聪明,不仅能处理简单的查询,还能帮企业分析复杂的商业数据,甚至直接帮医生查病历、帮工程师查系统日志。

总结

SQALE 就是为了解决 AI“懂代码但不懂真实世界”的毛病,通过基于真实数据库进行大规模、智能化的扩写,制造了一个超级逼真的训练场

这就好比以前我们只让 AI 在“模拟城市”里开车,现在 SQALE 把它直接扔到了早高峰的北京或上海街头,让它学会如何在最复杂、最混乱的真实路况下,依然能精准地找到目的地。

数据已公开:如果你也想训练你的“翻译官”,作者已经把这座“超级图书馆”放在了 HuggingFace 上,任何人都可以免费使用。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →