LeJOT-AutoML: LLM-Driven Feature Engineering for Job Execution Time Prediction in Databricks Cost Optimization

本文提出了 LeJOT-AutoML 框架,利用大语言模型代理结合检索增强生成与工具链,自动化完成 Databricks 作业执行时间预测的特征工程,将特征构建周期从数周缩短至 20-30 分钟,并通过优化任务编排实现了 19.01% 的云成本节约。

Lizhi Ma, Yi-Xiang Hu, Yihui Ren, Feng Wu, Xiang-Yang Li

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个名为 LeJOT-AutoML 的聪明系统,它的任务是帮助企业在云端(Databricks)运行大数据任务时省钱

为了让你更容易理解,我们可以把整个系统想象成一个**“超级智能的云端任务调度员”**。

1. 背景:为什么要省钱?(就像开网约车)

想象你在一个巨大的城市里开网约车(这就是企业的大数据任务)。

  • 任务:你要把乘客(数据)从 A 点送到 B 点。
  • 成本:你租的车越高级(算力越强),租金越贵;但车越好,跑得越快。
  • 难题:如果你租了太好的车,虽然快,但浪费钱;如果你租了太破的车,可能会迟到(违反时间承诺)。
  • 现状:以前的调度员(旧系统)只能靠死记硬背的经验来猜需要租什么车。比如:“只要看到有 100 个乘客,就租一辆大巴。”
    • 问题:这太笨了!有时候虽然乘客多,但大家都住得很近(数据分区好),一辆小车就够了;有时候乘客少,但路特别堵(数据倾斜),小车根本跑不动。旧方法经常猜错,导致要么浪费钱,要么迟到

2. 核心创新:LeJOT-AutoML 是什么?(一个由 AI 组成的“特工小队”)

这篇论文提出的新系统,不再依赖死记硬背,而是派出了一个由大语言模型(LLM)组成的“特工小队”,自动去分析任务,找出真正影响速度的秘密线索。

这个“特工小队”由三个主要角色组成,它们分工合作:

🕵️‍♂️ 角色一:侦探(Feature Analyzer Agent, FAA)

  • 任务:它像侦探一样,拿着放大镜去翻所有的线索(日志、代码、数据库结构)。
  • 超能力:它读过一本“行业百科全书”(知识库),知道哪些线索最重要。比如,它知道“如果数据被切分得很细,速度会快很多”,或者“如果数据分布不均匀,某些车会累死”。
  • 以前:人类专家需要花几个月才能总结出这些线索。
  • 现在:侦探几秒钟就能列出一份长长的“嫌疑线索清单”(200 多个特征)。

🛠️ 角色二:工匠(Feature Extraction Agent, FExA)

  • 任务:侦探列出的线索,工匠负责把它们变成实实在在的数据。
  • 超能力:它手里有一把“万能工具包”(MCP 工具链)。它可以去查历史记录、读运行日志,甚至在一个安全的沙箱(就像在实验室里模拟运行)里试跑一下代码,看看能不能算出这个线索。
  • 关键点:它能发现那些只有跑起来才知道的秘密。比如,“虽然数据量不大,但中间过程会产生巨大的数据交换(Shuffle)”,这种线索只有动态分析才能抓到。

🛡️ 角色三:安检员(Safety Gates)

  • 任务:在工匠把数据交给模型之前,安检员要检查两件事:
    1. 代码完整吗?(别写了一半就停了)。
    2. 作弊了吗?(这是最重要的!)。
  • 作弊是什么?:比如,侦探问工匠:“这个任务要跑多久?”工匠直接去查了“任务结束后的日志”然后告诉侦探。这叫**“偷看答案”**(数据泄露)。如果模型知道了答案,它就能得满分,但到了真实世界(还没跑的时候)就完全没用了。安检员会无情地剔除这些作弊者。

3. 这个系统厉害在哪里?

⚡ 速度:从“月”到“分钟”

  • 以前:人类工程师要像老工匠一样,手工打磨特征,调整代码,可能需要一个月才能更新一次模型。
  • 现在:特工小队全自动运行,20-30 分钟就能完成从分析、提取特征、训练模型到验证的全过程。如果任务变了,它能立刻适应。

🧠 发现“隐形”线索

  • 旧系统只看“静态”的东西(比如表里有多少行数据)。
  • 新系统能看“动态”的东西(比如数据倾斜、网络拥堵、分区剪枝效果)。
  • 比喻:旧系统看地图觉得路只有 10 公里;新系统通过看实时路况,发现前面有 5 公里在修路,实际要跑 15 公里。

💰 结果:省钱了!

  • 虽然新系统的预测准确度(R² 0.81)比人类专家手工做的(R² 0.91)稍微低一点点(就像天气预报稍微差了一点点),但它更新极快,而且能自动发现人类忽略的细节。
  • 最终效果:在真实的部署中,这个系统帮企业节省了 19.01% 的云端成本。这就像是你虽然偶尔会多花几块钱打车,但因为你更懂路况,整体下来一年省下了几千块。

4. 总结:这不仅仅是自动化,是“进化”

这篇论文的核心思想是:把枯燥、耗时、需要极高专业知识的“特征工程”工作,交给 AI 特工去干。

  • 以前:人类是司机,AI 只是导航仪(而且导航仪还很笨)。
  • 现在:AI 变成了自动驾驶系统。它不仅能看路,还能自己分析路况、自己修车(生成代码)、自己检查有没有作弊,并且每跑一次就变得更聪明一点。

一句话总结
LeJOT-AutoML 就像是一个不知疲倦、眼观六路、还会自我反省的 AI 管家,它帮你在云端跑大数据任务时,精准地算出“到底该租多大的车”,既不让车空跑浪费钱,也不让车超载迟到,最终帮企业省下了真金白银。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →