TML-Bench: Benchmark for Data Science Agents on Tabular ML Tasks

本文介绍了 TML-Bench,这是一个针对 Kaggle 风格表格机器学习任务的自主数据科学智能体基准,通过评估 10 个开源大语言模型在不同时间预算下的端到端表现,发现 MiniMax-M2.1 模型综合性能最佳且性能随时间预算增加而提升。

Mykola Pinchuk

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 TML-bench 的新测试,专门用来给那些能自动写代码的“人工智能助手”(AI Agents)打分。

想象一下,你雇佣了一群AI 厨师,给他们布置任务:用给定的食材(数据)做出一道完美的菜(机器学习模型),并且要在规定的时间内完成。

TML-bench 就是这场**“限时烹饪大赛”的裁判手册**。

以下是用大白话和比喻对这篇论文核心内容的解读:

1. 为什么要搞这个比赛?(背景)

现在的 AI 很聪明,能很快写出代码。但就像厨师一样,有的 AI 是“运气型”选手——偶尔一次蒙对了,做出一道神菜,但下次可能连火都点不着。

  • 痛点:以前的测试只看 AI 能不能写出代码,或者只挑它最好的一次表现。
  • TML-bench 的做法:我们要看稳定性真实性。就像我们评价一个厨师,不能只看他某一次发挥超常,而要看他在不同时间压力下,能不能每次都做出合格的菜。

2. 比赛规则是怎样的?(核心机制)

这场大赛有四个具体的“烹饪题目”(Kaggle 竞赛),每个题目给 AI 三个不同的时间预算

  • 240 秒(4 分钟):像“快餐挑战”,看 AI 能不能快速出活。
  • 600 秒(10 分钟):像“家常便饭”,给点时间慢慢做。
  • 1200 秒(20 分钟):像“精致大餐”,允许 AI 反复尝试、优化。

关键规则:

  • 盲测:AI 做出来的菜,裁判(人类或隐藏数据)会尝一口,但 AI 自己尝不到味道(看不到最终得分),防止它作弊或过度调整。
  • 断网:比赛期间,AI 不能上网查答案,必须靠自己的“大脑”(预训练知识)和现场发挥。
  • 五局三胜(其实是五局取中):每个题目,每个 AI 要跑5 次。我们不看它最好的一次,也不看最差的一次,而是看中间那次(中位数)的表现。这就像考试,去掉一个最高分和一个最低分,取中间值,最公平。

3. 谁赢了?(主要发现)

在 10 个开源的 AI 模型中,MiniMax-M2.1-TEE 表现最稳,拿到了“总冠军”。

  • 时间越久,通常越好:就像做饭,给的时间越长,菜通常越好吃。大部分 AI 在 20 分钟(1200 秒)的表现都比 4 分钟要好。
  • 有的 AI 是“慢热型”:有些模型在时间增加时进步巨大,而有些模型给再多时间也差不多,甚至因为想太多反而翻车了。
  • 稳定性很重要:有些模型虽然偶尔能拿第一,但经常“翻车”(跑不出结果或结果很差)。TML-bench 特别看重谁能每次都稳定发挥。

4. 这个测试有什么特别之处?(创新点)

  • 像“审计”一样严格:以前的测试可能允许 AI 上网搜题,或者只看它一次成功的运气。TML-bench 把 AI 关在“小黑屋”(断网),并且要求它必须在规定时间内,连续 5 次都成功做出菜来,才算数。
  • 统一评分标准:不同的题目,有的分数越高越好(比如 AUC),有的分数越低越好(比如 RMSE)。这个测试把大家的成绩都换算成统一的“百分制”,方便直接比较谁更强。
  • 便宜又好用:这个测试设计得很轻量,普通人甚至个人开发者花很少的钱(大概 10 美元)就能跑完所有测试,不需要超级计算机。

5. 总结:这对你意味着什么?

这篇论文其实是在告诉我们要**“去魅”**。
以前我们觉得 AI 很厉害,因为它能瞬间生成代码。但 TML-bench 告诉我们:真正的厉害,是在有限的时间里,不依赖运气、不依赖作弊,稳定可靠地解决问题。

这就好比:

  • 以前的测试:看谁能在 10 秒内蒙对一道数学题。
  • TML-bench:看谁能在 20 分钟内,不查书、不偷看,连续做对 5 道不同的应用题,而且每次都能保证及格。

一句话总结:TML-bench 是 AI 数据科学能力的“压力测试”,它不奖励“运气王”,只奖励“实力派”和“稳定派”。