TML-Bench: Benchmark for Data Science Agents on Tabular ML Tasks

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 TML-bench 的新测试，专门用来给那些能自动写代码的“人工智能助手”（AI Agents）打分。

想象一下，你雇佣了一群AI 厨师，给他们布置任务：用给定的食材（数据）做出一道完美的菜（机器学习模型），并且要在规定的时间内完成。

TML-bench 就是这场**“限时烹饪大赛”的裁判手册**。

以下是用大白话和比喻对这篇论文核心内容的解读：

1. 为什么要搞这个比赛？（背景）

现在的 AI 很聪明，能很快写出代码。但就像厨师一样，有的 AI 是“运气型”选手——偶尔一次蒙对了，做出一道神菜，但下次可能连火都点不着。

痛点：以前的测试只看 AI 能不能写出代码，或者只挑它最好的一次表现。
TML-bench 的做法：我们要看稳定性和真实性。就像我们评价一个厨师，不能只看他某一次发挥超常，而要看他在不同时间压力下，能不能每次都做出合格的菜。

2. 比赛规则是怎样的？（核心机制）

这场大赛有四个具体的“烹饪题目”（Kaggle 竞赛），每个题目给 AI 三个不同的时间预算：

240 秒（4 分钟）：像“快餐挑战”，看 AI 能不能快速出活。
600 秒（10 分钟）：像“家常便饭”，给点时间慢慢做。
1200 秒（20 分钟）：像“精致大餐”，允许 AI 反复尝试、优化。

关键规则：

盲测：AI 做出来的菜，裁判（人类或隐藏数据）会尝一口，但 AI 自己尝不到味道（看不到最终得分），防止它作弊或过度调整。
断网：比赛期间，AI 不能上网查答案，必须靠自己的“大脑”（预训练知识）和现场发挥。
五局三胜（其实是五局取中）：每个题目，每个 AI 要跑5 次。我们不看它最好的一次，也不看最差的一次，而是看中间那次（中位数）的表现。这就像考试，去掉一个最高分和一个最低分，取中间值，最公平。

3. 谁赢了？（主要发现）

在 10 个开源的 AI 模型中，MiniMax-M2.1-TEE 表现最稳，拿到了“总冠军”。

时间越久，通常越好：就像做饭，给的时间越长，菜通常越好吃。大部分 AI 在 20 分钟（1200 秒）的表现都比 4 分钟要好。
有的 AI 是“慢热型”：有些模型在时间增加时进步巨大，而有些模型给再多时间也差不多，甚至因为想太多反而翻车了。
稳定性很重要：有些模型虽然偶尔能拿第一，但经常“翻车”（跑不出结果或结果很差）。TML-bench 特别看重谁能每次都稳定发挥。

4. 这个测试有什么特别之处？（创新点）

像“审计”一样严格：以前的测试可能允许 AI 上网搜题，或者只看它一次成功的运气。TML-bench 把 AI 关在“小黑屋”（断网），并且要求它必须在规定时间内，连续 5 次都成功做出菜来，才算数。
统一评分标准：不同的题目，有的分数越高越好（比如 AUC），有的分数越低越好（比如 RMSE）。这个测试把大家的成绩都换算成统一的“百分制”，方便直接比较谁更强。
便宜又好用：这个测试设计得很轻量，普通人甚至个人开发者花很少的钱（大概 10 美元）就能跑完所有测试，不需要超级计算机。

5. 总结：这对你意味着什么？

这篇论文其实是在告诉我们要**“去魅”**。
以前我们觉得 AI 很厉害，因为它能瞬间生成代码。但 TML-bench 告诉我们：真正的厉害，是在有限的时间里，不依赖运气、不依赖作弊，稳定可靠地解决问题。

这就好比：

以前的测试：看谁能在 10 秒内蒙对一道数学题。
TML-bench：看谁能在 20 分钟内，不查书、不偷看，连续做对 5 道不同的应用题，而且每次都能保证及格。

一句话总结：TML-bench 是 AI 数据科学能力的“压力测试”，它不奖励“运气王”，只奖励“实力派”和“稳定派”。

TML-Bench: Benchmark for Data Science Agents on Tabular ML Tasks

1. 为什么要搞这个比赛？（背景）

2. 比赛规则是怎样的？（核心机制）

3. 谁赢了？（主要发现）

4. 这个测试有什么特别之处？（创新点）

5. 总结：这对你意味着什么？

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 基准套件与评估网格

2.2 执行环境与防污染控制

2.3 指标与聚合方法

3. 主要贡献 (Key Contributions)

4. 实验结果 (Results)

4.1 总体性能

4.2 可靠性与稳定性

4.3 具体任务亮点

5. 意义与局限性 (Significance & Limitations)

意义

局限性

总结

TML-Bench: Benchmark for Data Science Agents on Tabular ML Tasks

1. 为什么要搞这个比赛？（背景）

2. 比赛规则是怎样的？（核心机制）

3. 谁赢了？（主要发现）

4. 这个测试有什么特别之处？（创新点）

5. 总结：这对你意味着什么？

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 基准套件与评估网格

2.2 执行环境与防污染控制

2.3 指标与聚合方法

3. 主要贡献 (Key Contributions)

4. 实验结果 (Results)

4.1 总体性能

4.2 可靠性与稳定性

4.3 具体任务亮点

5. 意义与局限性 (Significance & Limitations)

意义

局限性

总结

类似论文

When both Grounding and not Grounding are Bad -- A Partially Grounded Encoding of Planning into SAT (Extended Version)

Teaching an Agent to Sketch One Part at a Time

Learning to Disprove: Formal Counterexample Generation with Large Language Models

ItinBench: Benchmarking Planning Across Multiple Cognitive Dimensions with Large Language Models

PA2D-MORL: Pareto Ascent Directional Decomposition based Multi-Objective Reinforcement Learning