TML-Bench: Benchmark for Data Science Agents on Tabular ML Tasks

Each language version is independently generated for its own context, not a direct translation.

🍳 TML-bench: AI 요리사들의 '실전 요리 대회'

1. 배경: 왜 이 대회가 필요한가요?

지금까지 AI 코딩 모델들은 "이 문제를 풀어봐"라고 하나씩 던져주면 아주 잘 풀었습니다. 하지만 현실 세계에서는 시간 제한이 있고, 한 번만 잘하는 게 아니라 매번 잘해야 하며, 실수 없이 결과물을 제출해야 합니다.

이 논문은 AI들이 Kaggle(데이터 과학 경진대회) 같은 곳에서 실제 데이터를 가지고 얼마나 잘 요리하는지, 그리고 시간이 부족할 때도 당황하지 않고 요리를 끝낼 수 있는지 테스트했습니다.

2. 실험 방식: 어떻게 대회를 치렀나요?

이 대회는 매우 엄격하고 공정하게 진행되었습니다.

4 가지 미션 (요리 종목): 4 개의 서로 다른 데이터 요리 과제 (예: 은행 고객 이탈 예측, 발걸음 수 예측 등) 를 준비했습니다.
3 가지 시간 제한 (시간 제한):
- 240 초 (4 분): "초고속 요리" (재빨리 기본 요리를 해야 함)
- 600 초 (10 분): "일반 요리"
- 1200 초 (20 분): "정성 요리" (시간이 좀 더 주어짐)
5 번의 도전: 각 AI 는 같은 과제를 5 번씩 반복했습니다. 운 좋게 한 번만 잘하는 게 아니라, 5 번 중 3 번 이상 꾸준히 잘해야 진짜 실력자로 인정받습니다.
엄격한 규칙:
- 인터넷 차단: AI 는 요리하는 동안 인터넷을 쓸 수 없습니다. (다른 사람의 레시피를 훔쳐볼 수 없음)
- 비밀 점수: AI 는 자신의 요리를 평가받을 때, 정답을 모른 채로 점수를 받습니다. (AI 가 정답을 미리 알면 안 됨)

3. 주요 결과: 누가 이겼나요?

10 개의 오픈소스 AI 모델이 참가했는데, 결과는 다음과 같습니다.

🏆 최강자: MiniMax-M2.1-TEE
- 이 모델이 4 개 종목 모두에서 가장 좋은 평균 점수를 받았습니다.
- 단순히 한 번 잘한 게 아니라, 시간이 걸리든 짧든 꾸준히 좋은 결과를 냈습니다.
⏱️ 시간이 많을수록 잘해요:
- 대부분의 AI 는 시간이 4 분에서 20 분으로 늘어나면 요리 실력이 좋아졌습니다. 하지만 어떤 AI 는 시간이 늘어도 별 차이가 없었습니다.
🎲 실력 편차:
- 어떤 AI 는 5 번 요리할 때마다 맛이 일정했지만, 어떤 AI 는 5 번 중 2 번은 실패하거나 맛이 너무 달랐습니다. 이 논문은 **"일관성"**을 매우 중요하게 평가했습니다.

4. 이 연구의 핵심 메시지 (왜 중요한가요?)

이 논문은 AI 에게 **"한 번의 행운"**을 묻지 않습니다.

신뢰성 (Reliability): "운 좋게 한 번 잘하는 AI"보다는 "매번 실패 없이 잘하는 AI"가 현실에서 더 쓸모 있습니다.
공정한 비교: 모든 AI 에게 같은 시간, 같은 지시사항을 주어 공평하게 비교했습니다.
실제 적용: 이 실험은 AI 가 실제로 업무에 투입될 때, 시간이 부족하거나 데이터가 복잡해도 안정적으로 일할 수 있는지를 미리 확인하는 '안전 테스트' 역할을 합니다.

📝 한 줄 요약

"이 논문은 AI 요리사들이 시간 제한 속에서도 5 번 연속으로 실패 없이 맛있는 요리를 만들어낼 수 있는지, 그 '실전 능력'과 '신뢰도'를 엄격하게 테스트한 보고서입니다. 그리고 그중에서 MiniMax-M2.1-TEE 가 가장 꾸준한 실력자였습니다."

이 실험은 앞으로 AI 를 업무에 쓸 때, "한 번 잘하면 끝"이 아니라 **"언제나 믿고 맡길 수 있는가"**를 판단하는 기준이 될 것입니다.

TML-Bench: Benchmark for Data Science Agents on Tabular ML Tasks

🍳 TML-bench: AI 요리사들의 '실전 요리 대회'

1. 배경: 왜 이 대회가 필요한가요?

2. 실험 방식: 어떻게 대회를 치렀나요?

3. 주요 결과: 누가 이겼나요?

4. 이 연구의 핵심 메시지 (왜 중요한가요?)

📝 한 줄 요약

1. 연구 배경 및 문제 정의 (Problem)

2. 방법론 (Methodology)

2.1 벤치마크 구성 (Suite & Protocol)

2.2 오염 방지 및 통제 (Contamination Controls)

2.3 평가 환경 및 도구

3. 주요 기여 (Key Contributions)

4. 주요 결과 (Results)

4.1 종합 성능 (Aggregate Performance)

4.2 신뢰성 및 안정성 (Reliability & Stability)

4.3 확장성 (Scaling)

5. 의의 및 한계 (Significance & Limitations)

의의

한계

결론

TML-Bench: Benchmark for Data Science Agents on Tabular ML Tasks

🍳 TML-bench: AI 요리사들의 '실전 요리 대회'

1. 배경: 왜 이 대회가 필요한가요?

2. 실험 방식: 어떻게 대회를 치렀나요?

3. 주요 결과: 누가 이겼나요?

4. 이 연구의 핵심 메시지 (왜 중요한가요?)

📝 한 줄 요약

1. 연구 배경 및 문제 정의 (Problem)

2. 방법론 (Methodology)

2.1 벤치마크 구성 (Suite & Protocol)

2.2 오염 방지 및 통제 (Contamination Controls)

2.3 평가 환경 및 도구

3. 주요 기여 (Key Contributions)

4. 주요 결과 (Results)

4.1 종합 성능 (Aggregate Performance)

4.2 신뢰성 및 안정성 (Reliability & Stability)

4.3 확장성 (Scaling)

5. 의의 및 한계 (Significance & Limitations)

의의

한계

결론

유사한 논문

DualDynamics: Synergizing Implicit and Explicit Methods for Robust Irregular Time Series Analysis

Robot Collapse: Supply Chain Backdoor Attacks Against VLM-based Robotic Manipulation

ExGes: Expressive Human Motion Retrieval and Modulation for Audio-Driven Gesture Synthesis

SafePLUG: Empowering Multimodal LLMs with Pixel-Level Insight and Temporal Grounding for Traffic Accident Understanding

Advanced Assistance for Traffic Crash Analysis: An AI-Driven Multi-Agent Approach to Pre-Crash Reconstruction