TML-Bench: Benchmark for Data Science Agents on Tabular ML Tasks

이 논문은 Kaggle 스타일의 Tabular ML 태스크에 대한 자율 코딩 에이전트의 성능을 평가하기 위해 TML-Bench 벤치마크를 제안하고, 다양한 오픈소스 LLM 모델에 대해 시간 제한과 반복 실행 조건 하에서의 성공률 및 성능 변이성을 분석했습니다.

Mykola Pinchuk

게시일 2026-03-09
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🍳 TML-bench: AI 요리사들의 '실전 요리 대회'

1. 배경: 왜 이 대회가 필요한가요?

지금까지 AI 코딩 모델들은 "이 문제를 풀어봐"라고 하나씩 던져주면 아주 잘 풀었습니다. 하지만 현실 세계에서는 시간 제한이 있고, 한 번만 잘하는 게 아니라 매번 잘해야 하며, 실수 없이 결과물을 제출해야 합니다.

이 논문은 AI들이 Kaggle(데이터 과학 경진대회) 같은 곳에서 실제 데이터를 가지고 얼마나 잘 요리하는지, 그리고 시간이 부족할 때도 당황하지 않고 요리를 끝낼 수 있는지 테스트했습니다.

2. 실험 방식: 어떻게 대회를 치렀나요?

이 대회는 매우 엄격하고 공정하게 진행되었습니다.

  • 4 가지 미션 (요리 종목): 4 개의 서로 다른 데이터 요리 과제 (예: 은행 고객 이탈 예측, 발걸음 수 예측 등) 를 준비했습니다.
  • 3 가지 시간 제한 (시간 제한):
    • 240 초 (4 분): "초고속 요리" (재빨리 기본 요리를 해야 함)
    • 600 초 (10 분): "일반 요리"
    • 1200 초 (20 분): "정성 요리" (시간이 좀 더 주어짐)
  • 5 번의 도전: 각 AI 는 같은 과제를 5 번씩 반복했습니다. 운 좋게 한 번만 잘하는 게 아니라, 5 번 중 3 번 이상 꾸준히 잘해야 진짜 실력자로 인정받습니다.
  • 엄격한 규칙:
    • 인터넷 차단: AI 는 요리하는 동안 인터넷을 쓸 수 없습니다. (다른 사람의 레시피를 훔쳐볼 수 없음)
    • 비밀 점수: AI 는 자신의 요리를 평가받을 때, 정답을 모른 채로 점수를 받습니다. (AI 가 정답을 미리 알면 안 됨)

3. 주요 결과: 누가 이겼나요?

10 개의 오픈소스 AI 모델이 참가했는데, 결과는 다음과 같습니다.

  • 🏆 최강자: MiniMax-M2.1-TEE
    • 이 모델이 4 개 종목 모두에서 가장 좋은 평균 점수를 받았습니다.
    • 단순히 한 번 잘한 게 아니라, 시간이 걸리든 짧든 꾸준히 좋은 결과를 냈습니다.
  • ⏱️ 시간이 많을수록 잘해요:
    • 대부분의 AI 는 시간이 4 분에서 20 분으로 늘어나면 요리 실력이 좋아졌습니다. 하지만 어떤 AI 는 시간이 늘어도 별 차이가 없었습니다.
  • 🎲 실력 편차:
    • 어떤 AI 는 5 번 요리할 때마다 맛이 일정했지만, 어떤 AI 는 5 번 중 2 번은 실패하거나 맛이 너무 달랐습니다. 이 논문은 **"일관성"**을 매우 중요하게 평가했습니다.

4. 이 연구의 핵심 메시지 (왜 중요한가요?)

이 논문은 AI 에게 **"한 번의 행운"**을 묻지 않습니다.

  • 신뢰성 (Reliability): "운 좋게 한 번 잘하는 AI"보다는 "매번 실패 없이 잘하는 AI"가 현실에서 더 쓸모 있습니다.
  • 공정한 비교: 모든 AI 에게 같은 시간, 같은 지시사항을 주어 공평하게 비교했습니다.
  • 실제 적용: 이 실험은 AI 가 실제로 업무에 투입될 때, 시간이 부족하거나 데이터가 복잡해도 안정적으로 일할 수 있는지를 미리 확인하는 '안전 테스트' 역할을 합니다.

📝 한 줄 요약

"이 논문은 AI 요리사들이 시간 제한 속에서도 5 번 연속으로 실패 없이 맛있는 요리를 만들어낼 수 있는지, 그 '실전 능력'과 '신뢰도'를 엄격하게 테스트한 보고서입니다. 그리고 그중에서 MiniMax-M2.1-TEE 가 가장 꾸준한 실력자였습니다."

이 실험은 앞으로 AI 를 업무에 쓸 때, "한 번 잘하면 끝"이 아니라 **"언제나 믿고 맡길 수 있는가"**를 판단하는 기준이 될 것입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →