Story Point Estimation Using Large Language Models

본 논문은 대규모 언어 모델 (LLM) 이 학습 데이터 없이도 기존 지도 학습 모델보다 우수한 스토리 포인트 예측 성능을 보이며, 소량의 학습 데이터나 비교 판단을 활용한 프롬프팅을 통해 성능을 더욱 향상시킬 수 있음을 16 개 소프트웨어 프로젝트를 통한 실증 연구로 입증했습니다.

Pranam Prakash Shetty, Adarsh Balakrishnan, Mengqiao Xu, Xiaoyin Xi, Zhe Yu

게시일 Mon, 09 Ma
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🚀 소프트웨어 개발의 '예측'을 AI 가 대신한다?

(LLM 을 활용한 스토리 포인트 추정 연구 요약)

이 논문은 소프트웨어 개발 팀이 **"이번 작업이 얼마나 힘들까?"**를 예측하는 과정을 인공지능 (AI) 이 어떻게 도와줄 수 있는지 연구한 내용입니다.

기존에는 개발자들이 모여 "이 작업은 5 점, 저 작업은 8 점"이라고 점수를 매기는데 (이걸 '스토리 포인트'라고 해요), 이 과정이 너무 주관적이고 시간이 많이 걸린다는 문제가 있었습니다. 그래서 연구진들은 **거대 언어 모델 (LLM, 예: 챗봇 AI)**이 이 일을 대신할 수 있는지, 그리고 데이터가 거의 없어도 가능한지 실험해 보았습니다.


🧩 핵심 비유: "요리사 vs AI"

소프트웨어 개발 팀을 요리사들이라고 상상해 보세요.

  • 기존 방식 (사람들): "이 요리는 30 분 걸릴 거야, 저건 2 시간 걸릴 거야."라고 경험 많은 요리사들이 모여서 점수를 매깁니다. 하지만 요리사마다 감각이 다르고, 새로운 팀이 생기면 처음부터 다시 배워야 합니다.
  • 이 연구의 방식 (AI): AI 요리사가 레시피 (작업 설명) 만 보고 "이건 30 분, 저건 2 시간"이라고 바로 예측해 줍니다.

🔍 4 가지 주요 실험 (질문과 답변)

연구진은 AI 에게 네 가지 질문을 던졌습니다.

1. "데이터 하나도 없는데 AI 가 점수를 맞출 수 있을까?" (Zero-shot)

  • 상황: AI 에게 "이 프로젝트의 작업 설명만 보고 점수를 매겨봐. 아무런 예시도 안 줬어."라고 했습니다.
  • 결과: 놀랍게도 AI 는 아무것도 가르치지 않았는데도 기존에 80% 데이터를 학습한 전통적인 AI 모델보다 더 잘 맞췄습니다!
  • 비유: 마치 요리 책만 한 번 보고도 "이 요리는 30 분 걸리겠네"라고 대략적인 시간을 맞춰내는 천재 요리사 같은 거죠. 특히 'Kimi'와 'DeepSeek'이라는 AI 가 가장 잘했습니다.

2. "작은 예시 5 개만 주면 더 잘할까?" (Few-shot)

  • 상황: "이 프로젝트의 작업 5 개와 그 점수만 보여줄게. 나머지는 이걸 참고해서 맞춰봐."라고 했습니다.
  • 결과: 예시를 5 개만 줬을 때 AI 의 성능이 대폭 향상되었습니다.
  • 중요한 발견: 예시를 고르는 방법이 중요했습니다.
    • 잘못된 방법: 가장 많이 나오는 점수 (예: 3 점) 위주로 예시를 줌.
    • 잘된 방법: 작은 것부터 큰 것까지 골고루 예시를 줌 (Scale-aware).
    • 비유: 요리 시간을 가르칠 때 "30 분짜리 요리 5 개만 보여줘"라고 하면 AI 는 "아, 다 30 분인가?"라고 오해합니다. 하지만 "5 분짜리, 30 분짜리, 2 시간짜리"를 골고루 보여주면 AI 가 **규모감 (Scale)**을 제대로 익힙니다.

3. "비교하는 게 더 쉬울까? (A 는 B 보다 힘들다 vs A 는 5 점이다)"

  • 상황: 사람에게는 "이게 저보다 더 힘들어?"라고 물으면 쉽게 답하지만, "이게 몇 점이야?"라고 물으면 고민이 많습니다. AI 도 마찬가지일까?
  • 결과: 아닙니다! AI 는 사람과 다릅니다.
    • 사람: 비교 (A vs B) 가 더 쉬움.
    • AI: 직접 점수를 매기는 게 더 정확함.
    • 비유: AI 는 "이 요리가 저 요리보다 더 힘들다"라고 비교하는 것보다, 직접 "30 분이다"라고 숫자를 떠올리는 방식으로 생각하는 것 같습니다.

4. "비교 예시 (A 는 B 보다 힘들다) 를 주면 AI 가 점수를 잘 맞출까?"

  • 상황: 점수 대신 "A 작업이 B 작업보다 더 힘들다"라는 비교 예시 5 개만 줘봤습니다.
  • 결과: 성공! 점수 예시를 줘서도 좋지만, 비교 예시를 줘도 AI 가 점수를 잘 맞췄습니다.
  • 의미: 개발자들이 "이게 저보다 더 힘들다"라고만 말해도 (점수 매기는 수고를 덜고), AI 가 그걸로 점수를 잘 예측할 수 있다는 뜻입니다. 특히 'Gemini'라는 AI 는 점수 예시보다 비교 예시로 더 잘 작동했습니다.

💡 이 연구가 우리에게 주는 교훈

  1. 데이터가 없어도 OK: 새로운 프로젝트가 생겼을 때, 과거 데이터를 모으느라 기다릴 필요 없이 AI 가 바로 "이건 5 점, 저건 8 점"이라고 예측해 줄 수 있습니다.
  2. 적은 데이터로도 충분: 개발자가 점수 5 개만 알려주면 AI 가 그 프로젝트의 '분위기'를 빠르게 파악합니다.
  3. 사람과 AI 는 다름: 사람에게 쉬운 '비교' 방식이 AI 에게는 항상 쉬운 게 아닙니다. 하지만 AI 는 그 비교 정보를 잘 활용해서 점수를 예측할 수 있습니다.
  4. 현실적인 적용: 팀원들이 "이거 저거보다 더 힘들어"라고만 말해도, AI 가 그걸로 스토리 포인트를 자동으로 계산해 줄 수 있는 시스템이 가능해졌습니다.

🏁 결론

이 연구는 **"AI 가 개발 팀의 작업량을 예측하는 데 매우 유망하다"**는 것을 보여줍니다. 특히 데이터가 부족하거나 새로운 팀이 생겼을 때, AI 를 활용하면 시간과 노력을 크게 아낄 수 있습니다. 마치 경험 많은 요리사가 아니라, 레시피만 보고도 시간을 정확히 예측해 주는 초능력의 AI 비서가 팀에 합류한 것과 같습니다.