Each language version is independently generated for its own context, not a direct translation.

🚀 소프트웨어 개발의 '예측'을 AI 가 대신한다?

(LLM 을 활용한 스토리 포인트 추정 연구 요약)

이 논문은 소프트웨어 개발 팀이 **"이번 작업이 얼마나 힘들까?"**를 예측하는 과정을 인공지능 (AI) 이 어떻게 도와줄 수 있는지 연구한 내용입니다.

기존에는 개발자들이 모여 "이 작업은 5 점, 저 작업은 8 점"이라고 점수를 매기는데 (이걸 '스토리 포인트'라고 해요), 이 과정이 너무 주관적이고 시간이 많이 걸린다는 문제가 있었습니다. 그래서 연구진들은 **거대 언어 모델 (LLM, 예: 챗봇 AI)**이 이 일을 대신할 수 있는지, 그리고 데이터가 거의 없어도 가능한지 실험해 보았습니다.

🧩 핵심 비유: "요리사 vs AI"

소프트웨어 개발 팀을 요리사들이라고 상상해 보세요.

기존 방식 (사람들): "이 요리는 30 분 걸릴 거야, 저건 2 시간 걸릴 거야."라고 경험 많은 요리사들이 모여서 점수를 매깁니다. 하지만 요리사마다 감각이 다르고, 새로운 팀이 생기면 처음부터 다시 배워야 합니다.
이 연구의 방식 (AI): AI 요리사가 레시피 (작업 설명) 만 보고 "이건 30 분, 저건 2 시간"이라고 바로 예측해 줍니다.

🔍 4 가지 주요 실험 (질문과 답변)

연구진은 AI 에게 네 가지 질문을 던졌습니다.

1. "데이터 하나도 없는데 AI 가 점수를 맞출 수 있을까?" (Zero-shot)

상황: AI 에게 "이 프로젝트의 작업 설명만 보고 점수를 매겨봐. 아무런 예시도 안 줬어."라고 했습니다.
결과: 놀랍게도 AI 는 아무것도 가르치지 않았는데도 기존에 80% 데이터를 학습한 전통적인 AI 모델보다 더 잘 맞췄습니다!
비유: 마치 요리 책만 한 번 보고도 "이 요리는 30 분 걸리겠네"라고 대략적인 시간을 맞춰내는 천재 요리사 같은 거죠. 특히 'Kimi'와 'DeepSeek'이라는 AI 가 가장 잘했습니다.

2. "작은 예시 5 개만 주면 더 잘할까?" (Few-shot)

상황: "이 프로젝트의 작업 5 개와 그 점수만 보여줄게. 나머지는 이걸 참고해서 맞춰봐."라고 했습니다.
결과: 예시를 5 개만 줬을 때 AI 의 성능이 대폭 향상되었습니다.
중요한 발견: 예시를 고르는 방법이 중요했습니다.
- 잘못된 방법: 가장 많이 나오는 점수 (예: 3 점) 위주로 예시를 줌.
- 잘된 방법: 작은 것부터 큰 것까지 골고루 예시를 줌 (Scale-aware).
- 비유: 요리 시간을 가르칠 때 "30 분짜리 요리 5 개만 보여줘"라고 하면 AI 는 "아, 다 30 분인가?"라고 오해합니다. 하지만 "5 분짜리, 30 분짜리, 2 시간짜리"를 골고루 보여주면 AI 가 **규모감 (Scale)**을 제대로 익힙니다.

3. "비교하는 게 더 쉬울까? (A 는 B 보다 힘들다 vs A 는 5 점이다)"

상황: 사람에게는 "이게 저보다 더 힘들어?"라고 물으면 쉽게 답하지만, "이게 몇 점이야?"라고 물으면 고민이 많습니다. AI 도 마찬가지일까?
결과: 아닙니다! AI 는 사람과 다릅니다.
- 사람: 비교 (A vs B) 가 더 쉬움.
- AI: 직접 점수를 매기는 게 더 정확함.
- 비유: AI 는 "이 요리가 저 요리보다 더 힘들다"라고 비교하는 것보다, 직접 "30 분이다"라고 숫자를 떠올리는 방식으로 생각하는 것 같습니다.

4. "비교 예시 (A 는 B 보다 힘들다) 를 주면 AI 가 점수를 잘 맞출까?"

상황: 점수 대신 "A 작업이 B 작업보다 더 힘들다"라는 비교 예시 5 개만 줘봤습니다.
결과: 성공! 점수 예시를 줘서도 좋지만, 비교 예시를 줘도 AI 가 점수를 잘 맞췄습니다.
의미: 개발자들이 "이게 저보다 더 힘들다"라고만 말해도 (점수 매기는 수고를 덜고), AI 가 그걸로 점수를 잘 예측할 수 있다는 뜻입니다. 특히 'Gemini'라는 AI 는 점수 예시보다 비교 예시로 더 잘 작동했습니다.

💡 이 연구가 우리에게 주는 교훈

데이터가 없어도 OK: 새로운 프로젝트가 생겼을 때, 과거 데이터를 모으느라 기다릴 필요 없이 AI 가 바로 "이건 5 점, 저건 8 점"이라고 예측해 줄 수 있습니다.
적은 데이터로도 충분: 개발자가 점수 5 개만 알려주면 AI 가 그 프로젝트의 '분위기'를 빠르게 파악합니다.
사람과 AI 는 다름: 사람에게 쉬운 '비교' 방식이 AI 에게는 항상 쉬운 게 아닙니다. 하지만 AI 는 그 비교 정보를 잘 활용해서 점수를 예측할 수 있습니다.
현실적인 적용: 팀원들이 "이거 저거보다 더 힘들어"라고만 말해도, AI 가 그걸로 스토리 포인트를 자동으로 계산해 줄 수 있는 시스템이 가능해졌습니다.

🏁 결론

이 연구는 **"AI 가 개발 팀의 작업량을 예측하는 데 매우 유망하다"**는 것을 보여줍니다. 특히 데이터가 부족하거나 새로운 팀이 생겼을 때, AI 를 활용하면 시간과 노력을 크게 아낄 수 있습니다. 마치 경험 많은 요리사가 아니라, 레시피만 보고도 시간을 정확히 예측해 주는 초능력의 AI 비서가 팀에 합류한 것과 같습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

배경: 애자일 (Agile) 소프트웨어 개발에서 '스토리 포인트 (Story Point)'는 스프린트 계획 및 백로그 우선순위 설정을 위한 핵심적인 노력 추정 단위입니다. 전통적으로 이는 Planning Poker 등의 기법을 통해 개발자 팀의 주관적 합의 과정을 거쳐 결정됩니다.
기존 접근법의 한계:
- 지도 학습 모델의 제약: 기존 머신러닝 (딥러닝) 기반 자동 추정 모델은 특정 프로젝트의 방대한 양의 레이블이 지정된 학습 데이터 (실제 스토리 포인트가 할당된 히스토리) 가 필요합니다.
- 데이터 부족 및 일반화 문제: 새로운 프로젝트 (Cold-start) 나 데이터가 부족한 상황에서는 모델 학습이 불가능하며, 프로젝트 간 도메인 차이로 인해 모델의 일반화 성능이 떨어집니다.
- 인지 부하: 개발자가 직접 스토리 포인트를 할당하는 과정은 주관적이고 시간이 많이 소요됩니다.
연구 목표: 대규모 언어 모델 (LLM) 이 학습 데이터 없이 (Zero-shot) 또는 소량의 데이터만 (Few-shot) 사용하여 스토리 포인트를 얼마나 정확하게 추정할 수 있는지, 그리고 비교적 판단 (Comparative Judgments, A 와 B 중 무엇이 더 많은 노력이 필요한가?) 이 절대적 수치 추정보다 LLM 에게 더 쉬운지, 그리고 이를 Few-shot 예제로 활용할 수 있는지 검증하는 것입니다.

2. 연구 방법론 (Methodology)

데이터셋: Choetkiertikul et al. [3] 이 제안한 16 개의 실제 소프트웨어 프로젝트 (JIRA 백로그 데이터) 를 사용했습니다. 각 항목의 제목과 설명을 입력으로, 할당된 스토리 포인트를 정답으로 사용했습니다.
사용된 모델: 4 가지 상용/오픈 소스 LLM 을 평가했습니다.
- DeepSeek-V3.2, Kimi (Moonshot K2), Gemini Flash Lite, OpenAI GPT-5 Nano.
실험 설계 (4 가지 연구 질문, RQ):
- RQ1 (Zero-shot): 학습 데이터 없이 LLM 이 스토리 포인트를 직접 추정할 수 있는가?
  - 방법: 입력 (제목/설명) 만 제공하고 출력 (수치) 을 요청하는 프롬프트 사용.
  - 비교: 80% 학습 데이터로 훈련된 기존 딥러닝 모델 (Regression, Comparative) 과 성능 비교.
- RQ2 (Few-shot with Absolute Labels): 소량의 레이블된 예시 (스토리 포인트 값) 를 제공하면 성능이 향상되는가?
  - 전략: 5 개의 예시 선택 방식 비교.
    - Count-based: 빈도가 높은 스토리 포인트 값 위주 선택.
    - Scale-aware: 프로젝트의 최소/최대 범위 전체를 균등하게 커버하도록 선택.
- RQ3 (Comparative Judgment Difficulty): LLM 에게 스토리 포인트 직접 추정보다 '비교적 판단 (A vs B)'을 하는 것이 더 쉬운가?
  - 방법: 두 항목 중 어느 것이 더 높은 스토리 포인트를 가지는지 (1 또는 -1) 를 예측하게 함.
- RQ4 (Few-shot with Comparative Judgments): 소량의 '비교적 판단' 예시를 Few-shot 으로 제공하면 스토리 포인트 추정 성능이 향상되는가?
  - 방법: 비교 판단 결과 (A>B) 를 예시로 제공하고, 새로운 항목의 스토리 포인트를 추정하게 함.
평가 지표: 피어슨 상관계수 ( $\rho$ , 선형 관계) 와 스피어만 순위 상관계수 ( $r_s$ , 순위 일치도).

3. 주요 결과 (Key Results)

RQ1 결과 (Zero-shot 성능):
- 놀라운 성능: 학습 데이터가 전혀 없는 Zero-shot 설정에서도 Kimi와 DeepSeek 모델은 80% 데이터로 훈련된 기존 최첨단 딥러닝 모델보다 더 높은 성능 ( $\rho$ 및 $r_s$ ) 을 보였습니다.
- 순위 예측 우수성: LLM 은 절대적인 수치보다는 항목 간의 **상대적 순위 (Rank)**를 예측하는 데 매우 탁월했습니다.
RQ2 결과 (Few-shot with Labels):
- 성능 향상: 소량의 예시 (5 개) 를 제공하는 것만으로도 모든 LLM 의 평균 성능이 Zero-shot 대비 크게 향상되었습니다.
- 전략 비교: Scale-aware(범위 전체를 커버하는) 전략이 Count-based(빈도 중심) 전략보다 전반적으로 더 좋은 성능을 보였습니다. 이는 모델이 프로젝트별 스토리 포인트 스케일을 보정 (Calibrate) 하는 데 필수적입니다.
RQ3 결과 (비교적 판단의 난이도):
- 인간과 다른 LLM 의 특성: 인간은 절대적 추정보다 비교적 판단이 쉽다는 기존 연구와 달리, LLM 은 직접적인 스토리 포인트 추정이 비교적 판단보다 더 정확했습니다.
- 원인: LLM 은 내부적으로 잠재된 수치적 표현 (Latent numerical representation) 을 사용하여 추론하는 것으로 보이며, 명시적인 비교 지시를 받으면 오히려 성능이 저하될 수 있습니다.
RQ4 결과 (비교적 판단을 Few-shot 으로 활용):
- 유효한 보정 신호: 비교적 판단 예시를 Few-shot 으로 제공하면 Zero-shot 대비 성능이 향상되었습니다.
- 모델 의존성:
  - DeepSeek, Kimi: 직접적인 수치 레이블 (Absolute) 이 포함된 Few-shot 이 더 성능이 좋았습니다.
  - Gemini Flash Lite: 직접적인 수치 레이블보다 비교적 판단 (Comparative) 예시를 Few-shot 으로 사용하는 것이 더 높은 성능을 보였습니다. 이는 상대적으로 성능이 낮은 모델에게는 비교적 신호가 더 효과적인 보정 도구임을 시사합니다.

4. 주요 기여 및 의의 (Contributions & Significance)

데이터 부족 환경에서의 실용적 솔루션: LLM 은 레이블된 학습 데이터 없이도 (Zero-shot) 또는 소량의 데이터만으로도 (Few-shot) 기존 지도 학습 모델보다 우수한 스토리 포인트 추정이 가능함을 입증했습니다. 이는 새로운 프로젝트나 데이터가 부족한 애자일 팀에 혁신적인 대안을 제시합니다.
LLM 의 의사결정 메커니즘에 대한 통찰: 인간은 비교적 판단이 쉽지만, LLM 은 절대적 수치 추정을 통해 내재된 순위를 더 잘 파악한다는 점을 발견했습니다. 이는 LLM 과 인간의 인지 과정이 근본적으로 다름을 보여줍니다.
효율적인 Few-shot 전략 제안:
- Scale-aware 전략: 소량의 예시라도 프로젝트의 전체 스토리 포인트 범위를 아우르는 것이 성능 향상에 필수적입니다.
- 모델별 최적화 전략: 고성능 모델 (DeepSeek, Kimi) 은 직접적인 수치 예시가, 경량/제한된 모델 (Gemini) 은 비교적 판단 예시가 더 효과적입니다.
인지 부하 감소 가능성: 비교적 판단은 인간에게도 인지 부하가 적고, 이를 LLM 의 Few-shot 예제로 활용하면 (특히 Gemini 와 같은 모델에서) 레이블링 비용을 줄이면서 높은 정확도를 얻을 수 있는 가능성을 열었습니다.

5. 결론 및 향후 과제

이 연구는 LLM 이 애자일 노력 추정에 매우 유망한 도구임을 입증했습니다. 특히 Zero-shot 환경에서도 경쟁력 있는 성능을 보이며, Few-shot을 통해 프로젝트 특성에 맞춰 성능을 극대화할 수 있음을 보여주었습니다.

향후 연구 방향:

개발자 코멘트, 수락 기준 (Acceptance Criteria), PR 히스토리 등 추가 컨텍스트 정보 통합.
인간 - LLM 협업 (Human-in-the-loop) 워크플로우 구축 (인간이 비교적 판단을 제공하고 LLM 이 이를 학습하여 추론).
Chain-of-Thought (CoT) 프롬프팅을 통한 추론 과정 명확화.
더 많은 학습 데이터와 파인튜닝 (Supervised Fine-tuning, Reinforcement Learning) 을 통한 성능 추가 검증.

이 논문은 소프트웨어 공학 분야에서 LLM 의 적용 가능성을 넓히고, 데이터가 부족한 환경에서도 고품질의 노력 추정이 가능함을 시사하는 중요한 연구입니다.

Story Point Estimation Using Large Language Models