Can ChatGPT Generate Realistic Synthetic System Requirement Specifications? Results of a Case Study

이 논문은 ChatGPT 를 활용해 실제 시스템 요구사항 명세서 (SyRS) 에 접근하지 않고도 10 개 산업 분야에서 300 개의 합성 명세서를 생성한 탐색적 연구 결과를 바탕으로, 생성된 명세서가 전문가 평가에서 62% 의 현실성을 보였으나 모순과 결함이 발견되어 LLM 기반 품질 평가는 전문가 평가를 완전히 대체할 수 없음을 시사합니다.

Alex R. Mattukat, Florian M. Braun, Horst Lichter

게시일 Wed, 11 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🍳 1. 연구의 배경: 왜 이 실험을 했을까?

소프트웨어를 만들 때는 **'요구사항 명세서 (SyRS)'**라는 매우 중요한 문서가 필요합니다. 이 문서에는 "이 시스템은 무엇을 해야 하고, 어떻게 작동해야 하며, 어떤 제한이 있는지"가 자세히 적혀 있습니다. 마치 **고급 레스토랑의 '레시피'나 '메뉴 구성 계획서'**와 같습니다.

하지만 문제는 이 '실제 레시피'를 연구 목적으로 구하기가 매우 어렵다는 것입니다. 기업 비밀이거나, 기밀 사항이라서 공개되지 않기 때문입니다. 그래서 연구자들은 **"인공지능 (ChatGPT) 이 이 레시피를 직접 만들어주면 어떨까?"**라고 생각했습니다.

🤖 2. 실험 방법: AI 요리사에게 시키기

연구진은 ChatGPT 를 **'요리사 (AI)'**로 고용하고, 10 가지 다른 산업 분야 (쇼핑, 교육, 금융, 의료 등) 에 맞는 가상의 레시피 300 개를 만들어달라고 요청했습니다.

  • 전략: 실제 레시피를 보여주지 않고, "이런 스타일의 레시피를 만들어줘"라고 지시만 했습니다 (프롬프트 엔지니어링).
  • 검수 과정: AI 가 만든 레시피가 완벽한지 확인하기 위해, 또 다른 AI 를 '심사위원'으로 세웠습니다. "이 레시피에 빠진 재료가 있나?", "이게 진짜 레시피처럼 보이는가?"를 점수로 매기게 했습니다.
  • 반복: 처음엔 맛이 이상한 레시피도 나왔지만, 심사위원의 피드백을 AI 요리사에게 알려주며 10 번에 걸쳐 레시피를 다듬었습니다.

📊 3. 연구 결과: AI 가 만든 레시피는 어땠나?

연구진은 300 개의 AI 생성 레시피를 **실제 요리 전문가 (소프트웨어 엔지니어 87 명)**에게 보여주고 평가를 받았습니다.

✅ 좋은 점 (성공)

  • 겉보기엔 완벽함: 전문가들의 62% 가 "이거 진짜 레시피네, 꽤 그럴싸하다"고 평가했습니다.
  • 구조는 훌륭함: AI 는 레시피의 형식 (재료 목록, 조리 순서, 주의사항 등) 을 아주 잘 따라했습니다. 마치 요리책의 페이지 디자인과 글자 배열은 완벽하게 본떠낸 것 같습니다.

❌ 나쁜 점 (실패)

  • 속은 비어있거나 모순됨: 자세히 들여다보면 문제가 있었습니다.
    • 할루시네이션 (환각): AI 는 없는 재료를 마치 있는 것처럼 confidently(확신에 차서) 적어냈습니다. (예: "이 요리는 2050 년에 개발된 특수 소스를 사용해야 합니다"라고 적어낸 경우)
    • 모순: 앞에서는 "소금기 없는 요리"라고 하고, 뒤에서는 "소금 1kg 을 넣으세요"라고 적어낸 모순이 있었습니다.
    • 너무 막연함: "맛있게 드세요"라고만 적고, 구체적인 조리 시간이나 온도가 빠져있는 경우가 많았습니다.

🤔 가장 중요한 발견: AI 심사위원은 믿을 수 없다?

연구진은 AI 가 스스로 만든 레시피의 점수를 매기게 했더니, 모델에 따라 점수가 천차만별이었습니다. 어떤 AI 는 90 점, 어떤 AI 는 60 점을 줬습니다.

  • 교훈: AI 가 "이거 진짜야!"라고 확신하며 점수를 매겨도, 실제 전문가가 눈으로 꼼꼼히 확인하지 않으면 절대 믿어서 안 됩니다. AI 는 자신이 틀린 것을 모르고, 틀린 말도 자신 있게 하는 경향이 있습니다.

💡 4. 결론: AI 는 '조수'일 뿐, '마스터 셰프'는 아니다

이 연구의 핵심 결론은 다음과 같습니다.

"ChatGPT 는 훌륭한 '초안 작성자'입니다. 하지만 이 초안을 그대로 믿고 쓰면 안 됩니다. 반드시 사람이 (전문가가) 꼼꼼히 검토하고 수정해야만 진짜 쓸모 있는 문서가 됩니다."

  • 비유하자면: AI 는 요리 재료를 대충 섞어 접시에 예쁘게 담아주는 자동 기계입니다. 모양은 예쁘지만, 맛은 없거나 이상할 수 있습니다. 그래서 실제 미식가 (전문가) 가 맛을 보고 "소금 좀 더 넣어야 해", "이 재료는 안 돼"라고 직접 고쳐줘야 진짜 맛있는 요리가 됩니다.

🚀 5. 이 연구가 주는 의미

  • 연구 자료 확보: 실제 기업 문서를 구할 수 없을 때, AI 가 만든 가짜 문서로 초기 연구나 테스트를 하는 것은 가능합니다.
  • 주의 필요: 하지만 AI 가 만든 문서를 그대로 믿고 소프트웨어를 개발하면 큰 사고가 날 수 있습니다. AI 의 '자신감'에 속지 말고, 사람이 최종 확인을 해야 합니다.

한 줄 요약:

"AI 가 만든 요구사항 명세서는 겉보기엔 진짜 같지만, 속은 빈 껍데기일 수 있으니, 반드시 전문가가 맛을 보고 고쳐야 한다!"