From Law to Gherkin: A Human-Centred Quasi-Experiment on the Quality of LLM-Generated Behavioural Specifications from Food-Safety Regulations

이 연구는 식품 안전 규정을 기반으로 Claude 와 Llama 를 활용해 생성된 Gherkin 행동 명세서의 품질을 평가한 결과, 높은 관련성과 명확성을 보였으나 환각 및 누락 가능성이 있어 안전-중요 분야에서 여전히 체계적인 인간 검토가 필요함을 밝혔습니다.

Shabnam Hassani, Mehrdad Sabetzadeh, Daniel Amyot

게시일 Thu, 12 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 상황: "법률"은 너무 어렵고 "요리"는 너무 정확해야 해요

  • 법률 (규정): "계란은 20 도에서 측정해야 한다" 같은 법 조항은 매우 딱딱하고 추상적입니다. 마치 "맛있는 요리를 하세요"라고만 말하고 구체적인 레시피를 주지 않는 것과 같아요.
  • 소프트웨어 (요리): 개발자들은 이 법을 지키기 위해 프로그램을 만들어야 합니다. 하지만 "맛있게 하세요"라는 말만 듣고는 정확한 레시피를 만들 수 없죠.
  • 기존 방식: 사람이 직접 이 복잡한 법을 읽고, 컴퓨터가 이해할 수 있는 단계별 레시피 (Gherkin 이라는 언어) 를 하나하나 손으로 작성해야 했습니다. 이건 시간도 많이 걸리고, 실수할 확률도 매우 높은 일입니다.

2. 실험: "AI 요리사"를 고용해 봤어요

연구진은 최신 AI 모델 두 마리 (Claude 와 Llama) 를 고용해서, 식품 안전 법규를 읽게 한 뒤, 자동으로 컴퓨터용 레시피 (Gherkin) 를 작성하게 했습니다.

  • 참가자: 소프트웨어 전문가 10 명을 모았습니다.
  • 미션: AI 가 만든 레시피 60 개를 맛보고 평가했습니다.
    • "이 레시피가 법을 제대로 반영했나요?" (관련성)
    • "누가 봐도 명확한가요?" (명확성)
    • "빠진 재료가 없나요?" (완전성)
    • "한 번에 한 가지 일만 하는가?" (단일성)
    • "사람이 직접 쓸 때 시간이 절약되나요?" (시간 절약)

3. 결과: "AI 는 훌륭한 '초안' 작가지만, '마감'은 사람이 해야 해요"

✅ 좋은 점 (기대 이상):
AI 가 만든 레시피는 대체로 매우 훌륭했습니다.

  • 100 점 만점에 거의 90 점 이상을 받았습니다.
  • 법의 핵심을 잘 파악했고, 문장도 명확했습니다.
  • 사람이 처음부터 쓰는 것보다 시간을 엄청나게 절약해 주었습니다.
  • 마치 요리 실습을 돕는 똑똑한 조교가 기본 뼈대를 다 잡아준 느낌입니다.

⚠️ 문제점 (주의 필요):
하지만 AI 는 가끔 실수를 했습니다.

  1. 없던 것을 만들어냄 (환각): 법에 없는 "경고등 켜기" 같은 기능을 갑자기 추가하기도 했습니다. (예: "계란을 20 도로 데우세요"라고 법이 말했는데, AI 는 "20 도가 아니면 경고음을 울리세요"라고 추가함)
  2. 중요한 것을 빼먹음 (생략): 법의 중요한 조건을 빠뜨리는 경우가 있었습니다. (예: "수입된 식품은 '수입'이라는 문구를 붙여야 한다"는 법을 놓침)
  3. 혼란스러운 레시피: 한 번에 여러 가지 일을 섞어서 설명하기도 했습니다. (예: "계란 무게를 재고, 세균을 검사하고, 물기를 닦는 것"을 하나의 레시피로 합침)

4. 결론: "AI 는 '초안'을 쓰고, 사람이 '검수'를 해야 합니다"

이 연구의 핵심 메시지는 다음과 같습니다.

"AI 는 법률을 소프트웨어 레시피로 바꾸는 데 아주 뛰어난 '보조 작가'가 될 수 있습니다. 하지만 안전이 중요한 식품 분야에서는 AI 가 만든 것을 그대로 믿고 요리할 수 없습니다. 반드시 사람이 마지막에 한 번 더 꼼꼼히 검토 (Human-in-the-loop) 해야 합니다."

한 줄 요약:

AI 는 복잡한 법을 읽어서 초안 레시피를 100 점 만점에 90 점 수준으로 만들어주지만, 100 점 만점을 위해 사람이 마지막에 '맛보기'와 '수정'을 해줘야 안전합니다.

이 기술이 발전하면, 앞으로는 법을 지키기 위한 소프트웨어를 만드는 데 드는 시간과 비용이 획기적으로 줄어들어, 더 안전한 식품 시스템을 만들 수 있을 것입니다.