Behaviour Driven Development Scenario Generation with Large Language Models

本論文は、GPT-4、Claude 3、Gemini の 3 つの大規模言語モデルを用いた BDD シナリオ自動生成を評価し、Claude 3 が人間や LLM による評価で最高品質を示すこと、生成の成否は入力要件の詳しさに依存し、モデルごとに最適なプロンプト手法や温度パラメータ(0)が異なることを明らかにしました。

Amila Rathnayake, Mojtaba Shahin, Golnoush Abaei

公開日 2026-03-06
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🍳 料理のレシピと AI 料理人

想像してください。あなたがレストランのオーナーで、新しいメニュー(ソフトウェア機能)を作ろうとしています。
しかし、料理人(開発者)に「美味しい料理を作って」と言っても、彼らが何をどう作ればいいか分からないと、失敗したり、味がバラバラになったりします。

ここで登場するのが**「BDD(行動駆動開発)」という考え方です。
これは、
「料理のレシピ(テスト手順)」を、誰にでも分かる言葉で事前に作っておく**方法です。

  • Given(もし〜なら):材料が揃っている状態
  • When(〜したら):調理を行う
  • Then(〜になる):完成した料理の状態

でも、この「レシピ」を人間が一つ一つ手書きで作るのは、とても時間がかかり、疲れる作業です。そこで、**「AI 料理人(LLM)」**にレシピを書いてもらおうという研究がこれです。

🧪 実験:3 人の AI 料理人を比べる

研究チームは、3 人の有名な AI 料理人(GPT-4、Claude 3、Gemini)を呼び出し、500 種類の「料理の注文(ユーザーストーリー)」を与えて、レシピ(テスト手順)を書いてもらいました。

そして、そのレシピがどれだけ素晴らしいか、4 つの視点で評価しました。

  1. 文字の似ている度(辞書的なチェック)
  2. 意味の似ている度(文脈のチェック)
  3. 別の AI による評価(AI 同士の審査)
  4. 人間の専門家による評価(実際のシェフが味見)

🏆 驚きの結果:「一番上手い」は誰?

ここが面白い部分です。AI の評価基準によって、勝者が変わりました。

  • 文字や意味の「似ている度」だけ見ると
    GPT-4が一位でした。辞書的なチェックでは、GPT-4 が最も完璧なレシピを書いていました。
  • でも、人間と「別の AI」が味見すると
    Claude 3が一位になりました!
    人間は「GPT-4 のレシピは文字は綺麗だけど、ちょっと味気ない」と感じ、**Claude 3 のレシピの方が、実際に使えて美味しい(実用的で高品質)**だと評価しました。

💡 教訓:
「辞書的に正しい」ことと「実際に役に立つ」ことは、必ずしも同じではありません。AI を使うときは、人間が最終的に「味見(評価)」をするのが重要だと分かりました。

🎯 3 つの重要な発見

この研究から、AI にレシピを書かせる際に役立つ 3 つの「魔法の呪文(ヒント)」が見つかりました。

1. 「注文の伝え方」で結果が変わる(プロンプトの工夫)

AI によって、一番良い注文の伝え方が違うことが分かりました。

  • GPT-4:「何もヒントを与えず、任せる(ゼロショット)」のが一番得意。
  • Claude 3:「考え方のステップを一緒に教えて(思考の連鎖)」ると、より良いレシピが出る。
  • Gemini:「過去の成功例(Few-shot)」を見せると、一番上手に真似できる。

🍳 例え:

  • GPT-4 は「天才的な料理人」なので、指示を簡潔にすれば完璧に作れる。
  • Claude 3 は「慎重な料理人」なので、手順を一つずつ確認させてあげると安心する。
  • Gemini は「真面目な見習い」なので、先輩の作ったレシピを見せるとよく覚える。

2. 「注文内容の質」が全てを決める

AI にレシピを書かせる際、どんな情報を与えるかが最重要でした。

  • ◎ 最高級:「注文(ユーザーストーリー)」+「詳細な材料リスト(要件説明)」の両方を与える。
  • ◎ 次点:「詳細な材料リスト」だけを与える。(これだけでも十分美味しい!)
  • ✖ 最悪:「注文」だけ与える。(「美味しいパスタを作って」だけだと、AI は何をどう作ればいいか分からず、ボロボロのレシピになります)

💡 教訓:
AI に任せるなら、**「どんな材料が必要か、具体的に詳しく書くこと」**が成功の秘訣です。漠然とした指示では、AI も困ってしまいます。

3. 「運試し」は不要、冷静さが勝利

AI には「温度(Temperature)」という設定があり、これを高くすると「運試し(ランダムな発想)」をします。
しかし、この研究では**「温度を 0(完全に冷静・確定的)」**に設定したときが、最も高品質なレシピが作れました。
「ひらめき」よりも「正確な手順」が求められるテスト作成では、AI は冷静であるべきなのです。

🚀 この研究がもたらす未来

この研究は、ソフトウェア開発の現場に大きな変化をもたらします。

  • 時間の節約: 人間が何時間もかけてレシピを書く代わりに、AI が数秒で下書きを作ってくれる。
  • ミスの減少: 人間が見落としがちな「特殊なケース(例:雨の日の注文)」まで、AI がカバーしてくれる。
  • 誰でもできる: 熟練の料理人(ベテラン開発者)がいなくても、AI がサポートすれば、新人でも高品質なテストが作れる。

まとめ

この論文は、**「AI にテスト手順を作らせるのは可能だが、そのためには『正しい注文の伝え方』と『詳細な情報』が必要」**と教えてくれました。

GPT-4、Claude 3、Gemini という 3 人の AI 料理人は、それぞれ得意分野が違います。私たち人間は、彼らの特性を理解し、適切な指示を出して、**「AI が下書きを作り、人間が味見をして完成させる」**という新しいチームワークを築くべきなのです。

これからのソフトウェア開発は、人間と AI が手を取り合って、より安全で美味しい(高品質な)サービスを提供する時代が来るでしょう。