Behaviour Driven Development Scenario Generation with Large Language Models

Each language version is independently generated for its own context, not a direct translation.

🍳 料理のレシピと AI 料理人

想像してください。あなたがレストランのオーナーで、新しいメニュー（ソフトウェア機能）を作ろうとしています。
しかし、料理人（開発者）に「美味しい料理を作って」と言っても、彼らが何をどう作ればいいか分からないと、失敗したり、味がバラバラになったりします。

ここで登場するのが**「BDD（行動駆動開発）」という考え方です。
これは、「料理のレシピ（テスト手順）」を、誰にでも分かる言葉で事前に作っておく**方法です。

Given（もし〜なら）：材料が揃っている状態
When（〜したら）：調理を行う
Then（〜になる）：完成した料理の状態

でも、この「レシピ」を人間が一つ一つ手書きで作るのは、とても時間がかかり、疲れる作業です。そこで、**「AI 料理人（LLM）」**にレシピを書いてもらおうという研究がこれです。

🧪 実験：3 人の AI 料理人を比べる

研究チームは、3 人の有名な AI 料理人（GPT-4、Claude 3、Gemini）を呼び出し、500 種類の「料理の注文（ユーザーストーリー）」を与えて、レシピ（テスト手順）を書いてもらいました。

そして、そのレシピがどれだけ素晴らしいか、4 つの視点で評価しました。

文字の似ている度（辞書的なチェック）
意味の似ている度（文脈のチェック）
別の AI による評価（AI 同士の審査）
人間の専門家による評価（実際のシェフが味見）

🏆 驚きの結果：「一番上手い」は誰？

ここが面白い部分です。AI の評価基準によって、勝者が変わりました。

文字や意味の「似ている度」だけ見ると：
GPT-4が一位でした。辞書的なチェックでは、GPT-4 が最も完璧なレシピを書いていました。
でも、人間と「別の AI」が味見すると：
Claude 3が一位になりました！
人間は「GPT-4 のレシピは文字は綺麗だけど、ちょっと味気ない」と感じ、**Claude 3 のレシピの方が、実際に使えて美味しい（実用的で高品質）**だと評価しました。

💡 教訓：
「辞書的に正しい」ことと「実際に役に立つ」ことは、必ずしも同じではありません。AI を使うときは、人間が最終的に「味見（評価）」をするのが重要だと分かりました。

🎯 3 つの重要な発見

この研究から、AI にレシピを書かせる際に役立つ 3 つの「魔法の呪文（ヒント）」が見つかりました。

1. 「注文の伝え方」で結果が変わる（プロンプトの工夫）

AI によって、一番良い注文の伝え方が違うことが分かりました。

GPT-4：「何もヒントを与えず、任せる（ゼロショット）」のが一番得意。
Claude 3：「考え方のステップを一緒に教えて（思考の連鎖）」ると、より良いレシピが出る。
Gemini：「過去の成功例（Few-shot）」を見せると、一番上手に真似できる。

🍳 例え：

GPT-4 は「天才的な料理人」なので、指示を簡潔にすれば完璧に作れる。
Claude 3 は「慎重な料理人」なので、手順を一つずつ確認させてあげると安心する。
Gemini は「真面目な見習い」なので、先輩の作ったレシピを見せるとよく覚える。

2. 「注文内容の質」が全てを決める

AI にレシピを書かせる際、どんな情報を与えるかが最重要でした。

◎ 最高級：「注文（ユーザーストーリー）」＋「詳細な材料リスト（要件説明）」の両方を与える。
◎ 次点：「詳細な材料リスト」だけを与える。（これだけでも十分美味しい！）
✖ 最悪：「注文」だけ与える。（「美味しいパスタを作って」だけだと、AI は何をどう作ればいいか分からず、ボロボロのレシピになります）

💡 教訓：
AI に任せるなら、**「どんな材料が必要か、具体的に詳しく書くこと」**が成功の秘訣です。漠然とした指示では、AI も困ってしまいます。

3. 「運試し」は不要、冷静さが勝利

AI には「温度（Temperature）」という設定があり、これを高くすると「運試し（ランダムな発想）」をします。
しかし、この研究では**「温度を 0（完全に冷静・確定的）」**に設定したときが、最も高品質なレシピが作れました。
「ひらめき」よりも「正確な手順」が求められるテスト作成では、AI は冷静であるべきなのです。

🚀 この研究がもたらす未来

この研究は、ソフトウェア開発の現場に大きな変化をもたらします。

時間の節約： 人間が何時間もかけてレシピを書く代わりに、AI が数秒で下書きを作ってくれる。
ミスの減少： 人間が見落としがちな「特殊なケース（例：雨の日の注文）」まで、AI がカバーしてくれる。
誰でもできる： 熟練の料理人（ベテラン開発者）がいなくても、AI がサポートすれば、新人でも高品質なテストが作れる。

まとめ

この論文は、**「AI にテスト手順を作らせるのは可能だが、そのためには『正しい注文の伝え方』と『詳細な情報』が必要」**と教えてくれました。

GPT-4、Claude 3、Gemini という 3 人の AI 料理人は、それぞれ得意分野が違います。私たち人間は、彼らの特性を理解し、適切な指示を出して、**「AI が下書きを作り、人間が味見をして完成させる」**という新しいチームワークを築くべきなのです。

これからのソフトウェア開発は、人間と AI が手を取り合って、より安全で美味しい（高品質な）サービスを提供する時代が来るでしょう。

Behaviour Driven Development Scenario Generation with Large Language Models

🍳 料理のレシピと AI 料理人

🧪 実験：3 人の AI 料理人を比べる

🏆 驚きの結果：「一番上手い」は誰？

🎯 3 つの重要な発見

1. 「注文の伝え方」で結果が変わる（プロンプトの工夫）

2. 「注文内容の質」が全てを決める

3. 「運試し」は不要、冷静さが勝利

🚀 この研究がもたらす未来

まとめ

論文要約：大規模言語モデルを用いた行動駆動開発（BDD）シナリオ生成の評価

1. 研究の背景と課題

2. 研究方法論

データセットの構築（主要貢献 1）

評価対象モデルと手法

評価指標

3. 主要な結果と知見

RQ1: LLM の BDD シナリオ生成の有効性

RQ2: プロンプト技術の影響

RQ3: 入力情報の種類の影響

RQ4: モデル設定（パラメータ）の影響

4. 主要な貢献

5. 意義と示唆

Behaviour Driven Development Scenario Generation with Large Language Models

🍳 料理のレシピと AI 料理人

🧪 実験：3 人の AI 料理人を比べる

🏆 驚きの結果：「一番上手い」は誰？

🎯 3 つの重要な発見

1. 「注文の伝え方」で結果が変わる（プロンプトの工夫）

2. 「注文内容の質」が全てを決める

3. 「運試し」は不要、冷静さが勝利

🚀 この研究がもたらす未来

まとめ

論文要約：大規模言語モデルを用いた行動駆動開発（BDD）シナリオ生成の評価

1. 研究の背景と課題

2. 研究方法論

データセットの構築（主要貢献 1）

評価対象モデルと手法

評価指標

3. 主要な結果と知見

RQ1: LLM の BDD シナリオ生成の有効性

RQ2: プロンプト技術の影響

RQ3: 入力情報の種類の影響

RQ4: モデル設定（パラメータ）の影響

4. 主要な貢献

5. 意義と示唆

関連論文

The Structure of Service Level Agreement of Slice-based 5G Network

Keep Ballots Secret: On the Futility of Social Learning in Decision Making by Voting

Social Teaching: Being Informative vs. Being Right in Sequential Decision Making

Beyond Binomial and Negative Binomial: Adaptation in Bernoulli Parameter Estimation

Homotopy type theory as a language for diagrams of ∞\infty∞-logoses

Homotopy type theory as a language for diagrams of $\infty$ -logoses