Can ChatGPT Generate Realistic Synthetic System Requirement Specifications? Results of a Case Study

本論文は、プロンプト設計と反復的な改善を通じてチャット GPT で合成システム要件仕様書(SSyRS)を生成する手法を提案し、専門家の評価により一定の現実性が確認されたものの、矛盾や欠陥が存在するため LLM による自動評価は専門家による厳密な評価を完全に代替できないことを示したケーススタディの結果を報告するものである。

Alex R. Mattukat, Florian M. Braun, Horst Lichter

公開日 Wed, 11 Ma
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「ChatGPT などの AI に、人間が書いたような『システム要件仕様書(SyRS)』を勝手に作らせることができるのか?」**という問いに答えるための実験レポートです。

システム要件仕様書とは、ソフトウェアを作る前に「このシステムにはどんな機能が必要で、どんなルールを守るべきか」を詳しく書いた文書のことです。しかし、実際の企業データは機密情報なので、研究者が自由に使うことができません。そこで、「本物そっくりの架空のデータ(合成データ)」を AI に作ってもらおうという試みです。

この研究を、**「AI 料理人による『架空の高級レストランメニュー』作成実験」**という物語に例えて説明します。


1. 実験の目的:「本物がないなら、AI に作らせよう」

研究者たちは、本物のメニュー(実際の要件仕様書)が手に入らないため、**「AI 料理人(ChatGPT)」**に、10 種類の異なるジャンル(EC サイト、教育、医療、物流など)の架空の高級メニューを作らせました。
AI は「本物を見たことがない」状態で、インターネットで学んだ知識だけを頼りにメニューを作成します。

2. 実験のプロセス:「試行錯誤と味見」

AI 料理人にメニューを作らせる際、研究者は以下の 3 つのステップを繰り返しました。

  1. レシピの提示(プロンプト):
    「料理人として、このジャンルに合ったメニューを作ってください。ただし、前回のものと同じにならないように工夫して」と指示しました。
  2. AI 自身による味見(自己評価):
    作ったメニューを AI 自身に「これは本物っぽいですか?(0〜100 点)」と評価させました。
  3. 改善(リファイン):
    評価が低かったり、内容が重複していたりしたら、「もっと具体的に」「矛盾がないように」と指示を修正して、10 回繰り返し作らせました。

結果として、300 枚の架空メニューが完成しました。

3. 結果:「見た目は本物、中身は怪しい?」

完成した 300 枚のメニューを、**87 人のプロの料理人(専門家)**に評価してもらいました。

  • 表面的な評価:
    専門家の約**62%**が「これは本物っぽくてリアルだ」と評価しました。AI が作ったメニューは、見かけ上は完璧で、自信満々に書かれているため、一見すると本物に見えます。
  • 深掘りした評価:
    しかし、専門家がじっくり読み込むと、**「矛盾」「現実離れした内容」**が見つかりました。
    • : 「15,000 人のユーザーが同時に使う」という要求が、予算や技術的にあり得ないこと。
    • : EU の法律を、EU 以外の国に適用しようとしている矛盾。
    • : 専門用語を並べ立てているだけで、中身が空洞な「ごまかし」のような表現。

4. 重要な発見:「AI は『自信過剰』な嘘つき」

この実験でわかった最大のポイントは、**「AI は嘘をついていることに気づいていない」**ということです。

  • AI の「幻覚(ハルシネーション)」:
    AI は「知らないこと」を認めず、自信満々で間違った情報(架空の法律や不可能な数値)を本物のように語ります。これを「自信過剰な嘘つき」と呼ぶことができます。
  • AI による評価の限界:
    AI 自身に「これは本物ですか?」と点数をつけさせましたが、その評価はモデルによってバラバラで、全く信頼できませんでした。ある AI は「90 点」と言い、別の AI は「40 点」と言うなど、一貫性がありません。

5. 結論:「AI は『下書き』には使えるが、最終チェックは人間が必要」

この研究の結論は以下の通りです。

  • AI の活躍:
    ChatGPT は、本物のデータがなくても、**「本物そっくりの草案(下書き)」**を大量に作ることができます。これは研究やテストの材料としては非常に役立ちます。
  • 人間の役割:
    しかし、「本当に使えるか」を判断するのは人間(専門家)しかできません。 AI が自信満々に書いた間違った情報に騙されないよう、必ず人間が「これは嘘だ」「矛盾している」と見抜くチェックが必要です。

まとめ

この論文は、**「AI は素晴らしい『下書き作家』ですが、まだ『編集者』や『審査員』にはなれない」**と教えてくれます。

AI に作らせたメニューは、見た目は豪華で本物そっくりですが、中身には「ありえない食材」や「矛盾したレシピ」が混じっています。だから、**「AI に作らせて、人間が必ず味見して修正する」**という teamwork(チームワーク)が、未来のソフトウェア開発には不可欠だと示唆しています。