Each language version is independently generated for its own context, not a direct translation.
この論文は、**「ChatGPT などの AI に、人間が書いたような『システム要件仕様書(SyRS)』を勝手に作らせることができるのか?」**という問いに答えるための実験レポートです。
システム要件仕様書とは、ソフトウェアを作る前に「このシステムにはどんな機能が必要で、どんなルールを守るべきか」を詳しく書いた文書のことです。しかし、実際の企業データは機密情報なので、研究者が自由に使うことができません。そこで、「本物そっくりの架空のデータ(合成データ)」を AI に作ってもらおうという試みです。
この研究を、**「AI 料理人による『架空の高級レストランメニュー』作成実験」**という物語に例えて説明します。
1. 実験の目的:「本物がないなら、AI に作らせよう」
研究者たちは、本物のメニュー(実際の要件仕様書)が手に入らないため、**「AI 料理人(ChatGPT)」**に、10 種類の異なるジャンル(EC サイト、教育、医療、物流など)の架空の高級メニューを作らせました。
AI は「本物を見たことがない」状態で、インターネットで学んだ知識だけを頼りにメニューを作成します。
2. 実験のプロセス:「試行錯誤と味見」
AI 料理人にメニューを作らせる際、研究者は以下の 3 つのステップを繰り返しました。
- レシピの提示(プロンプト):
「料理人として、このジャンルに合ったメニューを作ってください。ただし、前回のものと同じにならないように工夫して」と指示しました。 - AI 自身による味見(自己評価):
作ったメニューを AI 自身に「これは本物っぽいですか?(0〜100 点)」と評価させました。 - 改善(リファイン):
評価が低かったり、内容が重複していたりしたら、「もっと具体的に」「矛盾がないように」と指示を修正して、10 回繰り返し作らせました。
結果として、300 枚の架空メニューが完成しました。
3. 結果:「見た目は本物、中身は怪しい?」
完成した 300 枚のメニューを、**87 人のプロの料理人(専門家)**に評価してもらいました。
- 表面的な評価:
専門家の約**62%**が「これは本物っぽくてリアルだ」と評価しました。AI が作ったメニューは、見かけ上は完璧で、自信満々に書かれているため、一見すると本物に見えます。 - 深掘りした評価:
しかし、専門家がじっくり読み込むと、**「矛盾」や「現実離れした内容」**が見つかりました。- 例: 「15,000 人のユーザーが同時に使う」という要求が、予算や技術的にあり得ないこと。
- 例: EU の法律を、EU 以外の国に適用しようとしている矛盾。
- 例: 専門用語を並べ立てているだけで、中身が空洞な「ごまかし」のような表現。
4. 重要な発見:「AI は『自信過剰』な嘘つき」
この実験でわかった最大のポイントは、**「AI は嘘をついていることに気づいていない」**ということです。
- AI の「幻覚(ハルシネーション)」:
AI は「知らないこと」を認めず、自信満々で間違った情報(架空の法律や不可能な数値)を本物のように語ります。これを「自信過剰な嘘つき」と呼ぶことができます。 - AI による評価の限界:
AI 自身に「これは本物ですか?」と点数をつけさせましたが、その評価はモデルによってバラバラで、全く信頼できませんでした。ある AI は「90 点」と言い、別の AI は「40 点」と言うなど、一貫性がありません。
5. 結論:「AI は『下書き』には使えるが、最終チェックは人間が必要」
この研究の結論は以下の通りです。
- AI の活躍:
ChatGPT は、本物のデータがなくても、**「本物そっくりの草案(下書き)」**を大量に作ることができます。これは研究やテストの材料としては非常に役立ちます。 - 人間の役割:
しかし、「本当に使えるか」を判断するのは人間(専門家)しかできません。 AI が自信満々に書いた間違った情報に騙されないよう、必ず人間が「これは嘘だ」「矛盾している」と見抜くチェックが必要です。
まとめ
この論文は、**「AI は素晴らしい『下書き作家』ですが、まだ『編集者』や『審査員』にはなれない」**と教えてくれます。
AI に作らせたメニューは、見た目は豪華で本物そっくりですが、中身には「ありえない食材」や「矛盾したレシピ」が混じっています。だから、**「AI に作らせて、人間が必ず味見して修正する」**という teamwork(チームワーク)が、未来のソフトウェア開発には不可欠だと示唆しています。