Code Roulette: How Prompt Variability Affects LLM Code Generation

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI にコード（プログラム）を書かせる時、少しだけ言い方を変えただけで、出来上がるものがどれくらい変わるのか？」**という疑問に答える研究です。

タイトルは『Code Roulette（コード・ルーレット）』。まるでルーレットを回すように、入力文（プロンプト）を少しだけ変えてみたら、AI が返す答えがどう変わるかを調べる実験です。

以下に、専門用語を避けて、日常の例え話を使って分かりやすく解説します。

1. 背景：なぜこの研究が必要なの？

今、AI（大規模言語モデル）は「プログラミングの先生」や「助手」として大活躍しています。
「〇〇という機能を作りたい」と人間が自然な言葉で言えば、AI がコードを書いてくれます。

しかし、ここで大きな問題があります。
**「同じ『料理を作りたい』という注文でも、注文する人の言葉遣いが少し違うだけで、シェフ（AI）が作る料理が全然違う味になるかもしれない」**ということです。

例え話：
- あなたが「卵焼きを作って」と言ったら、AI はふわふわの卵焼きを作りました。
- でも、あなたが「卵を焼いて」と言い直したり、「卵を焦がさないように焼いて」と付け加えたり、あるいは「卵焼き」を「オムレツ」と言い間違えたりしたら、AI は「炒め卵」や「焦げ卵」を作ってしまうかもしれません。

このように、**「同じ意味でも、言葉の微妙な違い（タイプミス、言い換え、表現の違い）に AI がどれだけ敏感か」**を測る必要があります。そうしないと、ユーザーは「なぜ同じ指示なのに、昨日は動いたのに今日は動かないんだ？」と混乱してしまいます。

2. 実験方法：AI に「変な注文」をさせてみる

研究者たちは、AI の「言葉の揺らぎ」に対する反応を測るための新しいテスト方法（パイプライン）を作りました。

実験のステップ：

基準を作る： まず、普通の言葉で「A というコードを書いて」と AI に指示し、何回も同じことをさせて「基準のコード」を作ります。
注文をいじる： 次に、元の注文を少しずつ「いじります」。
- キーボードの隣り合わせのキーを間違える（タイプミス）： 「卵」を「卵」ではなく「卵」の隣にあるキーで「卵」のように打つ。
- 同義語に置き換える： 「作る」を「作成する」や「生成する」に変える。
- 言い回しを変える（パラフレーズ）： 「卵焼きを作って」を「卵を焼いたものをお願いします」のように言い換える。
結果を比べる： いじった注文で AI にコードを書かせ、元のコードとどれだけ違うかを測ります。

測るもの：
コードが「正しく動いているか」ではなく、**「コードの見た目（構造）がどれだけ変わってしまったか」**を測ります。

例え話： 料理の味（機能）が同じでも、盛り付けや器の形（コードの構造）が全く違っていたら、それは「同じ注文」に対して「不安定な対応」をしたことになります。

3. 驚きの結果：AI は「タイプミス」に弱かった！

4 つの有名な AI（GPT-4o mini, Claude 3, Gemini 2.0, Llama 3.3）で実験したところ、面白い結果が出ました。

タイプミスには極端に弱い：
キーボードの隣り合わせのキーを間違えるだけで、AI が作るコードは劇的に変わってしまいました。
- 例え話： 「卵焼き」を「卵焼」や「卵やき」と言い間違えただけで、AI は「卵焼き」ではなく「卵の炒め物」や「全く別の料理」を作ってしまうほど敏感でした。
言い換えには強い：
「作る」を「作成する」に変えたり、文の言い回しを変えたりする程度なら、AI は比較的安定して同じようなコードを作りました。
「古い問題」は簡単すぎる：
AI が過去に勉強したことがある有名な問題（LeetCode の古い問題）だと、どんなに注文をいじっても、AI は「あ、これ知ってる！」と即座に正解を出しました。これは「データ汚染（AI が答えを丸暗記している状態）」と呼ばれ、本当の能力を測るには不向きです。
「新しい問題」は不安定：
AI が初めて見るような新しい問題だと、注文を少し変えるだけで、AI が作るコードは大きく変わってしまいました。

4. この研究が教えてくれること

この研究は、私たちに以下の重要なメッセージを伝えています。

AI は「完璧な理解者」ではない：
私たちが「同じ意味」だと思っていても、AI は「言葉の形」に敏感に反応して、全く違う結果を出してしまう可能性があります。
信頼するには「安定性」が必要：
開発者が AI を使う際、少しの言葉の揺らぎでコードが壊れたり、違うものになったりするのは危険です。AI が「どんな言い方をされても、同じ意図なら同じ結果を出す」ように安定させる必要があります。
ユーザーへのアドバイス：
AI に指示を出すときは、**「タイプミスに注意する」**ことが非常に重要です。また、AI が不安定な分野（新しい問題など）では、指示をより具体的にするか、複数の指示を試して確認する必要があるかもしれません。

まとめ

この論文は、**「AI という魔法の箱に、言葉の『揺らぎ』を注入すると、中から出てくるコードがどう踊るのか」**をルーレットのように回して調べました。

結果、AI は**「タイプミス」にはとても弱く、少しの間違いで大きく反応してしまう**ことが分かりました。これは、私たちが AI と付き合う際、言葉の選び方や入力方法に気を配る必要があることを示しています。

今後は、AI がもっと「人間の言葉のニュアンス」を理解し、どんな言い方をされても**「同じ料理（コード）」を安定して作れるようになること**が期待されています。

Each language version is independently generated for its own context, not a direct translation.

以下は、提示された論文「Code Roulette: How Prompt Variability Affects LLM Code Generation」の技術的な詳細な要約です。

1. 問題定義 (Problem)

大規模言語モデル（LLM）を用いたコード生成は、コーディングの障壁を下げ、開発を加速させる可能性を秘めていますが、生成されるコードの品質や機能性は、ユーザーが入力するプロンプト（指示文）の質に大きく依存します。

背景: ユーザーはバックグラウンド、教育、経験、メンタルモデルの違いにより、同じ要件を異なる表現（分解の仕方、用語の選択、構文など）でプロンプトに記述します。
課題: 現在の LLM は、プロンプトのわずかな変動（タイプミス、同義語の置換、言い換えなど）に対して、生成されるコードがどのように変化（不安定化）するかについて、その感度（Sensitivity）が十分に理解されていません。
重要性: プロンプトのわずかな違いが、機能的に同等であっても構造的に全く異なるコードを生成したり、誤ったコードを出力したりする可能性があり、これによりコードレビュー、保守、およびユーザーの信頼性に悪影響を及ぼすリスクがあります。

2. 提案手法 (Methodology)

本研究では、特定のプログラミングタスクや LLM に依存せず、広範に適用可能な「プロンプト増強に対する感度を測定する評価パイプライン」を提案しました。

評価パイプラインの概要:
1. ベースラインの確立: 元のプロンプト $p$ に対して、モデル $M$ から $n$ 個の独立したコードサンプルを生成し、参照セット $C_{ref}$ とします。
2. プロンプト増強 (Augmentation): 増強関数 $F$ $F$ を用いて、入力プロンプトを $r$ $r$ （増強率：0〜1）の割合で改変します。
  - キーボードのタイプミス: QWERTY キーボード上の隣接キーへの置換。
  - 同義語置換: WordNet を用いた単語の同義語への置換。
  - 言い換え (Paraphrasing): LLM (Gemini) を用いた意味を保持しつつ語彙を変えた文章の生成。
3. コード生成と距離測定: 改変されたプロンプトからコードを生成し、参照セットとの pairwise 距離を計算します。
4. 距離指標: 生成されたコード間の差異を定量化するために、TSED (Tree Similarity of Edit Distance) を使用します。これは構文木ベースの編集距離であり、コードの構造的な類似性を 0（全く異なる）から 1（同一）の範囲で評価します。
  - 注: 本研究ではコードの「正解性」ではなく、プロンプトの変動に対する「出力の一貫性（安定性）」に焦点を当てています。
データセット:
- LeetCode (Old): 既存の定番問題（多くの LLM の学習データに含まれている可能性が高い）。
- LeetCode (New): 2025 年 3 月に公開された新しい問題（学習データに含まれていないと想定）。
- Our Dataset: 著者らが作成した 22 のオープンエンドなタスク（シミュレーション、アルゴリズム、データサイエンスなど）。LeetCode のような単一正解ではなく、多様な実装が可能な問題。

3. 主要な貢献 (Key Contributions)

評価プロシージャの提案: コード生成タスクにおける LLM の感度を測定するための体系的な評価パイプラインの確立。
複数 LLM に対する感度分析: 4 つの主要な LLM に対する大規模な実験的評価と結果の提示。
オープンソース化: 研究の再現性と将来の研究への貢献のため、コードとデータセットを公開。

4. 実験結果 (Results)

GPT-4o mini, Claude 3 Haiku, Gemini 2.0 Flash, Llama 3.3 70B の 4 モデルを対象に実験を行いました。

増強方法による感度の違い:
- タイプミス: 最も侵入的な増強方法でした。増強率 0.0〜0.6 の間でコードの類似性（TSED）が急激に低下し、その後 0.3 付近で頭打ちになりました。これは、タイプミスがプロンプトの可読性を損ない、モデルが完全に異なるコードを生成することを示唆しています。
- 同義語・言い換え: タイプミスに比べて感度は低く、モデルはこれらに対してよりロバスト（頑健）でした。特に Gemini 2.0 Flash は同義語増強に対して最も高い安定性を示しました。
- モデル間の安定性: 増強なしの条件下でも、Gemini 2.0 Flash と GPT-4o mini は非常に高い安定性（TSED 0.9 以上）を示しましたが、Llama 3.3 と Claude 3 Haiku は温度パラメータを 0 に設定しても、同じプロンプトに対してある程度の不安定性を示しました。
データセットによる違い（データ汚染の影響）:
- LeetCode (Old): 学習データに含まれている可能性が高いため、どの増強方法に対しても最も感度が低く（安定しており）、モデルは微弱な信号から問題を認識できることが示されました。
- LeetCode (New): 学習データに含まれていないため、Old よりも感度が高くなりましたが、標準的なコーディング練習問題の性質を持つため、ある程度の安定性は保たれていました。
- Our Dataset: 学習データと直接対応していないオープンエンドなタスクでは、最も高い感度が観測されました。プロンプトの 10% 程度の変更だけで、コードの類似性が 0.5 以下に急落しました。また、未改変のプロンプトであっても生成コード間のばらつき（TSED 0.7）が大きかったことから、この種のタスクでは LLM の出力が非常に不安定であることが示されました。
統計的有意性: フリードマン検定およびクラスカル・ウォリス検定により、増強率とデータセットの違いがコードの類似性に統計的に有意な影響を与えることが確認されました。

5. 意義と結論 (Significance & Conclusion)

信頼性の構築: ユーザーのバックグラウンドや入力方法の違いが、生成コードの構造的な多様性（あるいは不安定性）にどう影響するかを定量化することで、LLM を用いたコード生成プロセスへの信頼構築に寄与します。
データ汚染の警告: 既存のベンチマーク（LeetCode 旧など）は学習データに含まれているため、モデルの真の汎化性能や感度を過小評価するリスクがあることを再確認し、より新しいまたは独自に作成されたタスクの評価の重要性を説きました。
将来の展望:
- 単発の対話だけでなく、多段階の対話（ダイアログ）や、ユーザーのメンタルモデルや問題分解の差異を模倣した増強手法への拡張。
- 構造的な類似性（TSED）に加え、機能的な正しさを検証するテストとの組み合わせ。
- 経験の異なる開発者によるプロンプト作成の差異を調査する研究への応用。

本研究は、LLM によるコード生成において「プロンプトのわずかな変動」がいかにして「生成コードの大きな変動」を引き起こす可能性があるかを明らかにし、よりロバストで信頼性の高い AI 支援開発システムの構築に向けた重要な一歩を示しています。

Code Roulette: How Prompt Variability Affects LLM Code Generation

1. 背景：なぜこの研究が必要なの？

2. 実験方法：AI に「変な注文」をさせてみる

3. 驚きの結果：AI は「タイプミス」に弱かった！

4. この研究が教えてくれること

まとめ

1. 問題定義 (Problem)

2. 提案手法 (Methodology)

3. 主要な貢献 (Key Contributions)

4. 実験結果 (Results)

5. 意義と結論 (Significance & Conclusion)

関連論文

Smart Learning to Find Dumb Contracts (Extended Version)

QFT: Quantized Full-parameter Tuning of LLMs with Affordable Resources

Optimization over Trained (and Sparse) Neural Networks: A Surrogate within a Surrogate

Optimizing Binary and Ternary Neural Network Inference on RRAM Crossbars using CIM-Explorer

From Street Form to Spatial Justice: Explaining Urban Exercise Inequality via a Triadic SHAP-Informed Framework