"Should I Give Up Now?" Investigating LLM Pitfalls in Software Engineering

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI 助手（チャットボット）を使ってプログラミングをしていると、いつか『もうやめようかな』って思ってしまうのか？」**という問いを、実際の開発者の体験から調査したものです。

まるで**「経験の浅い新人エンジニアが、天才だが少し気まぐれな『AI 助手』とペアで仕事をしている」**ような状況を想像してください。

以下に、この研究の核心をわかりやすく解説します。

🍳 1. 研究の舞台：「完璧なレシピ」を頼んだら、なぜか焦げ付いた料理が返ってきた

研究者たちは、学生やプロのエンジニアに、複雑なウェブサイトを作るという「料理の注文」を頼みました。そして、彼らが**「ChatGPT（AI）」**という助手に「レシピ（コード）」を頼む様子をじっと観察しました。

理想としては、AI が「はい、完成した！」と完璧な料理を出してくれるはずですが、現実はそうではありませんでした。

🚧 2. 何が問題だったのか？（9 つの「失敗パターン」）

AI が返してきた答えには、大きく分けて3 つの大きな問題がありました。

「半分しか作ってくれない」または「間違っている」
- 例: 「全体を作ってください」と頼んだのに、重要な部品（例えば「お皿」や「フォーク」）が抜けていたり、味が全然違う料理が出てきたりします。
- ユーザーの反応: 「えっ、これじゃ食べられないよ…」と、自分で修正し始めます。
「情報が多すぎて頭がパンクする」
- 例: 「塩の量だけ教えて」と頼んだのに、AI が「料理の歴史から、塩の製造工程、そして全レシピ」を 100 ページ分も書き出してきます。
- ユーザーの反応: 「どこを見ればいいの？」と、必要な情報を探すだけで疲れてしまいます。
「前の話を忘れている」
- 例: 1 分前に「赤い服を着て」と頼んだのに、次の会話では「青い服」を提案したり、前の会話で決めた「塩の量」を無視したりします。
- ユーザーの反応: 「さっき言ったじゃん！」と、何度も同じことを説明し直すハメになります。

🛠️ 3. ユーザーはどう対処した？（「辛抱強く」か「諦める」か）

ユーザーはこれらのミスを直すために、以下のような工夫をしました。

言い換え: 「もっと具体的に教えて」と再度頼む。
分解: 「全部じゃなくて、まずはここだけ作って」と細かく指示する。
手直し: AI が作ったコードを自分で修正する。

しかし、26 人の参加者のうち 17 人（約 6 割）は、最終的に「もう AI には頼まない」と決めて、自分で作業するか、他のツール（Google 検索など）を使うことにしました。

📊 4. 重要な発見：「諦める」を決める 2 つのルール

この研究で最も面白い統計的な発見は、**「いつ AI を捨てるか」**を予測するルールが見つかったことです。

ルール①：役に立たない答えが 1 回あると、諦める確率が 11 倍になる！
- AI が「全然役に立たない」答えを出すと、ユーザーはすぐに「もうダメだ」と感じ、作業を放棄する傾向が強まりました。
ルール②：やり取りを繰り返すほど、諦めにくくなる。
- 逆に、何度もやり取りを続けている間（プロンプトを繰り返している間）は、ユーザーは「もう少し頑張れば直るかも」と粘り強く取り組む傾向がありました。
ルール③：プログラミングの経験がある人ほど、早く見切りをつける。
- 経験豊富なプロは、「この AI はこのレベルのミスをするんだな」と即座に見抜き、無駄な時間を省いて自分で作業に移ります。一方、初心者は「自分の指示が悪いのかな？」と悩み、AI に執着し続けてしまう傾向がありました。

🧠 5. 結論：AI は「魔法の杖」ではなく「気まぐれな見習い」

この論文が伝えたいのは、**「AI が完璧なコードを書くようになっても、人間との『やり取り』自体に問題がある」**ということです。

モデルが新しくなっても（GPT-4 から GPT-5.1 へ）、根本的な問題は消えない。
- 最初の答えは良くなっても、会話が続くと「前の話を忘れる」「文脈を無視する」といったミスがまた起き、ユーザーを疲れさせます。
「諦める」のは、AI のせいだけではない。
- ユーザーが「この作業は AI には向いていない」と判断し、自分でやるか別の方法を探すのは、合理的な判断です。

💡 まとめ：私たちが学ぶべきこと

この研究は、**「AI 助手を使うときは、最初から『完璧な料理』を期待するのではなく、一緒に『試行錯誤』するパートナーとして扱う」**べきだと示唆しています。

AI に頼りすぎない: 重要な部分は自分で確認する。
疲れたら休む: 何度も同じミスを繰り返すなら、一旦 AI を離れて他の情報源（Google やマニュアル）を頼る。
経験値を活かす: 経験豊富な人は、AI のミスを早く見抜いて「使い分け」ができるようになります。

つまり、**「AI に全部任せる」のではなく、「AI と一緒に、でも人間が主導権を持って進める」**ことが、最も効率的な仕事をするためのコツなのです。

"Should I Give Up Now?" Investigating LLM Pitfalls in Software Engineering

🍳 1. 研究の舞台：「完璧なレシピ」を頼んだら、なぜか焦げ付いた料理が返ってきた

🚧 2. 何が問題だったのか？（9 つの「失敗パターン」）

🛠️ 3. ユーザーはどう対処した？（「辛抱強く」か「諦める」か）

📊 4. 重要な発見：「諦める」を決める 2 つのルール

🧠 5. 結論：AI は「魔法の杖」ではなく「気まぐれな見習い」

💡 まとめ：私たちが学ぶべきこと

論文「Should I Give Up Now? Investigating LLM Pitfalls in Software Engineering」の技術的サマリー

1. 問題定義 (Problem)

2. 研究方法 (Methodology)

3. 主要な貢献と発見 (Key Contributions & Results)

3.1 失敗の分類（9 種類の失敗タイプ）

3.2 失敗の根本原因 (12 要因)

3.3 緩和策と放棄の決定

3.4 モデルの進化（GPT-5.1）の影響

4. 意義と示唆 (Significance & Implications)

4.1 理論的意義

4.2 実用的示唆

4.3 結論

"Should I Give Up Now?" Investigating LLM Pitfalls in Software Engineering

🍳 1. 研究の舞台：「完璧なレシピ」を頼んだら、なぜか焦げ付いた料理が返ってきた

🚧 2. 何が問題だったのか？（9 つの「失敗パターン」）

🛠️ 3. ユーザーはどう対処した？（「辛抱強く」か「諦める」か）

📊 4. 重要な発見：「諦める」を決める 2 つのルール

🧠 5. 結論：AI は「魔法の杖」ではなく「気まぐれな見習い」

💡 まとめ：私たちが学ぶべきこと

論文「Should I Give Up Now? Investigating LLM Pitfalls in Software Engineering」の技術的サマリー

1. 問題定義 (Problem)

2. 研究方法 (Methodology)

3. 主要な貢献と発見 (Key Contributions & Results)

3.1 失敗の分類（9 種類の失敗タイプ）

3.2 失敗の根本原因 (12 要因)

3.3 緩和策と放棄の決定

3.4 モデルの進化（GPT-5.1）の影響

4. 意義と示唆 (Significance & Implications)

4.1 理論的意義

4.2 実用的示唆

4.3 結論

関連論文

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities