原著者： Ali Keramati, Jie Cao, Iman Mohammadi, Mark Warschauer, Yang Shi

公開日 2026-06-15

📖 1 分で読めます☕ さくっと読める

原著者： Ali Keramati, Jie Cao, Iman Mohammadi, Mark Warschauer, Yang Shi

原論文は CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) でライセンスされています。 ✨ これは以下の論文のAI生成解説です。著者が執筆または承認したものではありません。技術的な正確性については原論文を参照してください。免責事項の全文を読む

あなたは、大規模なプログラミングの授業に向けて準備をしている教師だと想像してください。あなたは、学生が間違いを犯すことは分かっていますが、実際に授業を行い、彼らの宿題を回収するまで、具体的に「どのような」間違いをするのかを予測することはできません。これは時間がかかり、コストも高いプロセスです。

この論文は、シンプルな問いを投げかけています。「超高性能なAI（大規模言語モデル、LLM）を使って、混乱している学生のふりをさせ、事前にその間違いを生成させることはできるだろうか？」

以下に、日常的な例えを用いた実験内容の解説をまとめます。

目的：「偽の学生」テスト

研究者たちは、AIが、初心者である学生が書いたようなJavaコード（特に論理エラーを持つコード）を書けるかどうかを検証したいと考えました。

論理エラーとは、レシピに「塩を適量加える」と書いてあるのに、実際に塩を加えるのを忘れてしまうようなものです。コンピュータはコードを実行できますが、思考プロセスに欠陥があるため、結果が間違ったものになります。
課題： 単にAIに「コードを書いて」と頼むと、AIは通常、完璧なコードを書きます。逆に「コードを壊して」と頼むと、AIは（人間が実際には決してしないような）カンマを入れるべき場所にピリオドを置くといった、ラン {random} で愚かなミスをすることがよくあります。目標は、AIに現実的な間違いをさせることでした。

実験：「味のテスト」

研究者たちは、実際の教室（CodeWorkout）から37種類の異なるプログラミング問題をピックアップしました。そして、5つの異なるAIモデルに対し、間違いを強制させるために3つの異なる「指示スタイル（プロンプト）」を用いて解かせました。

直接命令 (IO): 「これが問題です。間違った答えを出してください。」
思考の言語化 (CoT): 「ステップごとに考え、どこでミスをしそうかを判断してから、間違ったコードを書いてください。」
自己修正ループ (Self-Refine): 「間違った答えを書き、それを批判し、少し修正して、別の種類の間違った答えにしてください。」

その後、AIが生成した「偽の間違い」を、実際の学生による74,000件の「実際の間違い」と比較しました。

優れた「偽物」のための2つの主要ルール

AIの偽の間違いが有用であるためには、2つのテストに合格しなければなりません。

多様性（バラエティ・テスト）： AIは多くの異なる種類の間違いを作ったでしょうか？それとも、同じエラーを何度も繰り返したでしょうか？（例えば、シェフが10種類の異なる焦げたクッキーを作ろうとしている場面を想像してください。もしそれらがすべて全く同じ見た目なら、それは多様性に欠けています）。
整合性（「リアリティ」テスト）： AIの間違いは、人間が実際に起こし得るものに見えるでしょうか？（もしAIが、人間では決して思いつかないような方法でコードを間違えた場合、それは優れたシミュレーションとは言えません）。

研究結果

1. AIは間違いを作れるが、すべてのAIが平等ではない
すべてのAIモデルが多様なエラーを生成できました。しかし、モデルによって性能に差がありました。

Gemini 2.5 Proは、まるで「混沌とした芸術家」のようでした。非常に多様な間違い（高い多様性）を作りましたが、その多くは奇妙で、実際の学生のエラーとはかけ離れたものでした。
GPT-4oは、「慎重な学生」のようでした。非常に似通った間違いを何度も繰り返しました（低い多様性）。
Claude Sonnet 4は、グループの中で**「ゴルディロックス（ちょうど良い存在）」**でした。最も優れたバランスを見出しました。十分な種類の異なる間違いを作りつつ、それらは実際の学生が書くものに非常に近いものでした。

2. 「思考の言語化」のトリックが効果を発揮した
コードを書く前に「ステップ・バイ・ステップで考える」（Chain-of-Thought）ようAIに指示すると、間違いはより現実的なものになりました。それは、AIが単にランダムにコードを壊しているのではなく、学生が混乱していくプロセスをシミュレートしているかのようでした。

3. 「難易度」の要因
研究者たちは、（学生がどれだけその問題を苦戦したかに基づいて）問題がどれほど「困難」であるかを調査しました。

簡単な問題： AIは学生の模倣に優れた成績を収めました。
難しい問題： 問題が難しくなるにつれ、AIの間違いはより多様になりました（多くの異なる誤った経路を試みました）が、同時に、実際の学生との類似性は低下しました。これは、経験の浅い俳優が複雑なシーンを演じようとしているようなものです。彼らは多くの異なる解釈を試みるかもしれませんが、どれも実在する人間の演技のニュアンスを完全には捉えきれません。

**4. 「ブラインド・テイスト・テスト」（人間の専門家による評価）
研究者たちは、実際の学生のコードとAIが生成したコードを混ぜたものを見て、どちらがどちらであるかを知らない状態で、人間の専門家を雇いました。

結果： 専門家は 83.7% の確率で騙されました。彼らはAIのコードを人間が書いたものだと判断しました。
意外な展開： 専門家は、AIの間違いの方が、実際の学生の間違いよりも「もっともらしい（現実的である）」と評価しました。なぜなら、AIは「綺麗な」間違い（教科書的な典型的なエラーなど）を作る一方で、実際の学生は複数のエラーが混ざり合った、より乱雑で複雑な間違いを犯すからです。AIは「理想化された」混乱した学生であり、実際の学生はもっと「散らかった」状態にあるのです。

結論

この論文は、AIが現実的なプログラミングエラーを生成するための「代役」として機能できることを証明しています。

Claude Sonnet 4 は、現在最も優れた「学生シミュレーター」です。
より難しい問題は、AIをより創造的にさせますが、人間の行動に対する正確性は低下させます。
トレードオフ： 膨大な種類のミスを作るAIか、あるいは非常に現実的なミスを作るAIか、両方を完璧に両立させることは困難です。

研究者たちは、これが教師や教育ソフトウェアの開発者にとって強力なツールになると示唆しています。数千件の実際的な学生のミスを収集するために何年も待つ代わりに、これらの「偽の」ミスを利用して、より優れたチュータリングツールを構築したり、教師が学生がどこで躓くかを予測するのを助けたりすることができるのです。

技術要約：大規模言語モデルを用いた学生のJavaプログラミングエラーのシミュレーション

問題提起

学生のエラーを理解することは、プログラミング教育において不可欠であり、特に論理的な誤り（背後にある誤解や不適切な推論戦略を明らかにするもの）を特定する上で重要である。しかし、新しく設計されたタスクに対して、真正な学生のエラーの代表的なセットを入手することは、教室での大規模な展開とデータの蓄積を必要とするため、時間がかかりコストも高い。大規模言語モデル（LLM）は学習者の振る舞いをシミュレートするためのスケーラブルな道筋を提供するが、現在のアプローチには決定的なギャップが存在する。すなわち、一般的なプロンプティングは正しい解法を生成する傾向があり、一方でランダムな破損戦略は教育的価値に欠ける人工的なバグを生み出す。核心となる課題は**識別不能性（indistinguishability）**である。つまり、単なる表面的なノイズではなく、初学者が陥る特有のやり方（部分的な理解や特定の誤解を反映したもの）で誤りを生成することである。さらに、既存の評価インフラは、エラーパターンの多様性や整合性よりも、絶対的な正解性に重点を置いていることが多い。

手法

本研究では、バージニア工科大学の学部生から収集された37種類の入門プログラミング問題にわたる、74,000件以上のユニークな学生によるJava提出物を含むCodeWorkoutデータセットを活用している。

実験設計

データ準備: 著者らは、生のログをフィルタリングし、構文エラーと完全に正しい提出物を除外した上で、コンパイル可能だが不正確なコード（論理エラー）のみを保持した。問題は、経験的な学習難易度のプロキシとして、問題ごとの学生提出物の総量に基づき、3つの苦戦レベル（Struggling Levels）（低、中、高）に分類された。
LLMシミュレーション: 5つのLLMを評価した：Google Gemini 2.5 Pro, OpenAI GPT-5, OpenAI GPT-4o, Anthropic Claude Sonnet 4, xAI Grok Code Fast 1。
プロンプティング戦略: 各モデル/問題の組み合わせに対して、3つの異なる戦略をテストした：
- 入出力（IO）: 中間的な推論なしの直接的な指示。
- 思考の連鎖（CoT）: モデルがコードを生成する前に、論理的なミスに関する根拠を明文化する。
- 反復的自己洗練（Iterative Self-Refine）: クリティック（批評家）がフィードバックを提供し、リファイナー（洗練者）がコードを書き換える反復ループ（最大4回まで）。
評価指標:
- 多様性（RQ1）: 生成された誤ったコード間の平均ペアワイズZhang–Shasha (ZSS) 木編集距離によって測定。距離が高いほど、構造的なバリエーションが大きいことを示す。
- 整合性（RQ2）: LLMが生成したコードと、最も近い真正な人間による提出物との間の最近傍編集距離によって測定。距離が低いほど、実際の学生のエラーに対する忠実度が高いことを示す。
- 定性的検証: 合成エラー（Claude Sonnet 4によるSelf-Refineを使用）と真正なエラーを比較したブラインド形式の専門家アノテーション調査（ $N=401$ ）を実施。専門家は妥当性（plausibility）（1–5のリッカート尺度）を評価し、ソース帰属（source attribution）（チューリングテスト）を行い、エラーを8つの論理エラー・タクソノミーに分類した。

主要な結果

1. 多様性 (RQ1)

すべてのモデルは多様な誤ったコードを生成する能力を示したが、パフォーマンスはモデルと戦略によって大きく異なった。

Gemini 2.5 Pro と Claude Sonnet 4 は最も高い多様性を示し、CoTプロンプティングを使用した場合、平均編集距離がしばしば60を超えた。
GPT-4o は、最も均質で多様性が低い（距離 ~25–40）エラーパターンを生成した。
プロンプティングの影響: 戦略によって多様性は異なる影響を受けた。例えば、Self-RefineはClaude Sonnet 4における多様性を減少させたが、他の文脈では増加させた。

2. 整合性 (RQ2)

真正な学生のエラーを模倣する能力はモデルによって異なり、多様性との明確なトレードオフが見られた。

Claude Sonnet 4 は、すべての戦略において比較的低い編集距離（ベストケース：Self-Refineで16.35）を維持しており、最もバランスの取れたパフォーマンスを実現し、人間によるエラーへの強い整合性を示した。
Grok Code Fast 1 は、Self-Refineを用いて絶対的な最小距離（16.22）を達成したが、他のプロンプトでは高い分散を示した。
GPT-5 と Gemini 2.5 Pro は整合性が低く、距離がしばしば80を超えており、彼らのエラーは真正な学生のパターンから大きく逸脱していることを示唆している。
人間による評価: アノテーターは、LLMが生成した提出物の83.7%を人間が書いたものと誤分類した。驚くべきことに、LLMが生成したエラーは、真正なエラーよりも有意に高い妥当性スコア（4.27）を得た（真正なエラーは3.78）。これは、LLMが「クリーン」で単一目的の論理的バグ（例：条件ロジック、境界エラー）を生成し、それが教科書的な誤解に似ているためであると考えられる。一方、真正な学生のコードは、分類が困難な、拡散した多重の欠陥や戦略レベルのエラーを含んでいることが多い。

3. 調節変数としての苦戦レベル (RQ3)

プログラミングタスクの難易度（苦戦レベル）は、多様性と整合性の両方に影響を与えた。

多様性: 高い苦戦レベルは、LLMからより多様な（不均質な）エラー出力を引き出した。これは、困難な問題ほど失敗の経路が多く開かれるためである。
整合性: 逆に、苦戦レベルが高くなるにつれて、LLM生成エラーと真正なエラーとの間の整合性は低下した（編集距離が増大した）。モデルは、高難度の問題において学生のような論理的エラーを再現することが困難になり、真正な振る舞いからさらに乖離した。

重要性と貢献

本論文は、LLMが学生の論理的エラーを生成するスケーラブルなプロキシとして機能できると主張しているが、それにはアプリケーションの目的に応じて管理すべき特定のトレードオフが存在する。

バランスの取れたシミュレーション: Claude Sonnet 4 が最もバランスの取れたモデルとして特定された。これは、多様なエラーパターンを生成することと、真正な学生のミスへの高い忠実度を維持することの間の妥協案を提供している。
教育的有用性: 本研究は、合成エラーが専門家にとって真正なエラーと機能的に区別できないことを検証している。これは、以下の分野への合成データの統合を支持するものである：
- インテリジェント・チュータリング・システム (ITS): 希少な人間データに依存することなく、多様な誤解を診断するシステムを訓練するため。
- ティーチャブル・エージェント: 学習者がAI生成のエラーを修正することでデバッグを練習し、代理学習を促進するため。
- 教師の専門性開発: 教育者が、より良い指導計画のために、予想される誤解の集中したバリエーションに触れるため。
設計上の考慮事項: 本知見は、多様性と忠実度のトレードオフを浮き彫りにしている。多様性に優れたモデル（例：Gemini）は整合性に欠ける可能性があり、整合性が高いモデルは多様性が低くなる可能性がある。さらに、「苦戦レベル」は二重の調節変数として機能する。それは、生成されるエラーの幅を広げる一方で、実際の学生の振る舞いの代表性を低下させる。

著者らは、LLMは教育テクノロジーにおける学生データの拡張のための有望な手段であるが、その使用には、広範な誤解のカバーを目的とするのか、あるいは観察された教室のエラー分布の精密な近似を目的とするのかに応じて、モデルとプロンプティング戦略を慎重に選択する必要があると結論付けている。

Simulating Students' Java Programming Errors with Large Language Models