Evaluating LLMs in the Context of a Functional Programming Course: A Comprehensive Study

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「最新の AI（大規模言語モデル）が、プログラミングの授業で学生を助けることができるのか？」という問いに、特に「OCaml（オックラム）」**という少し特殊で難しい言語を使って答えた研究です。

OCaml は、Python や Java のように世界中で広く使われている「高資源言語」ではなく、使っている人が少ない「低資源言語」です。この研究は、AI が有名な言語では得意でも、マイナーな言語ではどうなるのか、そして教育現場で本当に役立つかを詳しく調べました。

以下に、この研究の内容を**「料理教室」や「魔法の助手」**のような身近な例えを使って解説します。

🍳 研究の舞台：特殊な料理教室（OCaml 講座）

この研究は、マギル大学の 2 年生向け「関数型プログラミング（OCaml）」の授業で行われました。
通常のプログラミング言語（Python など）は、AI が大量のレシピ（データ）を食べて勉強しているので得意ですが、OCaml は**「希少な食材」**を使った料理です。AI はこの食材のレシピをあまり持っていない可能性があります。

研究者たちは、AI の能力を測るために**3 つの「テスト課題」**を用意しました。

1. 📝 課題：λCodeGen（レシピ作成テスト）

内容: 「この料理を作ってください」という自然な言葉の指示（宿題）を与え、AI にコード（レシピ）を書かせる。
例え: 「卵とトマトを使って、卵焼きを作ってください」と言われて、AI がレシピを書く。
結果:
- トップクラスの AI（GPT-4o, o3-mini など）: 約 70% の確率で、完璧なレシピ（正解）を出せました。
- しかし: 有名な言語（Python）のテストでは 90% 以上正解する AI でも、この特殊な言語では少し失敗しました。また、**「レシピは合っているけど、材料の使い方が無駄」や「指示された特別な調理法（関数）を使っていない」**といった、細かいミスも多かったです。
- 下位の AI: 50% 以上が「そもそも料理が作れない（コンパイルエラー）」という状態でした。

2. 🔧 課題：λRepair（失敗料理の直しテスト）

内容: 学生が作った「失敗した料理（バグったコード）」と「失敗の理由（エラーメッセージ）」を AI に見せ、直させる。
例え: 「卵が焦げています」「塩を入れすぎています」というメモ付きで、失敗した料理を渡して「直して」と頼む。
結果:
- 得意分野: 「焦げ（構文エラー）」や「塩分量（型エラー）」の直しは、トップ AI が80% 以上の確率で完璧に直しました。これは AI が非常に得意です。
- 苦手分野: 「味が変（論理エラー）」のような、根本的な考え方のミスは、直すのが難しく、成功率が少し下がりました。
- 面白い発見: 小さな AI モデルでも、この「直し作業」だけは、ゼロから作るよりも上手にできました。

3. 🗣️ 課題：λExplain（料理の理論説明テスト）

内容: 「なぜこの調理法が必要なのか？」「この食材の性質は？」といった理論的な質問に答える。
例え: 「なぜ卵焼きは裏返す必要があるのか？」「この料理の原理を説明して」と頼む。
結果:
- トップ AI: 約 60〜80% の確率で正しく説明できました。
- 問題点: 正解でも、**「必要以上に長々とお説教をする（冗長）」**という癖がありました。学生が「簡潔に教えて」と頼んでも、AI は「実は卵焼きには歴史があって…」と余計な話を加えてしまうのです。
- 下位 AI: 理論的な説明になると、トップ AI と下位 AI の差が最も激しく開きました。

🌟 研究の結論：AI は「万能の助手」だが「完璧な先生」ではない

この研究からわかった重要なポイントは以下の通りです。

AI は「便利すぎる」が「油断できない」
- AI は構文や型の間違いを直すのが非常に得意で、初心者にとって「魔法の助手」として役立ちます。
- しかし、**「論理的なミス」や「複雑な理論」になると、AI も間違えます。しかも、「自信満々に間違ったことを言う」**ことが多いので、学生がそのまま信じてしまうと危険です。
言語によって得意・不得意がある
- 世界中で使われている言語（Python など）に比べると、OCaml のようなマイナーな言語では AI の性能は少し落ちます。これは、AI が勉強した「レシピ集（データ）」が少ないからです。
教育へのアドバイス
- 学生へ: AI に頼りきるのはやめましょう。AI が出した答えは、自分で「本当に正しいか？」を疑ってチェックするスキルが必要です。
- 先生へ: 「AI に答えさせる」のではなく、「AI が出した答えの間違いを見つける」や「AI にあえて間違った答えを出させる」といった、批判的思考を鍛える課題を作るべきです。

🎓 まとめ

この論文は、**「AI はプログラミングの授業で強力なパートナーになれるが、まだ完全な信頼は置けない」**と伝えています。

AI は、**「料理の基礎を教える優秀なアシスタント」にはなれますが、「料理の奥義を教える熟練のシェフ」**にはまだなれていません。学生は、このアシスタントを上手に使いこなしつつ、自分で考える力を磨いていく必要があります。

研究者たちは、この研究結果が、より良い AI ツールの開発や、学生が AI とどう付き合うべきかの指針になればと願っています。

Evaluating LLMs in the Context of a Functional Programming Course: A Comprehensive Study

🍳 研究の舞台：特殊な料理教室（OCaml 講座）

1. 📝 課題：λCodeGen（レシピ作成テスト）

2. 🔧 課題：λRepair（失敗料理の直しテスト）

3. 🗣️ 課題：λExplain（料理の理論説明テスト）

🌟 研究の結論：AI は「万能の助手」だが「完璧な先生」ではない

🎓 まとめ

論文概要

1. 研究背景と課題 (Problem)

2. 研究方法論 (Methodology)

A. 構築されたベンチマーク

B. 評価対象モデル

C. 評価手法

3. 主要な結果 (Results)

全体傾向

タスク別詳細

難易度による影響

4. 主な貢献 (Key Contributions)

5. 意義と結論 (Significance & Conclusion)

Evaluating LLMs in the Context of a Functional Programming Course: A Comprehensive Study

🍳 研究の舞台：特殊な料理教室（OCaml 講座）

1. 📝 課題：λCodeGen（レシピ作成テスト）

2. 🔧 課題：λRepair（失敗料理の直しテスト）

3. 🗣️ 課題：λExplain（料理の理論説明テスト）

🌟 研究の結論：AI は「万能の助手」だが「完璧な先生」ではない

🎓 まとめ

論文概要

1. 研究背景と課題 (Problem)

2. 研究方法論 (Methodology)

A. 構築されたベンチマーク

B. 評価対象モデル

C. 評価手法

3. 主要な結果 (Results)

全体傾向

タスク別詳細

難易度による影響

4. 主な貢献 (Key Contributions)

5. 意義と結論 (Significance & Conclusion)

関連論文

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities