Who Judges the Judge? Evaluating LLM-as-a-Judge for French Medical open-ended QA

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI が医療のテスト答案を採点できるのか？」**という面白い疑問に答える研究です。

具体的には、フランス語で書かれた「医療に関する自由記述式の質問」に対して、AI が生成した答えが正しいかどうかを、別の AI が採点できるかどうかを調べました。

まるで**「AI 先生が、AI 生徒の答案を採点する」**ような状況ですね。でも、その「AI 先生」は本当に信頼できるのでしょうか？

この研究を、3 つの重要なポイントに分けて、わかりやすく解説します。

これまで、AI の答えの正しさをチェックするには、人間（医師など）が一つずつ手作業で採点する必要がありました。これはとても時間がかかります。

そこで、最近流行りの「AI 先生（LLM）」に採点を任せる試みが始まりました。しかし、従来の「単語がどれだけ似ているか」で採点する古い方法（BLEU や ROUGE など）は、医療の世界では役に立ちませんでした。

たとえ話：
患者の症状を説明する際、A さんは「頭がズキズキする」と言い、B さんは「頭痛が激しい」と言いました。意味は全く同じなのに、言葉が違うだけで「不正解」と判定されてしまうのです。
医療では、**「言葉は違っても、医学的に正しいか」**が重要なのに、従来の AI はその微妙なニュアンスを見抜けませんでした。

研究チームは、さまざまな AI 先生（GPT-5.1 や Gemini、MedGemma など）に採点させました。すると、驚くべき事実がわかりました。

**「AI 先生は、誰の答案を採点するかによって、厳しさが変わる」**のです。

たとえ話：
ある AI 先生は、「おしゃべりな生徒（長い文章を書く AI）」の答案は好きですが、「簡潔な生徒（短い文章を書く AI）」の答案を「不十分だ」と厳しく採点してしまいます。
また、同じメーカーの AI が作った答案だと、無意識に甘く採点してしまう傾向（バイアス）も見つかりました。
つまり、**「AI 先生は、生徒の出身校や書き方によって、採点基準を勝手に変えてしまう」**ことがわかったのです。

ここがこの研究の最大の発見です。

巨大で高価な AI 先生ではなく、**「小さくて安価な AI（Phi-3.5-mini）」**を使って、少量のデータ（184 問）で特別トレーニングを行いました。

トレーニング方法：
1. SFT（監督学習）： 医師の正解例を大量に見せて、「こう採点しなさい」と教える。
2. GRPO（強化学習）： 採点した結果をフィードバックし、「もっと医師の考え方に近づけ」とさらに鍛え上げる。
結果：
最初は「何でも正解だ！」と甘く採点していた小さな AI が、トレーニングを経て、「巨大な AI 先生」や「医療特化型の AI」と同等の、正確でバランスの取れた採点ができるようになりました。

これは、**「小さな見習い医師が、短い期間の特別な研修を受けるだけで、ベテラン医師と変わらない採点能力を身につけた」**ようなものです。

AI 採点は便利だが、油断大敵： 今の AI 先生は、誰の答案を採点するかによって結果が変わってしまいます。だから、評価する AI にも「誰の答案を見るか」を考慮する必要があります。
小さくても強い： 巨大な AI じゃなくても、適切なトレーニングをすれば、医療のような専門分野でも信頼できる採点ができるようになります。
人間の医師は必要： AI はあくまで「お手伝い」。最終的な判断は、やはり人間の医師（専門家）が行うべきです。

結論：
この研究は、医療現場で AI を使う際、「どんな AI が採点しているか」に注意しつつ、小さくても賢くトレーニングされた AI を活用すれば、コストをかけずに質の高い評価ができるという道を示しました。

まるで、**「優秀な見習い先生を育てれば、高価な名医を雇わなくても、クラス全体の成績を公平に評価できる」**という、医療 AI 界の新しい可能性を示した論文なのです。

関連論文