What Is Missing: Interpretable Ratings for Large Language Model Outputs

この論文は、主観的な数値評価の代わりに「何が不足しているか」という自然言語フィードバックに基づいてモデル出力を評価する「What Is Missing (WIM)」という新しい評価システムを提案し、これにより学習信号の質を向上させつつ、評価の根拠となるテキストを確認可能にする解釈性を付与することを示しています。

Nicholas Stranges, Yimin Yang

公開日 2026-03-06
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、AI(特に大規模言語モデル)をより賢く、人間に好かれるように教えるための「新しい採点方法」について書かれています。

タイトルは**「What Is Missing(何が足りないか)」、略してWIM**です。

これまでの AI の教育方法と、この新しい方法がどう違うのか、料理と料理評論家の話に例えてわかりやすく説明しますね。


🍽️ 従来の方法:「10 点満点の料理」の問題

これまで、AI に料理(回答)を作らせて、人間や別の AI がそれを**「10 点満点の数字」**で評価していました。
例えば、「この料理は 8 点」「あの料理は 7 点」といった具合です。

ここには 2 つの大きな問題がありました。

  1. 「同じ点数」の壁
    「8 点」と「8 点」の料理があったとします。どちらが本当に優れているのか、数字だけではわかりません。「8 点」の中に、実は「完璧に近い 8 点」と「ちょっと惜しい 8 点」が混在しているのです。

    • 結果: AI は「どっちが勝ったの?」と混乱して、上手に成長できません(学習信号が弱くなる)。
  2. 「なぜ 8 点なのか?」がわからない
    料理評論家が「8 点」とだけ言っても、料理人は「塩が足りなかったのか?火加減が悪かったのか?」がわかりません。

    • 結果: AI は「次はどう直せばいいの?」がわからず、同じミスを繰り返してしまいます。

🕵️‍♂️ 新しい方法:WIM(何が足りないか)の魔法

この論文が提案するWIMは、数字で採点する代わりに、「この料理に何が足りていないか?」という言葉での批評を重視します。

具体的な仕組み(3 ステップ)

  1. AI が料理を作る
    AI が回答(料理)を出します。
  2. 審査員が「不足リスト」を書く
    審査員(人間や別の AI)は、点数をつけるのではなく、**「この回答には〇〇という情報が抜けている」「ここがもっと詳しく書かれていない」**といった具体的な文章を書きます。
    • 例:「海蛇の火耐性の仕組みについての説明が抜けている」
  3. AI が「似ている度」を計算する
    ここが技術的なポイントですが、AI は「元の回答」と「不足リスト」を比較します。
    • もし「不足リスト」が短くて、**「何も足りない!」**という内容なら、AI の回答は完璧に近いとみなされます(高得点)。
    • もし「不足リスト」が長くて、**「ここもここも抜けてるよ!」**という内容なら、AI の回答は未完成とみなされます(低得点)。

この「不足リストの長さや内容」を数学的に計算して、0 から 1 の間の細かい点数に変換します。


🌟 なぜこれがすごいのか?(メリット)

1. 同点(タイ)が激減する!

従来の「10 点満点」だと、多くの料理が「7 点」や「8 点」に集中してしまいました。
でも、WIM だと、「何が足りないか」が微妙に違うので、点数も**「0.78」「0.82」「0.91」**のように細かく分かれます。

  • メリット: AI は「どっちが勝ったか」がはっきりわかるので、**「あっちの方が少しだけ上手だった!」**と学習できます。

2. 理由がわかる(解釈可能性)

「8 点」ではなく、「海蛇の仕組みの説明が抜けている」という言葉が残ります。

  • メリット: 開発者は「あ、この AI は科学的な詳細を説明するのが苦手なんだな」と理由が明確にわかるので、改善がしやすくなります。まるで、料理人が「塩が足りなかった」というメモを見て、次は塩を多めに入れるようなものです。

3. 既存のシステムにそのまま使える

この方法は、AI を教えるための「新しい教科書」を作る必要はありません。既存の「採点システム」に、この「不足リスト」を流し込むだけで、より賢い AIを作ることができます。


🎓 まとめ

この論文は、**「AI に『何点』と数字で採点するのではなく、『何が足りないか』を言葉で教えてあげよう」**というアイデアを提案しています。

  • 昔: 「8 点」→「うーん、8 点か。でも、どう直せばいいの?」(AI 混乱)
  • 今(WIM): 「海蛇の仕組みの説明が抜けている」→「あ、そこを詳しく書けばいいんだ!」(AI 成長)

これにより、AI はよりスムーズに、より人間に好かれる答えを学べるようになるのです。まるで、優秀な料理人が「味付けはいいけど、盛り付けが少し寂しいね」という具体的なアドバイスを受けることで、次は完璧な料理を作れるようになるようなものです。