The MCC approaches the geometric mean of precision and recall as true negatives approach infinity

この論文は、真陰性数が無限大に近づくにつれて、4 つの分類結果すべてに依存するマシューズ相関係数(MCC)が、真陰性を無視した精度と再現率の幾何平均であるフォークス・マローウスコアに収束することを証明し、その証明を Lean 形式化で示したものである。

Jon Crall

公開日 2026-03-19
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、機械学習(AI)が「正解」を見つけたかどうかを評価する際の数式について、少し不思議で面白い「極限」の話をしています。

専門用語を避け、**「AI のテスト」「宇宙の広さ」**というイメージを使って、わかりやすく解説しますね。

1. 背景:AI のテストと「正解」の難しさ

まず、AI が画像から「猫」を見つけるテストをすると想像してください。
AI は画像の中に「猫がいる(正解)」か「猫はいない(不正解)」かを答えます。

評価には通常、4 つの数字を使います。

  1. 正解(TP): 猫だと予測して、本当に猫だった。
  2. 誤検知(FP): 猫じゃないのに「猫だ!」と騒いできた。
  3. 見逃し(FN): 猫がいるのに「猫じゃない」と見落とした。
  4. 正解の否定(TN): 「猫じゃない」と予測して、本当に猫じゃなかった。

ここで問題なのが**「4. 正解の否定(TN)」です。
「猫じゃない」ものは、空、木、車、石、そして画像の隅々まで……無限に近いほどたくさんあります
「猫じゃない」と正しく判断した回数を数えようとしても、それは「宇宙の砂粒の数」を数えるようなもので、実質的に
無限大**になってしまいます。

2. 2 つの評価基準の対決

AI の性能を測るには、いくつかの「スコア」があります。

  • F1 スコア(F1 Score)
    「正解(TP)」と「誤検知(FP)」と「見逃し(FN)」の 3 つだけを見て評価します。「猫じゃない(TN)」の数は無視します。

    • イメージ: 「猫を見つけること」に特化した評価。
  • MCC(マシューズ相関係数)
    上記の 3 つに加え、「猫じゃない(TN)」の数もすべて含めて評価します。

    • イメージ: 「猫を見つけること」と「猫じゃないと見分けること」の両方を完璧に測る、非常に厳格な評価。

通常、MCC の方が「より正確で完璧な指標」と言われています。しかし、「猫じゃない(TN)」の数が無限大になってしまう場合(例えば、画像の背景全体を評価する場合)、MCC を計算するのは不可能になります。

3. この論文の発見:「無限」の魔法

著者たちは、ある不思議な問いを立てました。
「もし『猫じゃない(TN)』の数が、限りなく無限大に近づいたら、MCC というスコアはどうなる?」

答えはシンプルで、かつ驚くべきものです。

MCC は、無限大になると、F1 スコア(の兄弟分)に「変身」します。

具体的には、MCC は**「Fowlkes-Mallows 指数(FM スコア)」**という値に収束します。
FM スコアは、F1 スコアと似ていますが、少し計算方法が違います(幾何平均を使います)。

【わかりやすい比喩】
MCC という「巨大な船」が、海(TN の数)が広がりすぎて無限の海に漕ぎ出したと想像してください。
最初は船の重さ(TN の数)が重要でしたが、海が広がりすぎると、船の重さの影響は相対的にゼロになります。
すると、船の動きは、「帆(正解 TP)」と「舵(誤検知 FP・見逃し FN)」だけで決まる、よりシンプルな船(FM スコア)と同じ動きをするようになります。

つまり、**「無限に広い世界では、MCC という複雑な指標は、F1 や FM というシンプルな指標と全く同じ結果を出す」**ということです。

4. なぜこれが重要なのか?

  • 現実的な意味:
    物体検出(画像から物体を見つける AI)のような分野では、「猫じゃない」領域は無限大です。これまでは「TN がわからないから MCC は使えない」と言われていましたが、この論文は**「無限大なら、MCC は FM スコアとみなしていいよ」**と証明しました。これで、複雑な計算をしなくても、信頼できる評価が可能になります。

  • 数学的な証明:
    著者たちは、このことが「生態学(動物の生息地調査など)」の分野では昔から知られていたことに気づきました。しかし、機械学習の分野では知られていませんでした。
    さらに、著者たちはこの証明を**「Lean(リーン)」という、コンピュータがチェックできる厳密なプログラミング言語で書き直し、「数学的に間違いないこと」**を機械に保証させました。

5. AI(LLM)の役割

面白いことに、この論文を書く際、著者自身は「Lean」という言語に詳しくありませんでした。そこで、**AI(大規模言語モデル)**に頼りました。

  • 証明の作成: AI が Lean のコードを書き、著者がそれを修正して完成させました。
  • 文献の発見: AI に「この現象は他の分野で知られていないか?」と聞くと、生態学の古い論文を瞬時に見つけてくれました。

まとめ

この論文は、**「無限大という極端な状況では、複雑な評価基準(MCC)は、シンプルで実用的な基準(FM スコア)と全く同じ振る舞いをする」**という数学的な事実を、AI の力も借りて証明したものです。

「広すぎる海では、どんなに大きな船も、帆と舵だけで進む小さなボートと同じ速さになる」
そんなイメージを持っていただければ、この論文の核心はつかめたはずです。