Widespread use of invalid statistical tests in biomedical machine learning

原著者： Zeng, T., Li, H., Zhang, S., Tan, Y. Q., Tian, F., Orban, C., An, L., Che, W., Cheng, J., Chong, J. S. X., Dehestani, N., Dong, Z., Li, X., Li, Z., Lim, M. J. R., Lin, Y., Ling, Q., Ling, Z., Low, X.

公開日 2026-05-22

📖 1 分で読めます☕ さくっと読める

閲覧： bioRxiv ↗PDF ↗

CC BY 4.0

原著者： Zeng, T., Li, H., Zhang, S., Tan, Y. Q., Tian, F., Orban, C., An, L., Che, W., Cheng, J., Chong, J. S. X., Dehestani, N., Dong, Z., Li, X., Li, Z., Lim, M. J. R., Lin, Y., Ling, Q., Ling, Z., Low, X. Z., Mansour L., S., Ng, K. K., Nguyen, T. T., Ooi, L. Q. R., Pande, S., Qian, X., Ruan, J., Wang, Z., Xie, Y., Zhang, C., Zhang, Y., Patil, K., Parkes, L., Dhamala, E., Chopra, S., Zalesky, A., Holmes, A., Eickhoff, S., Zhou, J. H., Renaud, O., Dosenbach, N., Kording, K. P., Bzdok, D., Nichols, T., Yeo, B. T. T.

原論文は CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/) でライセンスされています。 ⚕️ これは査読を受けていないプレプリントのAI生成解説です。医学的助言ではありません。この内容に基づいて健康上の判断をしないでください。免責事項の全文を読む

あなたが二人の新しいレシピのうち、どちらが最も美味しいケーキを作るかを決める裁判官だと想像してください。公平を期すため、各レシピで一つずつケーキを焼き、一度だけ味見をするだけでは不十分です。代わりに、レシピ A で 10 個、レシピ B でも 10 個のケーキを焼き、10 人の異なる友人に味見をしてもらいます。

問題：「グループハグ」の誤り

生体医学における機械学習（医療データからパターンを見つけるためにコンピュータを用いる分野）の世界では、科学者たちは「交差検証」と呼ばれる類似の手法を行っています。彼らはデータを 10 の断片に分割し、9 つの断片でコンピュータモデルを訓練し、残りの 1 つでテストします。これを 10 回繰り返します。

この論文は、科学者たちの大半がここで致命的な過ちを犯していると主張しています。彼らはこれらの 10 回のテスト結果を比較する際、各テスト結果が完全に独立しているという前提に立つ標準的な数学ツール（例えば、対 t 検定など）を使用します。これは、互いに一度も会ったことのない 10 人の見知らぬ人にケーキを味見させるようなものです。

しかし実際には、これらの 10 回のテストは独立していません。それらはすべて同じ基盤となるデータを見ており、単に切り分け方が異なるだけです。これは、同じ 10 人の友人に 10 回連続してケーキを味見させるようなものです。友人たちは互いを知っており、似たような好みを持っているため、彼らの意見は「相関」しています。

この論文は、この関連性を無視することで、科学者たちはわずかに曲がった定規を使っているのだと指摘します。彼らは非常に精密であると信じていますが、実際には「統計的な幽霊」を見ています。実際には存在しないモデル間の差異を見つけ出し、膨大な数の「誤報（偽陽性）」を引き起こしているのです。

調査：グローバル監査

著者たちは単に推測したわけではありません。彼らは探偵のように調査を行いました。彼らは、トップクラスの医学誌（非常に有名で影響力があることを示す高い「インパクトファクター」を持つもの）に掲載された 210 の高名な研究をレビューしました。

発見： 驚くべきことに、これらの研究の 97% が「グループハグ」の誤りを犯していました。彼らは依存関係のあるテスト結果を、独立したものとして扱っていたのです。
範囲： これは数少ない「悪い」研究だけの問題ではありませんでした。雑誌の知名度がどうであれ、規則がどれほど厳格であれ、科学者たちがデータを公開していたかどうかに関わらず、この問題は発生しました。これは分野全体に広まっている習慣です。

シミュレーション：どれほど深刻か

この問題がどれほど危険かを証明するため、著者たちは 420 種類の異なるコンピュータシミュレーションを実行しました。彼らは、テスト結果が相互に関連しているという事実を無視すると、以下のことが起こることを発見しました。

「誤報」の率が急騰します。
テストを何度も繰り返す（「反復交差検証」と呼ばれる一般的な手法）場合、誤報を発生させる確率はほぼ 100% にまで上昇します。これは、くじ引きに毎回当たったと告げられるようなもので、実際には何も当たっていないにもかかわらずです。

解決策：「SHARP」テスト

この論文は、この問題を修正することが難しいと説明しています。標準的な手法では、結果が似ているのはモデルが実際に優れているからなのか、それともデータ断片同士が互いに似すぎているからなのかを区別できないからです。これは、友人たちが同意しているのが頭が良いからなのか、それとも単に互いにコピーしているからなのかを突き止めようとするようなものです。

これを解決するため、著者たちは「SHARP（Split-HAlf RePeated：分割・半反復）」と呼ばれる新しい手法を提案しています。

仕組み： 10 人の友人に 10 回ケーキを味見させる代わりに、彼らを 2 つの別のグループに分けると想像してください。グループ 1 は実験の前半でケーキを味見し、グループ 2 は後半で味見します。これらのグループは明確に区別され、分離しているため、「共鳴室」効果なしに、彼らがどの程度自らの意見で一致しているかを測定できるようになります。
結果： 著者たちが SHARP を他の 12 の手法と比較してテストしたところ、明確な勝者となりました。それは、誤報を低く抑えつつ、モデル間の実際の差異を検出できる唯一の手法でした。

結論

この論文は、現在の医療 AI モデルを比較する方法は破綻していると結論付けています。これは、命を救う薬の材料を量るために壊れたはかりを使っているようなものです。著者たちは、科学者が数学を修正し、あるモデルが他よりも優れていると主張する際に、実際に真実を語っていることを保証するための、新しいシンプルな規則集（ベストプラクティス）を提供しています。

技術的概要：生体医学機械学習における無効な統計的検定の広範な使用

関連論文