The MCC approaches the geometric mean of precision and recall as true negatives approach infinity

이 논문은 이진 분류기에서 참 음성 (TN) 수가 무한히 증가할 때 매튜스 상관계수 (MCC) 가 정밀도와 재현율의 기하평균인 포울키스 - 말로우즈 (FM) 점수로 수렴함을 증명하고, 이를 생태학 문헌의 기존 결과와 연결하며 Lean 을 활용한 형식적 증명과 LLM 의 역할에 대해 논의합니다.

Jon Crall

게시일 2026-03-19
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 머신러닝 (특히 물체 감지) 을 평가할 때 사용하는 **'점수 계산법'**에 대한 흥미로운 수학적 발견을 담고 있습니다. 복잡한 수식 대신, 일상적인 비유를 통해 쉽게 설명해 드릴게요.

🕵️‍♂️ 핵심 이야기: "거의 없는 것"이 점수에 미치는 영향

이 논문의 주인공은 MCC라는 점수입니다. 이 점수는 AI 가 얼마나 잘 물체를 찾아냈는지 평가하는 '만능 척도'로 불립니다. 하지만 이 점수를 계산하려면 네 가지 데이터가 필요합니다.

  1. 정답을 맞춘 경우 (TP): AI 가 "고양이"라고 했는데 진짜 고양이였다.
  2. 오탐 (FP): AI 가 "고양이"라고 했는데 사실은 개였다.
  3. 미탐 (FN): 진짜 고양이가 있는데 AI 가 못 찾았다.
  4. 정답을 맞춘 부정 (TN): AI 가 "고양이 아님"이라고 했는데, 진짜로 고양이가 아니었던 것.

🌌 문제 상황: "하늘의 별"처럼 많은 TN

여기서 문제가 생깁니다. **TN(정답을 맞춘 부정)**의 숫자를 세는 일이 얼마나 힘든지 상상해 보세요.

  • 상황: 우리가 AI 에게 "사진 속 고양이를 찾아라"라고 시켰습니다.
  • 현실: 사진 속에는 고양이 1 마리만 있지만, 고양이가 아닌 것은 어마어마하게 많습니다.
    • 사진의 모든 픽셀 조합, 모든 크기, 모든 각도... 이 모든 것이 "고양이가 아님"으로 분류될 수 있습니다.
    • 마치 하늘에 있는 모든 별을 세는 것과 비슷합니다. "고양이가 아닌 것"의 숫자는 사실상 무한대에 가깝습니다.

이처럼 TN(고양이가 아닌 것) 의 숫자가 너무 많으면, MCC 점수를 계산하는 것이 현실적으로 불가능해집니다. 그래서 많은 연구자들은 TN 을 무시하고 **정답 (TP), 오탐 (FP), 미탐 (FN)**만 보고 점수를 매기기도 합니다 (이를 F1 점수나 FM 점수라고 합니다).

🧙‍♂️ 논문의 발견: "무한대"가 되면 어떻게 될까?

저자는 궁금해했습니다.

"만약 TN(고양이가 아닌 것) 의 숫자가 무한대로 커진다면, MCC 점수는 어떻게 변할까? 혹시 우리가 무시했던 다른 점수 (FM 점수) 와 똑같아지지 않을까?"

결과는 놀랍습니다.
TN 의 숫자가 무한히 커지면, MCC 점수는 정확히 FM 점수 (정밀도와 재현율의 기하평균) 와 똑같아집니다.

🍎 쉬운 비유: "과일 바구니"와 "무한한 돌"

이해를 돕기 위해 비유를 들어보겠습니다.

  • 상황: 여러분은 바구니에 있는 **사과 (TP)**를 찾고 있습니다.
  • 문제: 바구니에는 사과뿐만 아니라 **돌 (TN)**도 엄청나게 많습니다.
  • 평가:
    • MCC 점수: "사과를 얼마나 잘 찾았는지"와 "돌을 얼마나 잘 피했는지"를 모두 고려한 점수입니다. 하지만 돌의 숫자가 우주만큼 많다면 (무한대), 돌을 피한 능력은 점수 계산에 거의 영향을 주지 않게 됩니다.
    • FM 점수: "사과를 얼마나 잘 찾았는지"와 "사과를 놓치지 않았는지"만 고려한 점수입니다. (돌은 아예 무시함).

논문의 결론:
"돌 (TN) 의 숫자가 우주만큼 많아지면, '돌을 피하는 능력'은 점수에 영향을 주지 않게 됩니다. 따라서 '모든 것을 고려한 MCC 점수'는 자연스럽게 '사과만 본 FM 점수'와 완전히 똑같은 값이 됩니다."

💡 왜 이 발견이 중요한가요?

  1. 이론적 확신: "TN 을 무시하고 FM 점수를 쓰는 게 그냥 편해서가 아니라, 수학적으로도 TN 이 무한대일 때 MCC 와 똑같은 결과를 낸다"는 것이 증명되었습니다.
  2. 실용적 의미: 물체 감지 (Object Detection) 같은 분야에서 TN 을 세는 게 불가능할 때, FM 점수를 써도 "MCC 를 쓴 것과 수학적으로 동일한 결론"을 내릴 수 있다는 안도감을 줍니다.
  3. AI 의 역할: 이 논문은 **LLM(거대언어모델)**이 어떻게 수학적 증명을 도와주고, 다른 분야 (생태학) 에서 이미 알려진 사실을 찾아내는지 보여주는 사례이기도 합니다. (생태학에서는 '두 종이 함께 발견되는 빈도'를 분석할 때 같은 수학적 원리를 발견했습니다.)

📝 한 줄 요약

"고양이가 아닌 것 (TN) 이 무한히 많다면, '전체적인 평가 (MCC)'와 '고양이만 본 평가 (FM)'는 결국 같은 점수가 됩니다."

이 논문은 복잡한 수학적 증명 (Lean 4 라는 컴퓨터 프로그램으로 검증됨) 을 통해, 우리가 일상적으로 사용하는 평가 지표들이 서로 어떻게 연결되어 있는지를 밝혀냈습니다.