From Raw Corpora to Domain Benchmarks: Automated Evaluation of LLM Domain Expertise

이 논문은 기존 벤치마크의 오염과 편향 문제를 해결하기 위해, 다른 LLM 이나 인력 개입 없이 원시 도메인 코퍼스를 기반으로 자동화된 완성형 평가 벤치마크를 생성하여 LLM 의 도메인 전문성을 확장 가능하고 공정하게 평가하는 새로운 파이프라인을 제안합니다.

Nitin Sharma, Thomas Wolfers, Ça\u{g}atay Yıldız

게시일 2026-03-09
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 기존 방식의 문제: "기억력 테스트"가 아니라 "시험지 유출"과 "운"의 문제

지금까지 AI 가 특정 분야를 잘하는지 확인하려면 **객관식 문제 (MCQ)**를 많이 풀게 했습니다. 하지만 이 방식에는 치명적인 세 가지 문제가 있습니다.

  • 문제 1: 시험지 유출 (Benchmark Contamination)

    • 비유: 학생이 시험을 보기 전에 이미 정답이 적힌 시험지를 훔쳐봤다면, 그 학생이 진짜로 공부를 한 건지, 아니면 그냥 암기한 건지 알 수 없죠.
    • 현실: AI 모델들은 학습할 때 인터넷의 방대한 데이터를 먹는데, 그 데이터에 이미 유명한 시험 문제들이 섞여 있는 경우가 많습니다. 그래서 AI 가 문제를 풀고 있다고 착각하지만, 사실은 그냥 "이거 전에 봤어"라고 외운 것일 뿐입니다.
  • 문제 2: 답안지 순서 바꾸기 (Ordering Bias)

    • 비유: 시험 문제에서 정답이 'A'번이라고 해두면, AI 는 'A'번을 고르는 습관이 생깁니다. 하지만 정답을 'C'번으로 순서만 바꿔주면, 똑똑한 AI 가 엉뚱한 답을 고르는 경우가 생깁니다.
    • 현실: AI 가 진짜 지식을 가지고 있는지, 아니면 문제의 형식이나 답안 순서에 맞춰서 찍고 있는지 구분하기 어렵습니다.
  • 문제 3: 전문가가 직접 만들어야 해서 비쌈

    • 비유: 의학 시험지를 만들려면 의사들이 직접 문제를 내고 정답을 확인해야 합니다. 시간이 너무 오래 걸리고 비용이 많이 듭니다.

2. 이 논문의 해결책: "빈칸 채우기"로 진짜 실력을 측정하다

이 논문은 "객관식 시험"을 버리고, "빈칸 채우기 (Completion)" 방식을 제안합니다. 마치 연필로 빈칸을 채우는 국어 시험처럼요.

🛠️ 새로운 방식의 작동 원리 (자동화 공장)

이 논문은 자동화 공장을 운영한다고 상상해 보세요.

  1. 원재료 수집 (Raw Corpora):
    • 공장은 특정 분야 (예: 인공지능 논문) 의 원고들을 대량으로 가져옵니다.
  2. 핵심 단어 추출 (Keyword Extraction):
    • 공장은 원고에서 중요한 전문 용어 (예: '강화학습', '정책', '보상') 를 찾아냅니다.
  3. 빈칸 만들기 (Prompt-Target Pairs):
    • 이제 공장은 원고 문장을 가져와서, 중요한 단어 부분을 지워버리고 빈칸을 만듭니다.
    • 예시: "강화학습에서 에이전트가 환경을 통해 얻는 보상을 최대화하는 것을 ___ 라고 합니다." (빈칸: '정책' 또는 '보상')
  4. AI 시험 치르기:
    • AI 에게 "빈칸에 들어갈 단어를 맞춰봐"라고 합니다.
    • AI 가 그 단어를 얼마나 자연스럽게, 그리고 정확하게 예측하는지 **순위 (Rank)**로 점수를 매깁니다.

✨ 이 방식의 장점

  • 유출 불가: 공장은 실시간으로 최신 원고에서 문제를 만들어냅니다. AI 가 학습할 때 이 최신 문제를 볼 수 없으니, 유출될 리가 없습니다.
  • 공정한 비교: 객관식이 아니므로 답안 순서를 바꿔도 점수가 변하지 않습니다.
  • 자동화: 사람이 일일이 문제를 만들지 않아도 됩니다. 원고만 있으면 AI 가 알아서 문제를 만들어냅니다.

3. 실험 결과: "진짜 공부한 학생" vs "기만하는 학생"

연구팀은 이 새로운 방식으로 AI 들을 시험해 보았습니다.

  • 결과 1: 진짜 지식은 '빈칸 채우기'로 드러난다.

    • AI 가 특정 분야 (예: 물리학) 에 대해 더 많이 학습했을 때, 빈칸 채우기 점수는 확실히 올라갔습니다. 하지만 기존에 쓰던 '퍼플렉시티 (Perplexity, 언어 모델의 예측 오차율)'나 '객관식' 점수는 학습 정도를 제대로 반영하지 못했습니다.
    • 비유: 학생이 물리책을 많이 읽었을 때, 빈칸 채우기 시험은 성적이 오릅니다. 하지만 기존 시험지는 성적이 그대로이거나 오히려 떨어지기도 했습니다.
  • 결과 2: "대화형 AI"는 때로 지식을 잃는다 (Alignment Tax).

    • 우리가 일상에서 쓰는 대화형 AI (챗봇) 는 원래의 모델에 "예의 바르게 말해라"라고 추가 학습 (Instruction Tuning) 을 받습니다.
    • 놀랍게도, 이 과정을 거치면 전문 지식 (빈칸 채우기 능력) 이 오히려 떨어지는 경우가 많았습니다.
    • 비유: 천재 물리학자가 "예의 바르게 말해라"는 훈련을 받다가, 갑자기 물리 공식이 기억나지 않게 되는 것과 같습니다. 이를 **'정렬세 (Alignment Tax)'**라고 부릅니다.

4. 결론: 왜 이 연구가 중요한가?

이 논문은 **"AI 의 전문성을 측정하는 새로운 자물쇠"**를 만들었습니다.

  • 기존: "이 AI 가 객관식 문제를 잘 풀까?" (유출 위험, 형식 편향)
  • 새로운: "이 AI 가 전문 용어를 빈칸에 자연스럽게 채울 수 있을까?" (유출 방지, 자동화, 공정함)

이 방법은 의사가 새로운 의학 지식을 배웠는지, 변호사가 최신 판례를 알고 있는지, 혹은 AI 가 특정 분야에 진정으로 '전문가'가 되었는지를 비용 없이, 빠르고, 정확하게 확인할 수 있게 해줍니다.

한 줄 요약:

"기존의 객관식 시험은 AI 가 답을 외웠는지, 운이 좋은지 알 수 없게 만들지만, 이 논문이 제안한 '자동 빈칸 채우기' 방식은 AI 가 진짜로 그 분야를 공부했는지, 그리고 대화형 AI 가 될 때 지식을 잃지 않았는지를 정확히 보여줍니다."