Evaluating LLM-Based Grant Proposal Review via Structured Perturbations

이 논문은 EPSRC 제안서를 대상으로 구조적 변형을 통해 LLM 기반 심사 방식을 평가한 결과, 섹션 단위 분석이 가장 효과적이었으나 현재 LLM 은 명확성 결함을 놓치고 순응성 확인에 치우쳐 고위험 평가에서는 보조적 역할만 수행할 수 있음을 밝혔습니다.

William Thorne, Joseph James, Yang Wang, Chenghua Lin, Diana Maynard

게시일 Tue, 10 Ma
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"인공지능 (AI) 이 연구비 지원 신청서를 심사할 수 있을까?"**라는 매우 실용적이고 중요한 질문을 던집니다.

연구비 신청서 (Grant Proposal) 는 연구자가 "이 연구를 하려면 돈이 필요해요"라고 주장하는 문서입니다. 보통 이걸 심사하는 건 인간 전문가들인데, 신청서가 너무 많아져서 사람들이 지쳐버린 상황입니다. 그래서 연구자들은 "AI 가 대신 심사를 해줄 수 있지 않을까?"라고 생각했습니다.

이 논문은 AI 가 실제로 이 일을 잘할 수 있는지, 그리고 어떤 부분에서 실패하는지를 실험으로 증명했습니다.


🍎 핵심 비유: "과일 장수의 AI 심사관"

이 실험을 이해하기 위해 '과일 장수' 상황을 상상해 보세요.

  1. 상황: 과일 장수 (연구자) 가 매일 사과 (연구 제안서) 를 가져와서 "이 사과가 최고예요, 사세요!"라고 외칩니다.
  2. 문제: 사과가 너무 많이 와서, 장수를 도와주는 심판들 (심사위원) 이 지쳐서 사과를 제대로 고를 수 없게 되었습니다.
  3. 해결책: "AI 심판"을 고용해서 사과를 대신 고르게 해보자는 것입니다.

하지만 AI 심판이 사과를 고를 때, 실수로 사과에 구멍을 뚫거나, 시든 사과를 넣거나, 가격을 터무니없이 높게 적어놓는 등의 '함정'을 넣었습니다. 그리고 AI 가 이 함정을 찾아낼 수 있는지를 테스트한 것이 이 연구입니다.


🔍 실험 내용: AI 가 함정을 찾아냈을까?

연구진은 6 개의 실제 연구 제안서를 가져와서, AI 가 실수할 수 있는 6 가지 유형으로 고쳐보았습니다.

  1. 돈 (Funding): 예산을 터무니없이 높게 책정하거나, 왜 그 돈이 필요한지 설명을 뺐습니다.
  2. 시간 (Timeline): 1 년에 10 년 치 일을 하라고 하거나, 일정이 논리적으로 맞지 않게 했습니다.
  3. 역량 (Competency): 팀원들의 능력을 과장하거나, 중요한 전문가를 빼버렸습니다.
  4. 맞춤 (Alignment): 이 연구가 지원하려는 프로그램의 목표와 전혀 맞지 않게 바꿨습니다.
  5. 명확성 (Clarity): 전문 용어를 설명하지 않거나, 문장이 너무 복잡하게 꼬였습니다.
  6. 영향 (Impact): 이 연구가 세상에 어떤 도움을 줄지 설명을 뺐거나, 엉뚱한 사람을 언급했습니다.

그리고 AI 가 이 6 가지 함정을 찾아내어 "여기 문제가 있어요!"라고 지적했는지 확인했습니다.


🏆 실험 결과: AI 는 어떻게 했을까?

결과는 **"AI 는 꽤 잘하지만, 아직 인간을 완전히 대체할 수는 없다"**는 것이었습니다.

1. 어떤 방식이 가장 좋았을까? (세부 분석 vs 한 번에 다 보기)

  • 한 번에 다 보기 (Baseline): AI 에게 긴 문서 전체를 한 번에 읽게 했더니, 중요한 함정들을 놓쳤습니다. (너무 길어서 집중력이 떨어졌기 때문입니다.)
  • 세부 분석 (Section-Level): 문서를 조각조각 잘라서 하나씩 심사하게 했더니, AI 가 문제를 훨씬 잘 찾아냈습니다.
    • 비유: 긴 소설을 한 번에 읽으려다 결말을 잊어버리는 대신, 장마다 요약해서 읽으면 내용을 더 잘 이해하는 것과 같습니다.
  • 여러 전문가 팀 (Council of Personas): AI 에게 "경제 전문가", "윤리 전문가", "기술 전문가" 등 여러 역할을 부여해서 팀으로 심사하게 했습니다. 하지만 이 방법은 시간만 많이 걸리고 결과는 세부 분석과 비슷하거나 오히려 나빴습니다.
    • 비유: 5 명을 모아 회의를 해도, 각자가 제각각 생각하다 보니 결론이 잘 안 나고 시간만 낭비된 경우와 비슷합니다.

2. AI 가 잘 찾아낸 것 vs 못 찾아낸 것

  • 잘 찾아낸 것: "이 연구는 지원 프로그램의 목표와 맞지 않아" (맞춤 문제) 같은 논리적 오류는 잘 찾아냈습니다.
  • 못 찾아낸 것: "이 전문 용어는 설명이 없네"나 "문장이 너무 복잡해" 같은 명확성 (Clarity) 문제는 거의 찾아내지 못했습니다.
    • 비유: AI 는 "이 사과가 배랑 닮았네?" (종류 오류) 는 잘 알아채지만, "이 사과 껍질에 흠집이 있네?" (세부 결함) 는 못 보는 경향이 있습니다. AI 는 문맥을 추론해서 "아마도 이 뜻이겠지"라고 넘어가는 경향이 있기 때문입니다.

3. 인간 심사관과의 비교

  • AI 는 **규칙 위반 (예: 예산이 너무 비쌈)**을 잘 지적했지만, **전체적인 느낌 (예: 이 연구가 정말 혁신적인가?)**을 평가하는 데는 인간 심사관보다 부족했습니다.
  • 인간 심사관은 "이건 실패할 거야"라고 단호하게 말하지만, AI 는 "약간 불확실하네요"라고 중립적으로 말하거나, 사소한 규칙 위반에만 집착하는 경향이 있었습니다.

💡 결론: AI 는 '보조 도구'가 되어야 한다

이 논문은 다음과 같은 결론을 내립니다.

"AI 가 혼자서 연구비를 심사하게 하면 안 됩니다. 하지만 인간 심사관의 '비서'나 '체크리스트'로 쓰면 아주 유용합니다."

  • AI 의 역할: "여기 예산 설명이 없어요", "이 용어는 처음 나오는데 설명이 없어요"처럼 사소한 실수나 규칙 위반을 찾아내는 데는 탁월합니다.
  • 인간의 역할: "이 연구가 정말 세상을 바꿀 가치가 있을까?", "팀이 이 일을 해낼 능력이 있을까?" 같은 복잡한 가치 판단은 여전히 인간이 해야 합니다.

한 줄 요약:
AI 는 문법 검사기처럼 실수를 찾아내는 건 잘하지만, 예술 평론가처럼 작품의 깊이를 평가하는 건 아직 인간이 더 낫습니다. 그러니 AI 를 '심사관'으로 세우기보다, '심사관을 도와주는 보조 도구'로 쓰는 것이 가장 현명한 방법입니다.