Death of the Novel(ty): Beyond n-Gram Novelty as a Metric for Textual Creativity

이 논문은 n-그램 신규성 (n-gram novelty) 만으로는 텍스트 창의성을 제대로 평가할 수 없으며, 인간 전문가의 평가와 달리 고도화된 LLM 은 높은 신규성이 오히려 실용성 저하와 연결되는 경향이 있음을 8,618 개의 전문가 주석을 통해 규명하고, 창의성 평가에 n-그램 지표보다 LLM 기반 평가가 더 적합할 수 있음을 시사합니다.

Arkadiy Saakyan, Najoung Kim, Smaranda Muresan, Tuhin Chakrabarty

게시일 2026-03-04
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"대기모형 (AI) 이 글을 쓸 때, '새로움'만 쫓는 것이 정말 '창의성'을 의미하는가?"**라는 질문에 대해 깊이 있게 탐구한 연구입니다.

간단히 말해, **"남이 한 번도 안 써본 낯선 단어들을 섞어 쓰는 것"이 정말로 "재미있고 훌륭한 글"을 만드는 걸까요?**라는 의문에서 시작합니다.

이 복잡한 연구 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


🎨 1. 연구의 핵심: "새로움 (Novelty)" vs "창의성 (Creativity)"

과거에는 AI 가 글을 쓸 때, 자신이 배운 책 (훈련 데이터) 에 없는 단어 조합을 얼마나 많이 쓰는지를 세어 '창의성'의 척도로 삼았습니다. 마치 **"남이 안 쓴 색칠공방 도안을 얼마나 많이 찾아냈는가?"**로 창의성을 잰 것과 비슷하죠.

하지만 이 논문은 **"아니요, 그건 창의성이 아닙니다"**라고 말합니다.

  • 비유: 상상해 보세요. 누군가 **"하늘을 나는 보라색 코끼리가 치즈를 먹는다"**라고 썼다고 칩시다.
    • 이 문장은 책에 없으니 매우 '새롭고 (Novelty)' 있습니다.
    • 하지만 이 문장은 상식적이지도 않고 (Non-sensical), 문맥에도 맞지 않습니다.
    • 진정한 창의성은 '새로움'과 '적절함 (의미가 통함)'이 만나야 합니다. 마치 **"비 오는 날, 우산이 피는 꽃처럼"**이라는 표현은 낯설지만, 비와 우산의 관계를 아름답게 연결해 의미 있는 창의성이 되는 것이죠.

🔍 2. 연구 방법: "전문가들의 정밀한 독해"

연구팀은 AI 가 쓴 글과 사람이 쓴 글을 26 명의 **전문 작가 (소설가 등)**들에게 보여주고, 문장 하나하나를 유심히 읽어보게 했습니다. (이걸 'Close Reading', 즉 정밀 독해라고 합니다.)

작가들에게 질문했습니다.

  1. 이 문장은 의미가 통하나요? (Sensicality)
  2. 이 문장은 앞뒤 흐름에 자연스러운가요? (Pragmaticity)
  3. 이 문장은 재미있고 새로워 보이나요? (Novelty)

그리고 AI 가 얼마나 '새로운' 문장을 썼는지 (n-gram novelty) 를 수치로 계산해 비교했습니다.

📉 3. 충격적인 발견: "새로움"은 "창의성"의 함정이다

연구 결과는 놀라웠습니다.

  • 통계적 사실: AI 가 가장 '새로운 (남이 안 쓴)' 문장을 많이 쓴 그룹 중 **약 91%**는 전문가들이 **"창의적이지 않다"**고 평가했습니다.
  • 왜일까요? AI 가 무작정 '새로운' 단어를 찾으려다 보니, 문맥을 무시하거나 말이 안 되는 (Non-pragmatic) 이상한 문장들을 만들어냈기 때문입니다.
    • 비유: 요리사가 "새로운 재료"만 찾아서 넣다가, 소금 대신 설탕을 넣고, 비누를 넣은 요리를 만든 것과 같습니다. 재료는 '새로울지' 몰라도, 그건 맛있는 요리 (창의적인 글) 가 될 수 없습니다.

반면, 사람이 쓴 창의적인 글은 오히려 익숙한 단어를 쓰더라도, 문맥을 잘 살려 감동을 주는 경우가 많았습니다.

🤖 4. AI 의 딜레마: "더 새로워지려 할수록, 더 어색해진다"

연구팀은 흥미로운 패턴을 발견했습니다.

  • 사람: 글을 쓸 때 '새로움'을 추구해도, 문맥이 어색해지지는 않습니다.
  • AI (오픈소스 모델): '새로움' 지수가 높을수록, 문장이 어색하고 말이 안 되는 확률이 급격히 높아집니다.
    • AI 는 "남이 안 쓴 걸 써야지!"라고 너무 열심히 노력하다가, 의미를 잃어버리는 것입니다.

🧠 5. AI 가 스스로를 평가할 수 있을까? (LLM-as-a-Judge)

그렇다면 AI 가 스스로 "이 문장이 창의적인가?"를 판단할 수 있을까요?
연구팀은 최신 AI 모델들에게 전문가처럼 글을 분석하게 했습니다.

  • 결과: AI 는 완벽하지는 않지만, 무작위 추측보다는 훨씬 잘합니다.
  • 약점: AI 는 '의미가 통하지 않는 이상한 문장'을 찾아내는 것은 여전히 어려워합니다. (창의적인 '새로움'은 찾아내지만, '어색함'은 놓치는 경향이 있습니다.)
  • 의의: 하지만 기존에 쓰이던 '단순히 단어 조합이 새로운지'를 세는 방식보다는, AI 가 글을 읽고 판단하는 방식이 전문가의 취향과 더 잘 맞았습니다.

💡 결론: "창의성"을 다시 정의하자

이 논문은 우리에게 중요한 메시지를 줍니다.

"단순히 남과 다른 것 (새로움) 만이 창의성이 아닙니다. 의미 있고, 상황에 잘 어울리며, 감동을 주는 것 (적절함) 이 있어야 진정한 창의성입니다."

AI 를 평가할 때, "얼마나 많은 새로운 단어를 썼는가?"만 보는 것은 요리사의 '새로운 재료 사용량'만 보고 '맛있는 요리'를 평가하는 것과 같습니다. 이제는 AI 가 문맥을 이해하고, 의미 있는 연결을 만들어낼 수 있는지를 더 중요하게 봐야 한다는 것입니다.

한 줄 요약:
"남이 안 써본 말을 섞는 것만으로는 창의적인 글이 되지 않습니다. 의미 있고 자연스러운 '새로운 연결'이 진짜 창의성입니다."