CreativeBench: Benchmarking and Enhancing Machine Creativity via Self-Evolving Challenges

이 논문은 기계 창의성을 정량적으로 평가하기 위한 벤치마크인 CreativeBench 를 제안하고, 모델 확장 시 창의성 유형별 상이한 패턴을 분석하며 EvoRePE 라는 추론 시간 전략을 통해 기계 창의성을 지속적으로 향상시키는 방법을 제시합니다.

Zi-Han Wang, Lam Nguyen, Zhengyang Zhao, Mengyue Yang, Chengwei Qin, Yujiu Yang, Linyi Yang

게시일 2026-03-13
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제: AI 는 왜 '창의적'이지 않을까?

지금까지 AI 는 인터넷에 떠도는 방대한 데이터를 공부해서 똑똑해졌습니다. 하지만 데이터가 다 쌓이다 보니, 더 똑똑해지기 위한 '새로운 책'이 부족해졌습니다. 그래서 연구자들은 AI 가 스스로 새로운 것을 만들어내는 **'진화 시스템'**을 만들려고 합니다.

하지만 여기서 큰 문제가 생깁니다.

  • 비유: AI 가 새로운 그림을 그렸을 때, 우리는 "와, 진짜 창의적이야!"라고 할지, "아, 그냥 인터넷에 있던 그림을 베낀 거야 (환각)"라고 할지 구분이 안 됩니다.
  • 현실: 기존에는 AI 가 코드를 잘 짤 수 있는지 (정답 여부) 만 봤지, 그 코드가 얼마나 독창적인지는 제대로 측정할 방법이 없었습니다.

2. 해결책: 'CreativeBench' (창의성 벤치마크)

연구팀은 AI 의 창의성을 측정하기 위해 **'CreativeBench'**라는 새로운 시험지를 만들었습니다. 이 시험지는 두 가지 유형의 창의성을 봅니다.

① 조합적 창의성 (Combinatorial Creativity)

  • 비유: "레고 블록"을 섞는 것입니다.
  • 설명: 이미 알려진 두 가지 다른 개념을 섞어서 새로운 것을 만드는 능력입니다.
    • 예: '음악 이론' + '지도 그리기'를 섞어서, "지형에 따라 멜로디가 변하는 음악"을 만드는 코드를 짜는 것.
    • 시험 방식: AI 가 서로 다른 분야의 코드를 섞어서 새로운 문제를 만들고, 그걸 다시 풀게 합니다.

② 탐색적 창의성 (Exploratory Creativity)

  • 비유: "미로 찾기"에서 벽을 부수는 것입니다.
  • 설명: 정해진 규칙 안에서 새로운 길을 찾는 능력입니다.
    • 예: "이 코드를 짜되, for 반복문이나 while 반복문을 절대 쓰지 마세요"라는 엄격한 금지 규칙을 줍니다. AI 는 반복문을 쓰지 않고도 같은 일을 할 수 있는 전혀 새로운 방법 (예: 재귀 함수나 수학적 공식) 을 찾아야 합니다.
    • 시험 방식: AI 가 문제를 풀고, AI 가 만든 규칙 (금지 사항) 을 다시 AI 가 풀게 하여 점점 더 어려운 미로를 만들어갑니다.

3. 평가 기준: "질량 × 독창성"

이 시험에서는 정답만 맞으면 점수를 주는 게 아닙니다.

  • 공식: 창의성 점수 = (정확도) × (새로움)
  • 의미:
    • 정답은 맞는데 남들과 똑같은 코드를 썼다면? → 창의성 0 점 (그저 암기한 것).
    • 코드가 아주 독특하지만 틀렸다면? → 창의성 0 점 (망상).
    • 정답을 맞으면서도, 남들이 생각지 못한 새로운 방법을 썼을 때만 높은 점수를 줍니다.

4. 놀라운 발견: AI 의 특징

이 벤치마크로 최신 AI 모델들을 테스트해 보니 재미있는 결과가 나왔습니다.

  1. 크기가 커지면 '조합'은 잘하지만 '탐색'은 안 된다:
    • AI 가 더 커질수록 (데이터를 더 많이 공부할수록) 레고 블록을 섞는 능력 (조합) 은 좋아집니다.
    • 하지만 금지된 규칙을 피해서 새로운 길을 찾는 능력 (탐색) 은 오히려 떨어지거나 제자리걸음을 합니다. 큰 AI 일수록 "가장 안전한 길"만 고집하는 경향이 있기 때문입니다.
  2. 추론 (Reasoning) 능력은 '탐색'에 도움이 된다:
    • 복잡한 규칙을 피해서 문제를 풀 때 (탐색), AI 가 "생각하는 과정 (추론)"을 거치면 훨씬 잘 풀립니다. 하지만 단순히 두 가지를 섞는 것 (조합) 에는 큰 도움이 안 됩니다.

5. 제안: 'EvoRePE' (AI 의 창의성 주사위)

연구팀은 AI 를 더 창의적으로 만들기 위해 **'EvoRePE'**라는 기술을 제안했습니다.

  • 비유: AI 가 창의적인 답을 낼 때, 그 뇌의 '신경 회로'가 어떻게 움직였는지 분석해서 그 패턴을 **주사위 (벡터)**로 만듭니다. 그리고 AI 가 문제를 풀 때 이 주사위를 살짝 던져주면, AI 가 자연스럽게 더 창의적인 길로 가게 됩니다.
  • 효과: AI 를 다시 학습시킬 필요 없이, 문제를 풀 때 이 '창의성 주사위'만 추가하면 AI 가 더 독창적인 코드를 짜게 됩니다. 마치 운전할 때 내비게이션을 조금만 조정해서 더 멋진 경치를 보는 길로 안내하는 것과 같습니다.

요약

이 논문은 **"AI 가 진짜로 창의적인지, 아니면 그냥 흉내만 내는지"**를 측정하는 새로운 시험지 (CreativeBench) 를 만들었습니다. 그리고 **"AI 가 더 창의적이 되려면 단순히 크기를 키우는 것만으로는 부족하며, AI 의 내부 작동 방식을 살짝 조정해줘야 한다"**는 결론을 내렸습니다.

이 기술은 앞으로 AI 가 과학적 발견, 예술 창작, 혹은 우리가 상상하지 못한 새로운 아이디어를 만들어내는 데 큰 역할을 할 것으로 기대됩니다.