Each language version is independently generated for its own context, not a direct translation.

1. 문제: AI 는 왜 '창의적'이지 않을까?

지금까지 AI 는 인터넷에 떠도는 방대한 데이터를 공부해서 똑똑해졌습니다. 하지만 데이터가 다 쌓이다 보니, 더 똑똑해지기 위한 '새로운 책'이 부족해졌습니다. 그래서 연구자들은 AI 가 스스로 새로운 것을 만들어내는 **'진화 시스템'**을 만들려고 합니다.

하지만 여기서 큰 문제가 생깁니다.

비유: AI 가 새로운 그림을 그렸을 때, 우리는 "와, 진짜 창의적이야!"라고 할지, "아, 그냥 인터넷에 있던 그림을 베낀 거야 (환각)"라고 할지 구분이 안 됩니다.
현실: 기존에는 AI 가 코드를 잘 짤 수 있는지 (정답 여부) 만 봤지, 그 코드가 얼마나 독창적인지는 제대로 측정할 방법이 없었습니다.

2. 해결책: 'CreativeBench' (창의성 벤치마크)

연구팀은 AI 의 창의성을 측정하기 위해 **'CreativeBench'**라는 새로운 시험지를 만들었습니다. 이 시험지는 두 가지 유형의 창의성을 봅니다.

① 조합적 창의성 (Combinatorial Creativity)

비유: "레고 블록"을 섞는 것입니다.
설명: 이미 알려진 두 가지 다른 개념을 섞어서 새로운 것을 만드는 능력입니다.
- 예: '음악 이론' + '지도 그리기'를 섞어서, "지형에 따라 멜로디가 변하는 음악"을 만드는 코드를 짜는 것.
- 시험 방식: AI 가 서로 다른 분야의 코드를 섞어서 새로운 문제를 만들고, 그걸 다시 풀게 합니다.

② 탐색적 창의성 (Exploratory Creativity)

비유: "미로 찾기"에서 벽을 부수는 것입니다.
설명: 정해진 규칙 안에서 새로운 길을 찾는 능력입니다.
- 예: "이 코드를 짜되, for 반복문이나 while 반복문을 절대 쓰지 마세요"라는 엄격한 금지 규칙을 줍니다. AI 는 반복문을 쓰지 않고도 같은 일을 할 수 있는 전혀 새로운 방법 (예: 재귀 함수나 수학적 공식) 을 찾아야 합니다.
- 시험 방식: AI 가 문제를 풀고, AI 가 만든 규칙 (금지 사항) 을 다시 AI 가 풀게 하여 점점 더 어려운 미로를 만들어갑니다.

3. 평가 기준: "질량 × 독창성"

이 시험에서는 정답만 맞으면 점수를 주는 게 아닙니다.

공식: 창의성 점수 = (정확도) × (새로움)
의미:
- 정답은 맞는데 남들과 똑같은 코드를 썼다면? → 창의성 0 점 (그저 암기한 것).
- 코드가 아주 독특하지만 틀렸다면? → 창의성 0 점 (망상).
- 정답을 맞으면서도, 남들이 생각지 못한 새로운 방법을 썼을 때만 높은 점수를 줍니다.

4. 놀라운 발견: AI 의 특징

이 벤치마크로 최신 AI 모델들을 테스트해 보니 재미있는 결과가 나왔습니다.

크기가 커지면 '조합'은 잘하지만 '탐색'은 안 된다:
- AI 가 더 커질수록 (데이터를 더 많이 공부할수록) 레고 블록을 섞는 능력 (조합) 은 좋아집니다.
- 하지만 금지된 규칙을 피해서 새로운 길을 찾는 능력 (탐색) 은 오히려 떨어지거나 제자리걸음을 합니다. 큰 AI 일수록 "가장 안전한 길"만 고집하는 경향이 있기 때문입니다.
추론 (Reasoning) 능력은 '탐색'에 도움이 된다:
- 복잡한 규칙을 피해서 문제를 풀 때 (탐색), AI 가 "생각하는 과정 (추론)"을 거치면 훨씬 잘 풀립니다. 하지만 단순히 두 가지를 섞는 것 (조합) 에는 큰 도움이 안 됩니다.

5. 제안: 'EvoRePE' (AI 의 창의성 주사위)

연구팀은 AI 를 더 창의적으로 만들기 위해 **'EvoRePE'**라는 기술을 제안했습니다.

비유: AI 가 창의적인 답을 낼 때, 그 뇌의 '신경 회로'가 어떻게 움직였는지 분석해서 그 패턴을 **주사위 (벡터)**로 만듭니다. 그리고 AI 가 문제를 풀 때 이 주사위를 살짝 던져주면, AI 가 자연스럽게 더 창의적인 길로 가게 됩니다.
효과: AI 를 다시 학습시킬 필요 없이, 문제를 풀 때 이 '창의성 주사위'만 추가하면 AI 가 더 독창적인 코드를 짜게 됩니다. 마치 운전할 때 내비게이션을 조금만 조정해서 더 멋진 경치를 보는 길로 안내하는 것과 같습니다.

요약

이 논문은 **"AI 가 진짜로 창의적인지, 아니면 그냥 흉내만 내는지"**를 측정하는 새로운 시험지 (CreativeBench) 를 만들었습니다. 그리고 **"AI 가 더 창의적이 되려면 단순히 크기를 키우는 것만으로는 부족하며, AI 의 내부 작동 방식을 살짝 조정해줘야 한다"**는 결론을 내렸습니다.

이 기술은 앞으로 AI 가 과학적 발견, 예술 창작, 혹은 우리가 상상하지 못한 새로운 아이디어를 만들어내는 데 큰 역할을 할 것으로 기대됩니다.

Each language version is independently generated for its own context, not a direct translation.

CreativeBench: 기계 창의성 평가를 위한 벤치마크 및 자진 진화적 도전과제를 통한 향상

이 논문은 대규모 언어 모델 (LLM) 의 데이터 포화 현상으로 인해 연구의 초점이 새로운 산물을 지속적으로 생성할 수 있는 진화적 시스템으로 이동함에 따라, 이러한 시스템의 발전을 가로막는 엄격하고 정량적인 평가 방법의 부재 문제를 해결하기 위해 제안되었습니다. 저자들은 CreativeBench라는 새로운 벤치마크와 이를 활용한 모델 분석, 그리고 창의성 향상을 위한 새로운 기법인 EvoRePE를 소개합니다.

1. 문제 정의 (Problem)

기존의 코드 생성 벤치마크는 주로 기능적 정확성 (Pass@k) 에만 초점을 맞추고 있어, 기계의 '창의성'을 직접적으로 평가하거나 창의성과 환각 (hallucination) 을 명확히 구분하는 데 한계가 있었습니다. 또한, 기존 평가들은 과제의 복잡성이 부족하여 단순 암기 (rote memorization) 를 유발하거나, 진화적 시스템에 적용 가능한 근거 기반의 정량적 지표를 제공하지 못했습니다.

2. 방법론 (Methodology)

2.1 CreativeBench 벤치마크

저자들은 Boden 의 인지적 창의성 프레임워크에 기반하여 창의성을 두 가지 유형으로 정의하고 이를 평가하는 벤치마크를 구축했습니다.

Combinatorial Creativity (조합적 창의성): 익숙한 개념을 낯선 방식으로 결합하는 능력.
Exploratory Creativity (탐색적 창의성): 구조화된 개념 공간을 탐색하여 새로운 가능성을 발견하는 능력.

이를 구현하기 위해 자동화 파이프라인을 구축했습니다:

CreativeBench-Combo: 역공학 (Reverse Engineering) 기법을 사용하여, 검증된 복합 코드에서 문제 설명을 생성하고 테스트 케이스를 자동화하여 고난도 조합 과제를 생성합니다.
CreativeBench-Explore: 자기 대결 (Self-play) 방식을 사용합니다. '제약 생성기 (Constraint Generator)'가 기존 솔루션을 무효화하는 새로운 제약 조건을 생성하고, '솔버 (Solver)'가 이를 해결하려 시도하는 과정을 반복하여 점진적으로 난이도를 높입니다.

2.2 평가 지표: 통합 창의성 점수 (Unified Creativity Score)

창의성을 **품질 (Quality)**과 ** Novelty(신규성)**의 곱으로 정의합니다.
$\text{Creativity} = \text{Quality} \times \text{Novelty}$

품질 (Quality): 샌드박스 실행을 통한 정답률 (Pass@1) 과 LLM 판사 (LLM-as-a-Judge) 를 통해 검증합니다.
신규성 (Novelty): 생성된 솔루션이 기준선 (Baseline) 솔루션과 얼마나 다른지를 측정합니다. 코드 임베딩 (CodeXEmbed) 거리와 문자 단위 n-gram 거리를 결합하여 의미적 차이와 표면적 변형을 모두 고려합니다.

2.3 창의성 향상 기법: EvoRePE (Evolutionary Representation Engineering)

진화적 검색 과정에서 발견된 창의적인 패턴을 추출하여 모델의 추론 시 행동을 유도하는 플러그 앤 플레이 (Plug-and-Play) 전략입니다.

진화적 알고리즘 (예: AlphaEvolve) 을 통해 얻은 '표준 솔루션'과 '진화된 솔루션' 간의 활성화 차이에서 **창의성 벡터 (Creativity Vector)**를 추출합니다 (PCA 사용).
추론 시 이 벡터를 모델의 잔류 스트림 (residual stream) 에 주입하여, 추가적인 진화적 검색 없이도 창의적인 해답을 유도합니다.

3. 주요 결과 (Key Results)

3.1 모델 성능 분석

난이도: 최신 모델 (Gemini-3-Pro 등) 이 CreativeBench 에서도 Pass@1 이 60% 미만으로, 벤치마크가 매우 어렵고 창의적 문제 해결을 요구함을 입증했습니다.
확장성 (Scaling) 의 비대칭적 효과:
- 조합적 창의성: 모델 규모가 커질수록 성능이 크게 향상됩니다 (지식 재조합 능력 증가).
- 탐색적 창의성: 모델 규모가 커져도 성능 향상이 미미하거나 감소합니다. 큰 모델은 고빈도 패턴에 수렴하여 '0 에서 1 로의' 혁신적 탐색보다는 정답에 가까운 표준화된 해를 선호하는 경향이 있습니다 (Convergence-by-Scaling).
추론 (Reasoning) 의 역할: 추론 모드는 제약 조건이 있는 탐색적 창의성에는 큰 도움을 주지만, 조합적 창의성에는 큰 영향을 미치지 않습니다.

3.2 EvoRePE 의 효과

EvoRePE 는 진화적 알고리즘과 독립적으로 작동하며, 베이스 모델 (Vanilla) 이나 진화적 알고리즘 (AlphaEvolve, GEPA) 에 모두 적용 시 일관된 창의성 향상을 보여줍니다.
이는 진화적 최적화의 이점을 모델의 잠재 공간 (latent space) 내로 내부화할 수 있음을 시사합니다.

4. 기여도 및 의의 (Contributions & Significance)

최초의 기계 창의성 벤치마크: Boden 의 이론적 프레임워크에 기반하여, 조합적 및 탐색적 창의성을 모두 평가할 수 있는 최초의 자동화된 코드 생성 벤치마크를 구축했습니다.
엄격한 평가 체계: 실행 가능한 코드를 기반으로 창의성과 환각을 객관적으로 구분하며, 정량적 지표 (품질 × 신규성) 를 도입했습니다.
모델 행동에 대한 통찰: 모델 규모 확장이 창의성의 특정 측면 (조합) 에만 유리하고, 오히려 탐색적 다양성을 저해할 수 있다는 '수렴 현상'을 발견했습니다.
실용적 향상 방법 (EvoRePE): 별도의 재학습 없이 추론 시 창의성을 유도할 수 있는 효율적인 기법을 제안하여, 진화적 시스템의 계산 비용을 줄이면서도 창의성을 극대화하는 새로운 방향을 제시했습니다.

이 연구는 기계 창의성을 정량화하고 향상시키는 데 중요한 이정표가 되며, 향후 과학적 발견, 스토리텔링, 디자인 등 다른 창의적 영역으로의 확장을 위한 기반을 마련했습니다.

CreativeBench: Benchmarking and Enhancing Machine Creativity via Self-Evolving Challenges