CangjieBench: Benchmarking LLMs on a Low-Resource General-Purpose Programming Language

Each language version is independently generated for its own context, not a direct translation.

1. 배경: 왜 이 연구가 필요할까요?

지금까지 인공지능은 **영어 (Python)**나 **중국어 (C++)**처럼 전 세계에 책과 교재가 넘쳐나는 언어를 배우는 데는 천재였습니다. 하지만 **창제 (Cangjie)**라는 새로운 언어는 어떨까요?

창제 (Cangjie): 화웨이에서 만든 최신 프로그래밍 언어로, 스마트폰부터 클라우드까지 모든 기기를 하나로 묶는 '하모니 OS'의 핵심입니다. 하지만 아직 책도, 교재도, 연습문제도 거의 없습니다. (저수준 언어)
문제점: 인공지능은 책이 없는 언어를 배우면 엉뚱한 코드를 만들어내거나 아예 말을 못 합니다.
기존 연구의 한계: 그동안 연구자들은 '특수한 목적의 언어' (예: 배선 설계용 Verilog) 만 테스트했습니다. 하지만 창제는 일반-purpose(범용) 언어라, 인공지능이 순수하게 '문법'을 얼마나 잘 배우는지를 테스트하기엔 더 적합합니다.

2. 해결책: 'CANGJIEBENCH'란 무엇인가요?

연구진은 창제 언어로 된 시험지를 직접 만들었습니다. 어떻게 만들었을까요?

비유: 유명한 수학 문제집 (HumanEval, ClassEval) 을 한국어로 되어 있는데, 창제 언어로 직접 번역한 것입니다.
특징:
1. 오염 없음 (Zero Contamination): 인터넷에서 긁어온 데이터를 쓰지 않고, 사람이 직접 번역했기 때문에 인공지능이 답을 미리 외웠을 가능성이 0% 입니다.
2. 난이도 다양: 쉬운 함수 문제부터 복잡한 클래스 문제까지 골고루 포함했습니다.
3. 두 가지 시험:
  - 문자 → 코드: "파이프를 연결해줘"라는 말만 듣고 코드를 짜는 것.
  - 코드 → 코드: 파이썬으로 된 코드를 창제로 번역하는 것.

3. 실험: 인공지능에게 어떤 방법을 써봤나요?

연구진은 인공지능이 창제 언어를 배우는 네 가지 방법을 시험해 보았습니다.

직접 생성 (Direct Generation):
- 상황: 아무런 힌트도 없이 "이걸 해줘"라고만 말함.
- 결과: 완전 실패. 인공지능은 창제 언어의 문법을 몰라서 엉터리 코드를 쏟아냈습니다. (컴퓨터가 실행조차 안 됨)
문법 제약 (Syntax-Constrained):
- 상황: "이게 창제 언어의 문법 규칙이야. 이거만 지키면 돼"라고 간단한 요약 노트를 건네줌.
- 결과: 대성공! 인공지능의 실력이 급상승했습니다. 논리는 이미 알고 있었으니, 문법만 알려주니 바로 잘 풀었습니다. 가장 가성비 좋은 방법입니다.
검색 기반 (RAG):
- 상황: "이거 찾아봐"라고 하면 인공지능이 문서나 코드 예시를 검색해서 답을 냄.
- 결과: 문법 제약보다는 조금 떨어졌습니다. 검색된 정보가 너무 많거나, 인공지능이 검색어를 잘못 뽑아내서 헷갈리는 경우가 많았습니다.
에이전트 (Agent):
- 상황: 인공지능에게 "스스로 찾아보고, 실행해보고, 틀리면 고쳐봐"라고 시킴. (사람이 개발할 때처럼)
- 결과: 가장 정확도가 높음. 하지만 비용이 너무 많이 듭니다. 문서를 수십 번 읽고, 코드를 여러 번 실행하는 과정에서 엄청난 양의 데이터 (토큰) 를 소모합니다.

4. 놀라운 발견: "번역"이 더 어려울 수도 있다?

일반적으로는 "이미 파이썬 코드가 있는데 창제로 바꾸는 게, 아예 처음부터 짜는 것보다 쉬울 것"이라고 생각하기 쉽습니다. 하지만 결과는 반대였습니다.

비유: 새로운 언어로 에세이를 쓰는 것보다, 기존에 쓰인 영어 에세이를 창제어로 번역하는 게 더 어려웠다.
이유: 인공지능이 파이썬 코드의 '습관'에 너무 익숙해져서, 창제 언어의 문법을 무시하고 파이썬 스타일을 그대로 따라 하려고 했기 때문입니다. (부정적 전이 현상)

5. 결론: 우리에게 주는 교훈

이 연구는 우리에게 중요한 메시지를 줍니다.

새로운 언어가 나오면, 인공지능을 다시 훈련시킬 필요는 없습니다.
대신, **간단하고 명확한 문법 규칙 (요약 노트)**만 잘 알려주면, 인공지능은 그 언어를 금방 마스터할 수 있습니다.
하지만 너무 많은 정보를 검색하게 하거나, 스스로 찾아보게 하면 비용만 늘어나고 효율이 떨어질 수 있습니다.

한 줄 요약:

"인공지능에게 새로운 언어를 가르칠 때, 두꺼운 사전 (검색) 을 주는 것보다 핵심 문법 요약지를 주는 게 가장 빠르고 저렴하며 효과적입니다."

이 연구는 앞으로 더 많은 새로운 프로그래밍 언어가 등장할 때, 인공지능이 어떻게 적응해야 하는지에 대한 청사진을 제시합니다.

CangjieBench: Benchmarking LLMs on a Low-Resource General-Purpose Programming Language

1. 배경: 왜 이 연구가 필요할까요?

2. 해결책: 'CANGJIEBENCH'란 무엇인가요?

3. 실험: 인공지능에게 어떤 방법을 써봤나요?

4. 놀라운 발견: "번역"이 더 어려울 수도 있다?

5. 결론: 우리에게 주는 교훈

1. 문제 정의 (Problem Statement)

2. 방법론 (Methodology)

A. CANGJIEBENCH 벤치마크 구축

B. 평가 방법론 (4 가지 패러다임)

3. 주요 결과 (Key Results)

A. 성능 분석

B. 흥미로운 발견: Code-to-Code 의 역효과

C. 비용 - 성능 트레이드오프

4. 주요 기여 (Key Contributions)

5. 의의 및 시사점 (Significance)

CangjieBench: Benchmarking LLMs on a Low-Resource General-Purpose Programming Language

1. 배경: 왜 이 연구가 필요할까요?

2. 해결책: 'CANGJIEBENCH'란 무엇인가요?

3. 실험: 인공지능에게 어떤 방법을 써봤나요?

4. 놀라운 발견: "번역"이 더 어려울 수도 있다?

5. 결론: 우리에게 주는 교훈

1. 문제 정의 (Problem Statement)

2. 방법론 (Methodology)

A. CANGJIEBENCH 벤치마크 구축

B. 평가 방법론 (4 가지 패러다임)

3. 주요 결과 (Key Results)

A. 성능 분석

B. 흥미로운 발견: Code-to-Code 의 역효과

C. 비용 - 성능 트레이드오프

4. 주요 기여 (Key Contributions)

5. 의의 및 시사점 (Significance)

유사한 논문

Self-Calibrating Language Models via Test-Time Discriminative Distillation

Toward Generalized Cross-Lingual Hateful Language Detection with Web-Scale Data and Ensemble LLM Annotations

HumorGen: Cognitive Synergy for Humor Generation in Large Language Models via Persona-Based Distillation

Generating High Quality Synthetic Data for Dutch Medical Conversations

GIANTS: Generative Insight Anticipation from Scientific Literature