Each language version is independently generated for its own context, not a direct translation.
1. 배경: 왜 이 연구가 필요할까요?
지금까지 인공지능은 **영어 (Python)**나 **중국어 (C++)**처럼 전 세계에 책과 교재가 넘쳐나는 언어를 배우는 데는 천재였습니다. 하지만 **창제 (Cangjie)**라는 새로운 언어는 어떨까요?
- 창제 (Cangjie): 화웨이에서 만든 최신 프로그래밍 언어로, 스마트폰부터 클라우드까지 모든 기기를 하나로 묶는 '하모니 OS'의 핵심입니다. 하지만 아직 책도, 교재도, 연습문제도 거의 없습니다. (저수준 언어)
- 문제점: 인공지능은 책이 없는 언어를 배우면 엉뚱한 코드를 만들어내거나 아예 말을 못 합니다.
- 기존 연구의 한계: 그동안 연구자들은 '특수한 목적의 언어' (예: 배선 설계용 Verilog) 만 테스트했습니다. 하지만 창제는 일반-purpose(범용) 언어라, 인공지능이 순수하게 '문법'을 얼마나 잘 배우는지를 테스트하기엔 더 적합합니다.
2. 해결책: 'CANGJIEBENCH'란 무엇인가요?
연구진은 창제 언어로 된 시험지를 직접 만들었습니다. 어떻게 만들었을까요?
- 비유: 유명한 수학 문제집 (HumanEval, ClassEval) 을 한국어로 되어 있는데, 창제 언어로 직접 번역한 것입니다.
- 특징:
- 오염 없음 (Zero Contamination): 인터넷에서 긁어온 데이터를 쓰지 않고, 사람이 직접 번역했기 때문에 인공지능이 답을 미리 외웠을 가능성이 0% 입니다.
- 난이도 다양: 쉬운 함수 문제부터 복잡한 클래스 문제까지 골고루 포함했습니다.
- 두 가지 시험:
- 문자 → 코드: "파이프를 연결해줘"라는 말만 듣고 코드를 짜는 것.
- 코드 → 코드: 파이썬으로 된 코드를 창제로 번역하는 것.
3. 실험: 인공지능에게 어떤 방법을 써봤나요?
연구진은 인공지능이 창제 언어를 배우는 네 가지 방법을 시험해 보았습니다.
직접 생성 (Direct Generation):
- 상황: 아무런 힌트도 없이 "이걸 해줘"라고만 말함.
- 결과: 완전 실패. 인공지능은 창제 언어의 문법을 몰라서 엉터리 코드를 쏟아냈습니다. (컴퓨터가 실행조차 안 됨)
문법 제약 (Syntax-Constrained):
- 상황: "이게 창제 언어의 문법 규칙이야. 이거만 지키면 돼"라고 간단한 요약 노트를 건네줌.
- 결과: 대성공! 인공지능의 실력이 급상승했습니다. 논리는 이미 알고 있었으니, 문법만 알려주니 바로 잘 풀었습니다. 가장 가성비 좋은 방법입니다.
검색 기반 (RAG):
- 상황: "이거 찾아봐"라고 하면 인공지능이 문서나 코드 예시를 검색해서 답을 냄.
- 결과: 문법 제약보다는 조금 떨어졌습니다. 검색된 정보가 너무 많거나, 인공지능이 검색어를 잘못 뽑아내서 헷갈리는 경우가 많았습니다.
에이전트 (Agent):
- 상황: 인공지능에게 "스스로 찾아보고, 실행해보고, 틀리면 고쳐봐"라고 시킴. (사람이 개발할 때처럼)
- 결과: 가장 정확도가 높음. 하지만 비용이 너무 많이 듭니다. 문서를 수십 번 읽고, 코드를 여러 번 실행하는 과정에서 엄청난 양의 데이터 (토큰) 를 소모합니다.
4. 놀라운 발견: "번역"이 더 어려울 수도 있다?
일반적으로는 "이미 파이썬 코드가 있는데 창제로 바꾸는 게, 아예 처음부터 짜는 것보다 쉬울 것"이라고 생각하기 쉽습니다. 하지만 결과는 반대였습니다.
- 비유: 새로운 언어로 에세이를 쓰는 것보다, 기존에 쓰인 영어 에세이를 창제어로 번역하는 게 더 어려웠다.
- 이유: 인공지능이 파이썬 코드의 '습관'에 너무 익숙해져서, 창제 언어의 문법을 무시하고 파이썬 스타일을 그대로 따라 하려고 했기 때문입니다. (부정적 전이 현상)
5. 결론: 우리에게 주는 교훈
이 연구는 우리에게 중요한 메시지를 줍니다.
- 새로운 언어가 나오면, 인공지능을 다시 훈련시킬 필요는 없습니다.
- 대신, **간단하고 명확한 문법 규칙 (요약 노트)**만 잘 알려주면, 인공지능은 그 언어를 금방 마스터할 수 있습니다.
- 하지만 너무 많은 정보를 검색하게 하거나, 스스로 찾아보게 하면 비용만 늘어나고 효율이 떨어질 수 있습니다.
한 줄 요약:
"인공지능에게 새로운 언어를 가르칠 때, 두꺼운 사전 (검색) 을 주는 것보다 핵심 문법 요약지를 주는 게 가장 빠르고 저렴하며 효과적입니다."
이 연구는 앞으로 더 많은 새로운 프로그래밍 언어가 등장할 때, 인공지능이 어떻게 적응해야 하는지에 대한 청사진을 제시합니다.
이런 논문을 받은편지함으로 받아보세요
관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.