EsoLang-Bench: Evaluating Genuine Reasoning in Large Language Models via Esoteric Programming Languages

Each language version is independently generated for its own context, not a direct translation.

🎭 비유: "유명 배우 vs. 즉흥극 배우"

지금까지 AI(대형 언어 모델) 들의 실력을 평가할 때는 유명 배우에게 익숙한 대본을 주고 연기를 시켰습니다.

기존 방식 (HumanEval 등): "이 대본 (파이썬 코드) 을 보고 다음 장면을 연기해 봐."
결과: AI 는 대본을 이미 다 외우고 있었거나, 비슷한 대본을 수백 번 본 적이 있어서 90~95% 만점을 받았습니다.
문제점: AI 가 진짜로 상황을 이해해서 연기한 걸까, 아니면 그냥 암기해서 대본을 읊은 걸까? 우리는 알 수 없었습니다.

이 논문은 **"유명 배우에게 완전히 낯선, 즉흥극 (에소테릭 언어) 을 시켜보자"**고 제안합니다.

🌟 새로운 실험: "에소테릭 언어 (Esolang) 벤치마크"

연구진은 AI 에게 완전히 낯선 5 가지의 이상한 언어로 코드를 짜게 했습니다. 이를 EsoLang-Bench라고 부릅니다.

1. 왜 이런 이상한 언어를 썼을까요?

이 언어들은 현실에서 쓸모가 전혀 없습니다.

브레인퍽 (Brainfuck): 8 개의 기호만 쓰는 언어.
위트스페이스 (Whitespace): 공백, 탭, 줄바꿈만 의미 있는 언어.
셰익스피어 (Shakespeare): 연극 대본처럼 코드를 쓰는 언어.

핵심 이유: AI 를 훈련시킬 때, 이런 쓸모없는 언어 데이터를 넣을 이유가 전혀 없습니다. (경제적으로 비합리적이기 때문). 그래서 AI 가 이 언어를 **암기했을 가능성은 0%**에 가깝습니다. 만약 AI 가 이걸 잘 푼다면, 그것은 진짜 추론 능력이 있는 것입니다.

2. 실험 결과: "실망스러운 진실"

최고급 AI 모델 5 개를 이 언어로 테스트해 봤습니다. 결과는 충격적이었습니다.

기존 테스트 (파이썬): 90% 이상 정답 (유명 배우가 익숙한 대본을 잘 연기).
새로운 테스트 (에소테릭 언어): 0~11% (완전 엉망진창).

비유하자면:

"유명 배우가 익숙한 셰익스피어 연극은 완벽하게 했지만, 갑자기 '고양이 발소리만 내며 춤추는' 즉흥극을 시키자마자 완전 멍해져서 아무것도 못 했다는 뜻입니다."

특히, 중간 이상 난이도의 문제는 모든 AI 가 **0%**를 기록했습니다. AI 는 아주 간단한 문제 (Easy) 는 겨우 1~2 개 풀었지만, 조금만 복잡해지면 완전히 멈춰 섰습니다.

🔍 왜 이런 일이 일어났을까? (원인 분석)

연구진은 몇 가지 흥미로운 원인을 발견했습니다.

암기 vs. 이해: AI 는 익숙한 언어의 '패턴'을 외워서 푼 것이지, 논리적으로 '이해'해서 푼 것이 아니었습니다.
힌트도 소용없음: "이전 예시를 보여줄게 (Few-shot)"라고 해줘도 소용없었습니다. AI 는 새로운 언어의 기본 원리를 모르면, 예시를 보여줘도 연결할 수 없었습니다.
실수 유형:
- 브레인퍽 같은 언어: 문법 (기호) 은 대충 맞췄는데, 논리가 엉망이었습니다. (문법은 외웠지만 뜻은 몰랐음)
- 위트스페이스 같은 언어: 아예 문법 (공백) 을 인식조차 못 했습니다. (데이터가 너무 없어서 아예 처음 보는 것)

🚀 그래도 희망은 있다? (에이전트 시스템)

단순히 AI 에게 "코드를 짜라"고만 시키지 않고, AI 가 직접 코드를 실행해보고 오류를 수정하는 '에이전트' 시스템을 만들어 테스트했습니다.

방법: AI 가 코드를 짠 뒤, 컴퓨터가 "오류났어!"라고 알려주면, AI 가 그 오류를 보고 다시 고치는 과정을 반복했습니다.
결과: 이 방식이 가장 잘 작동했습니다. 하지만 여전히 난이도가 높은 문제는 풀지 못했습니다.
교훈: AI 는 **피드백 (오류 메시지)**을 통해 조금 더 잘 배울 수 있지만, 근본적인 '추론 능력'이 부족하면 한계가 명확합니다.

💡 이 연구가 우리에게 주는 메시지

이 논문은 우리에게 진짜 중요한 질문을 던집니다.

"우리가 AI 에게 점수를 매길 때, AI 가 진짜로 똑똑한지, 아니면 그냥 시험지를 미리 보고 암기했는지 구별하고 있나요?"

기존 벤치마크: AI 가 시험지를 미리 보고 암기했는지 알 수 없어서, AI 가 너무 똑똑한 것처럼 착각하게 만들었습니다. (Goodhart 의 법칙: 지표가 목표가 되면 그 지표는 무의미해진다)
이 연구의 제안: 쓸모없는 이상한 언어로 테스트하면, AI 가 암기할 수 없기 때문에 진짜 추론 능력만 남습니다.

🏁 결론

이 논문은 **"AI 가 진짜로 생각할 수 있는가?"**를 확인하기 위해, 완전히 새로운 언어로 시험을 치르게 했습니다. 결과는 AI 가 아직 진짜 '이해'와 '추론'에는 미치지 못하며, 대부분 '암기'와 '패턴 인식'에 의존하고 있다는 것을 보여줍니다.

앞으로 AI 를 평가할 때는 익숙한 문제가 아니라, AI 가 처음 보는 낯선 문제를 던져주어 진짜 실력을 확인해야 한다는 교훈을 줍니다. 마치 유명 배우에게 낯선 즉흥극을 시켜보아야 그 배우의 진짜 실력을 알 수 있는 것과 같습니다.

EsoLang-Bench: Evaluating Genuine Reasoning in Large Language Models via Esoteric Programming Languages

🎭 비유: "유명 배우 vs. 즉흥극 배우"

🌟 새로운 실험: "에소테릭 언어 (Esolang) 벤치마크"

1. 왜 이런 이상한 언어를 썼을까요?

2. 실험 결과: "실망스러운 진실"

🔍 왜 이런 일이 일어났을까? (원인 분석)

🚀 그래도 희망은 있다? (에이전트 시스템)

💡 이 연구가 우리에게 주는 메시지

🏁 결론

EsoLang-Bench: 희소 언어를 통한 대규모 언어 모델의 진정한 추론 능력 평가

1. 문제 제기 (Problem)

2. 방법론 (Methodology)

2.1. EsoLang-Bench 데이터셋

2.2. 실험 설정

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

4.1. 극심한 성능 격차

4.2. 프롬프트 전략별 성과

4.3. 언어별 차이

5. 의의 및 결론 (Significance & Conclusion)

EsoLang-Bench: Evaluating Genuine Reasoning in Large Language Models via Esoteric Programming Languages

🎭 비유: "유명 배우 vs. 즉흥극 배우"

🌟 새로운 실험: "에소테릭 언어 (Esolang) 벤치마크"

1. 왜 이런 이상한 언어를 썼을까요?

2. 실험 결과: "실망스러운 진실"

🔍 왜 이런 일이 일어났을까? (원인 분석)

🚀 그래도 희망은 있다? (에이전트 시스템)

💡 이 연구가 우리에게 주는 메시지

🏁 결론

EsoLang-Bench: 희소 언어를 통한 대규모 언어 모델의 진정한 추론 능력 평가

1. 문제 제기 (Problem)

2. 방법론 (Methodology)

2.1. EsoLang-Bench 데이터셋

2.2. 실험 설정

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

4.1. 극심한 성능 격차

4.2. 프롬프트 전략별 성과

4.3. 언어별 차이

5. 의의 및 결론 (Significance & Conclusion)

유사한 논문

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem