LINGOLY-TOO: Disentangling Reasoning from Knowledge with Templatised Orthographic Obfuscation

Each language version is independently generated for its own context, not a direct translation.

🧠 핵심 비유: "낯선 옷을 입은 수학 문제"

상상해 보세요. 여러분이 아주 어려운 수학 문제를 풀고 있습니다. 문제는 "2 + 2 = ?"가 아니라, 복잡한 규칙을 찾아내야 하는 논리 퀴즈입니다.

기존의 AI (암기왕):
지금 AI 모델들은 방대한 양의 책을 읽었습니다. 그래서 "2+2=4"라는 사실을 외우고 있거나, 비슷한 문제를 본 적이 있다면, 문제를 읽지 않고도 "아, 이거 전에 봤던 문제네!"라고 외워서 정답을 맞힙니다.
- 문제점: AI 가 문제를 풀었다고 해서 '똑똑하다'고 할 수 있을까요? 아니면 그냥 '기억력이 좋은' 것일 뿐일까요?
LINGOLY-TOO 의 방법 (의상 변경):
연구자들은 이 문제를 해결하기 위해 기발한 아이디어를 냈습니다. 바로 문제를 '낯선 옷'으로 갈아입히는 것입니다.
- 예를 들어, 영어로 된 문제를 완전히 새로운 기호로 바꾸거나, 글자 모양을 뒤바꾸는 것입니다.
- 비유: 수학 문제의 숫자 '1, 2, 3'을 모두 '🍎, 🍌, 🍇'로 바꾸고, 더하기 기호 '+'를 '☀️'로 바꾸는 겁니다.
- 결과: AI 는 "아, 이거 전에 봤던 문제야!"라고 외울 수 없게 됩니다. 왜냐하면 그 '낯선 옷'은 AI 가 훈련할 때 전혀 본 적이 없기 때문입니다. 하지만 문제의 **논리적 구조 (2+2=4 라는 규칙)**는 그대로 유지됩니다.

이제 AI 는 답을 외울 수 없으니, 진짜로 규칙을 찾아내서 추론 (Reasoning) 을 해야만 문제를 풀 수 있게 됩니다.

🔍 실험 결과: "외우기 vs 진짜 생각"

연구팀은 최신 AI 모델들 (GPT-5, Claude 등) 에게 이 '낯선 옷'을 입힌 문제를 풀게 했습니다. 결과는 놀라웠습니다.

일반적인 문제 (기존 옷): AI 들은 아주 잘 풀었습니다. (점수: 약 59 점)
- 이유: AI 가 "아, 이 문제 전에 봤어!"라고 외워서 맞췄기 때문입니다.
낯선 옷 문제 (변형된 문제): AI 들의 점수가 뚝 떨어졌습니다. (점수: 약 48 점)
- 이유: 외울 수 없으니, 진짜로 머리를 써서 규칙을 찾아야 하는데, AI 들은 그 능력이 아직 부족하기 때문입니다.

결론: 우리가 그동안 AI 의 '지능'이라고 생각했던 점수 중 상당 부분은 단순 암기에서 나온 것이었습니다. LINGOLY-TOO 는 그 '가짜 지능'을 걸러내고, 진짜 추론 능력만 남기는 필터 역할을 합니다.

🌍 흥미로운 발견: "언어의 부자 vs 가난한 나라"

이 실험에서 또 다른 재미있는 사실이 발견되었습니다.

부유한 언어 (영어, 중국어 등): 많은 데이터가 AI 에게 학습된 언어일수록, AI 는 '낯선 옷'을 입혀도 점수가 많이 떨어졌습니다.
- 이유: AI 가 원래 언어를 너무 잘 알고 있어서, 옷을 바꿔도 "아, 이거 우리 동네 말인데 옷만 바꿔놨네?"라고 유추해서 답을 맞히려 했기 때문입니다.
가난한 언어 (소수 언어): 데이터가 적은 언어는 AI 가 처음부터 잘 몰랐으므로, 옷을 바꿔도 점수 차이가 크지 않았습니다.

이는 AI 가 자신이 아는 지식 (Knowledge) 에 의존할수록, 진짜 추론 능력을 발휘하는 데 방해가 된다는 것을 보여줍니다.

🎓 인간과의 비교: "낯선 글자를 보면 인간도 당황한다"

연구팀은 이 실험을 사람들에게도 시켰습니다.

결과: 사람들도 글자 모양이 낯선 문제를 풀 때, AI 보다 점수가 조금 더 떨어졌습니다. (약 5~6% 감소)
의미: 글자가 낯설면 인간도 당황하고 시간이 더 걸립니다. 하지만 AI 는 사람보다 훨씬 더 큰 폭으로 점수가 떨어졌습니다. 이는 AI 가 단순히 글자를 못 읽어서가 아니라, 지식 (외운 내용) 에 너무 의존하고 있어서 추론을 못 한다는 뜻입니다.

💡 요약: 왜 이 연구가 중요한가요?

지금까지 우리는 AI 가 문제를 잘 풀면 "와, 이 AI 는 정말 똑똑해!"라고 생각했습니다. 하지만 이 논문은 **"잠깐, 그건 그냥 암기였을 수도 있어"**라고 경고합니다.

LINGOLY-TOO는 AI 가 **기억력 (Knowledge)**이 아닌 **생각하는 힘 (Reasoning)**을 가지고 있는지 확인하는 진짜 시험지입니다.
이 시험지를 통해 우리는 AI 가 진짜로 논리를 이해하고 있는지, 아니면 단순히 "아, 이거 전에 봤어!"라고 외우고 있는지 구별할 수 있게 되었습니다.

한 줄 요약:

"AI 가 문제를 잘 푼다고 해서 무조건 똑똑한 게 아닙니다. 낯선 옷을 입힌 문제를 풀게 해봐야, 진짜로 '생각'을 하는지 알 수 있습니다!"

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

최첨단 언어 모델 (LLM) 은 추론 문제 해결 능력이 향상되고 있지만, 실제 추론 능력을 측정하는 데 있어 다음과 같은 심각한 한계가 존재합니다.

지식과 암기의 의존성: 모델이 논리적 추론을 수행하기보다, 학습 데이터에 포함된 방대한 지식 (Knowledge) 이나 평가 데이터셋의 암기 (Memorisation) 를 통해 정답을 유추하는 '단축키 (Shortcuts)'를 사용합니다.
벤치마크의 포화 및 오염: 기존 언어 추론 벤치마크는 모델이 훈련 데이터와 겹치는 문제를 접하거나, 고자원 언어 (High-resource languages) 에 대한 사전 지식을 활용해 문제를 해결함으로써 실제 추론 능력을 과장되게 평가합니다.
구축 타당성 (Construct Validity) 부재: 모델이 문제를 해결할 때, 추론이 성공에 필수적인 조건인지, 아니면 단순히 지식 회상이 가능했는지를 명확히 구분하지 못합니다.

이러한 문제를 해결하기 위해, 지식과 암기를 배제하고 순수한 추론 능력만을 측정할 수 있는 새로운 벤치마크가 필요합니다.

2. 방법론 (Methodology)

저자들은 LINGOLY-TOO라는 새로운 벤치마크를 제안하며, 이는 영국 언어 올림피아드 (UKLO) 의 기존 문제를 기반으로 합니다. 핵심 방법론은 **전문가가 설계한 템플릿 기반 철자법 은폐 (Templatized Orthographic Obfuscation)**입니다.

2.1 데이터 구성

기반 데이터: UKLO 의 82 개 문제에서 추출된 1,203 개의 질문과 총 6,995 개의 하위 질문 (sub-question) 및 정답 쌍으로 구성됩니다.
문제 유형: 언어학 올림피아드 문제는 특정 언어 지식이 없어도 주어진 문맥에서 패턴과 규칙을 유추하여 해결해야 하는 추론 문제입니다.

2.2 은폐 (Obfuscation) 프로세스

원래 문제의 해결 논리 (Solution Logic) 는 유지하되, 모델이 사전 지식을 활용할 수 없도록 철자법 (Orthography) 을 변형합니다.

메타데이터 제거: 언어 이름, 지리적 정보, 문화적 맥락 등 모델이 언어를 식별할 수 있는 단서를 모두 제거합니다.
그래프임 (Grapheme) 단위 치환:
- 단순 단어 치환이 아닌, 음소 (Phoneme) 와 형태소 (Morpheme) 단위의 그래프임을 대상으로 치환합니다.
- 규칙 기반 치환 (Ruleset): 각 문제의 언어학적 특성 (예: 모음 조화, 자음 군, 문법적 규칙) 을 분석하여, 문제 해결에 필수적인 음운론적 관계 (예: 유성/무성, 전설/후설 모음의 쌍) 는 보존하되, 실제 철자만 무작위로 재배열합니다.
- 고정된 요소: 문제 해결에 도움이 되는 차용어 (Loanwords) 나 고유명사, 신성 장소 이름 등은 변경하지 않거나, 문제의 난이도에 영향을 주지 않는 범위 내에서 처리합니다.
생성: 각 문제에 대해 최대 6 개의 유효한 변형 (Permutation) 을 생성하여, 총 6,995 개의 새로운 테스트 케이스를 확보합니다.

2.3 평가 지표

$M_{og}$ (Original): 변형되지 않은 원래 문제에 대한 점수.
$M_{obf}$ (Obfuscated): 은폐된 문제에 대한 점수.
성공 기준: 정답과 완전히 일치하는 경우 (Exact Match) 에만 점수를 부여하며, 부분 점수는 추론 오류를 가릴 수 있어 배제합니다.

3. 주요 기여 (Key Contributions)

포화되지 않은 추론 벤치마크: 최첨단 모델 (GPT-5 등) 이도 높은 난이도 문제에서 50% 미만의 점수를 기록하여, 벤치마크가 아직 포화되지 않았음을 입증했습니다.
지식 효과 정량화: 변형 전후 점수 차이를 통해 모델이 추론 대신 지식을 얼마나 활용하는지 정량화했습니다. 고자원 언어일수록 지식 의존도가 높음을 발견했습니다.
오염되지 않은 문제 생성 방법: UKLO 2025 의 미공개 문제를 대상으로 실험하여, 성능 저하가 단순히 훈련 데이터 중복 (Contamination) 때문이 아님을 입증했습니다.

4. 실험 결과 (Results)

4.1 전체 성능

지식 의존성 확인: 모델들은 원래 문제 ( $M_{og}$ ) 에서 약 0.59의 점수를 기록했으나, 은폐된 문제 ( $M_{obf}$ ) 로 넘어가면 점수가 0.48로 크게 하락했습니다. 이는 모델이 많은 경우 추론이 아닌 지식 회상에 의존하고 있음을 시사합니다.
추론 모델의 민감도: 추론을 강화한 모델 (예: GPT-5, Claude 3.7 Thinking) 이 일반 모델보다 성능이 좋았으나, 은폐 시에도 여전히 큰 성능 저하를 보였습니다.
- 예: GPT-5 는 원래 문제에서 0.59 → 은폐 후 0.48 로 하락.
- o3-mini (high) 는 0.31 → 0.13 으로 큰 격차를 보이며 추론 예산 증가의 유용성을 입증했습니다.

4.2 지식 vs 추론 능력

맥락 제거 실험 (No Context): 문제 해결에 필수적인 정보를 제거한 상태에서 은폐된 문제를 풀게 했을 때, 모델들의 점수는 0.01~0.03 수준으로 떨어졌습니다. 이는 모델이 은폐된 상태에서는 추론 없이 정답을 유추할 수 없음을 의미합니다.
자원화 정도 (Resourcedness) 의 영향: 고자원 언어 (예: 일본어, 핀란드어, 이탈리아어) 일수록 은폐 전후의 성능 격차 ( $\Delta_{obf}$ ) 가 더 컸습니다. 이는 모델이 데이터가 풍부한 언어에서는 추론이 불가능할 때에도 추측 (Guessing) 이나 지식으로 정답을 맞출 확률이 높기 때문입니다.

4.3 토큰화 (Tokenization) 효과

은폐된 문자열이 LLM 의 토큰화 효율을 떨어뜨려 성능 저하를 유발하는지 확인하기 위해, 특수 문자 삽입이나 단일 문자 토큰화 실험을 수행했습니다.
결과, 토큰화 방식 변경은 성능을 개선하지 못했으며, 성능 저하의 주된 원인은 지식 접근성 상실임을 확인했습니다.

4.4 인간 평가 비교

172 명의 인간 참가자를 대상으로 한 무작위 대조 시험 (RCT) 에서, 은폐된 문제의 정답률은 약 5.7% 하락했습니다.
반면, LLM 은 은폐 시 약 12.8% 하락하여 인간보다 더 큰 성능 저하를 보였습니다. 이는 LLM 이 인간보다 언어적 친숙도 (Prior Exposure) 에 더 크게 의존하고 있음을 의미합니다.

5. 의의 및 결론 (Significance & Conclusion)

진정한 추론 능력 측정: LINGOLY-TOO 는 모델이 '무엇을 알고 있는지 (Knowledge)'가 아닌 '어떻게 추론하는지 (Reasoning)'를 평가할 수 있는 강력한 도구를 제공합니다.
벤치마크의 신뢰성 회복: 기존 벤치마크가 과대평가했던 추론 능력을 교정하며, 특히 고자원 언어에서의 성능 과장을 방지합니다.
향후 방향: 현재 최첨단 모델들도 복잡한 다단계 추론 (Multi-hop reasoning) 에서 여전히 취약점이 존재합니다. 추론의 견고성 (Robustness) 과 일관성 (Consistency) 을 향상시키는 것이 향후 연구의 핵심 과제로 남았습니다.

이 논문은 언어 모델의 추론 능력을 평가할 때, 단순한 지식 회상이나 데이터 오염을 배제하기 위한 **은폐 기법 (Obfuscation)**의 중요성을 강조하며, 더 엄격하고 공정한 AI 평가 기준을 제시합니다.