LINGOLY-TOO: Disentangling Reasoning from Knowledge with Templatised Orthographic Obfuscation

이 논문은 언어학 올림피아드 문제를 전문가가 설계한 템플릿 기반의 표기법 변형으로 변형하여 지식과 암기에 의존하는 단축 경로를 차단하고 진정한 추론 능력을 평가하는 새로운 벤치마크 'LINGOLY-TOO'를 제안합니다.

Jude Khouja, Lingyi Yang, Karolina Korgul, Simeon Hellsten, Vlad A. Neacsu, Harry Mayne, Ryan Othniel Kearns, Andrew M. Bean, Adam Mahdi

게시일 2026-03-04
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🧠 핵심 비유: "낯선 옷을 입은 수학 문제"

상상해 보세요. 여러분이 아주 어려운 수학 문제를 풀고 있습니다. 문제는 "2 + 2 = ?"가 아니라, 복잡한 규칙을 찾아내야 하는 논리 퀴즈입니다.

  1. 기존의 AI (암기왕):
    지금 AI 모델들은 방대한 양의 책을 읽었습니다. 그래서 "2+2=4"라는 사실을 외우고 있거나, 비슷한 문제를 본 적이 있다면, 문제를 읽지 않고도 "아, 이거 전에 봤던 문제네!"라고 외워서 정답을 맞힙니다.

    • 문제점: AI 가 문제를 풀었다고 해서 '똑똑하다'고 할 수 있을까요? 아니면 그냥 '기억력이 좋은' 것일 뿐일까요?
  2. LINGOLY-TOO 의 방법 (의상 변경):
    연구자들은 이 문제를 해결하기 위해 기발한 아이디어를 냈습니다. 바로 문제를 '낯선 옷'으로 갈아입히는 것입니다.

    • 예를 들어, 영어로 된 문제를 완전히 새로운 기호로 바꾸거나, 글자 모양을 뒤바꾸는 것입니다.
    • 비유: 수학 문제의 숫자 '1, 2, 3'을 모두 '🍎, 🍌, 🍇'로 바꾸고, 더하기 기호 '+'를 '☀️'로 바꾸는 겁니다.
    • 결과: AI 는 "아, 이거 전에 봤던 문제야!"라고 외울 수 없게 됩니다. 왜냐하면 그 '낯선 옷'은 AI 가 훈련할 때 전혀 본 적이 없기 때문입니다. 하지만 문제의 **논리적 구조 (2+2=4 라는 규칙)**는 그대로 유지됩니다.

이제 AI 는 답을 외울 수 없으니, 진짜로 규칙을 찾아내서 추론 (Reasoning) 을 해야만 문제를 풀 수 있게 됩니다.


🔍 실험 결과: "외우기 vs 진짜 생각"

연구팀은 최신 AI 모델들 (GPT-5, Claude 등) 에게 이 '낯선 옷'을 입힌 문제를 풀게 했습니다. 결과는 놀라웠습니다.

  • 일반적인 문제 (기존 옷): AI 들은 아주 잘 풀었습니다. (점수: 약 59 점)
    • 이유: AI 가 "아, 이 문제 전에 봤어!"라고 외워서 맞췄기 때문입니다.
  • 낯선 옷 문제 (변형된 문제): AI 들의 점수가 뚝 떨어졌습니다. (점수: 약 48 점)
    • 이유: 외울 수 없으니, 진짜로 머리를 써서 규칙을 찾아야 하는데, AI 들은 그 능력이 아직 부족하기 때문입니다.

결론: 우리가 그동안 AI 의 '지능'이라고 생각했던 점수 중 상당 부분은 단순 암기에서 나온 것이었습니다. LINGOLY-TOO 는 그 '가짜 지능'을 걸러내고, 진짜 추론 능력만 남기는 필터 역할을 합니다.


🌍 흥미로운 발견: "언어의 부자 vs 가난한 나라"

이 실험에서 또 다른 재미있는 사실이 발견되었습니다.

  • 부유한 언어 (영어, 중국어 등): 많은 데이터가 AI 에게 학습된 언어일수록, AI 는 '낯선 옷'을 입혀도 점수가 많이 떨어졌습니다.
    • 이유: AI 가 원래 언어를 너무 잘 알고 있어서, 옷을 바꿔도 "아, 이거 우리 동네 말인데 옷만 바꿔놨네?"라고 유추해서 답을 맞히려 했기 때문입니다.
  • 가난한 언어 (소수 언어): 데이터가 적은 언어는 AI 가 처음부터 잘 몰랐으므로, 옷을 바꿔도 점수 차이가 크지 않았습니다.

이는 AI 가 자신이 아는 지식 (Knowledge) 에 의존할수록, 진짜 추론 능력을 발휘하는 데 방해가 된다는 것을 보여줍니다.


🎓 인간과의 비교: "낯선 글자를 보면 인간도 당황한다"

연구팀은 이 실험을 사람들에게도 시켰습니다.

  • 결과: 사람들도 글자 모양이 낯선 문제를 풀 때, AI 보다 점수가 조금 더 떨어졌습니다. (약 5~6% 감소)
  • 의미: 글자가 낯설면 인간도 당황하고 시간이 더 걸립니다. 하지만 AI 는 사람보다 훨씬 더 큰 폭으로 점수가 떨어졌습니다. 이는 AI 가 단순히 글자를 못 읽어서가 아니라, 지식 (외운 내용) 에 너무 의존하고 있어서 추론을 못 한다는 뜻입니다.

💡 요약: 왜 이 연구가 중요한가요?

지금까지 우리는 AI 가 문제를 잘 풀면 "와, 이 AI 는 정말 똑똑해!"라고 생각했습니다. 하지만 이 논문은 **"잠깐, 그건 그냥 암기였을 수도 있어"**라고 경고합니다.

  • LINGOLY-TOO는 AI 가 **기억력 (Knowledge)**이 아닌 **생각하는 힘 (Reasoning)**을 가지고 있는지 확인하는 진짜 시험지입니다.
  • 이 시험지를 통해 우리는 AI 가 진짜로 논리를 이해하고 있는지, 아니면 단순히 "아, 이거 전에 봤어!"라고 외우고 있는지 구별할 수 있게 되었습니다.

한 줄 요약:

"AI 가 문제를 잘 푼다고 해서 무조건 똑똑한 게 아닙니다. 낯선 옷을 입힌 문제를 풀게 해봐야, 진짜로 '생각'을 하는지 알 수 있습니다!"