The Astonishing Ability of Large Language Models to Parse Jabberwockified Language

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 핵심 비유: "완벽한 추리소설"

상상해 보세요. 누군가에게 모든 명사와 동사를 지우고, 대신 "블라블라", "후후후" 같은 소리를 넣은 편지를 주었다고 칩시다.

*"어느 날 블라블라가 후후후를 짱짱했다. 그래서 뿅뿅이 꾸욱했다."*

일반인 (사람) 은 이걸 보고 "아무것도 모르겠다"고 생각합니다. 하지만 최신 AI 는 이렇게 말합니다.

*"아, 문장 구조를 보니 블라블라는 '사람'이고, 후후후는 '사과'고, 짱짱은 '먹다'라는 뜻이군. 그리고 뿅뿅은 '개'고 꾸욱은 '울다'겠네. 결론: 어느 날 아이가 사과를 먹어서 개가 울었다."*

이 논문은 AI 가 어떻게 이런 완벽한 추리를 해내는지, 그리고 그 비결이 무엇인지 보여줍니다.

🔍 1. 실험: "의미 없는 글"을 어떻게 해석했나?

연구자들은 실제 글 (예: "영화 시작하자마자 우리는 차우 모완을 만났다...") 의 **실제 단어들 (명사, 동사 등)**을 모두 무작위 가짜 단어로 바꿔버렸습니다.

원문: "At the start of the film..."
바뀐 글: "At the ghybe of the swuint..." (의미 없는 소리)

그런데 AI 가 이 가짜 글을 입력받고 "원래 영어로 번역해줘"라고 요청하자, 놀랍게도 원래 글과 거의 똑같은 뜻으로 다시 만들어냈습니다.

🧩 2. AI 의 비밀 무기: "문법이라는 뼈대"와 "세상 지식"

AI 가 이걸 해낸 이유는 무엇일까요? 연구자들은 두 가지 핵심 요소를 발견했습니다.

① 문법이라는 '뼈대'가 살을 붙여준다

사람은 "의미 없는 단어"만 보면 당황하지만, AI 는 **문장 구조 (어떤 단어가 어디에 오는지)**를 아주 잘 봅니다.

비유: 건물을 짓는다고 생각해보세요. 벽돌 (단어) 이 다 사라지고 **철골 (문법)**만 남아있어도, AI 는 그 철골의 모양을 보고 "아, 이 철골은 '벽'을 받치는 거구나, 저 철골은 '지붕'을 받치는 거구나"라고 추측합니다.
예를 들어, "그가 뿅뿅을 꾸욱했다"라는 문장에서, 뿅뿅은 '물체'로 쓰였고, 꾸욱은 '행동'으로 쓰였다는 문법적 단서만으로도 AI 는 "아, 뿅뿅은 사물이고 꾸욱은 동작이야"라고 추론합니다.

② 세상 지식 (상식) 이 연결고리가 된다

문법만으로는 부족합니다. AI 는 세상에 대한 방대한 지식을 가지고 있습니다.

비유: "차를 블라블라했다"라는 문장이 있다면, 문법만으로는 '블라블라'가 '세차'인지 '수리'인지 '부수기'인지 알 수 없습니다. 하지만 AI 는 "차 + 주차할 곳이 없다 = 블라블라는 '주차'일 것이다"라는 세상 상식을 연결합니다.
연구 결과, 가짜 단어들이 섞여 있어도 **문장 전체의 흐름 (맥락)**만 있으면 AI 는 그 흐름에 맞는 가장 그럴듯한 단어를 찾아냅니다.

📊 3. 놀라운 발견들

이 연구에서 나온 몇 가지 재미있는 사실들이 있습니다.

사람보다 훨씬 잘한다: 사람이라면 "이건 뜻모를 소리야"라고 포기할 텐데, AI 는 가짜 글에서도 60~90% 정도까지 원래 뜻을 맞췄습니다. (물론 완벽하지는 않습니다.)
훈련된 글이 아니어도 된다: AI 가 이전에 그 글을 본 적이 없어도 (새로운 학생 에세이 등), 문법과 맥락만 있으면 완벽하게 해석했습니다. 이는 AI 가 단순히 "기억"을 꺼내는 게 아니라, 문법과 논리를 진짜로 이해하고 있다는 뜻입니다.
가장 중요한 건 '기능어' (작은 단어): 연구자들은 'the', 'a', 'is', 'and' 같은 작은 단어들을 지우지 않고 남겼습니다. 이 작은 단어들이 문장의 뼈대 역할을 해서, AI 가 가짜 단어들의 뜻을 유추하는 데 결정적인 도움을 줍니다. 마치 퍼즐의 가장자리 조각들이 전체 그림을 알려주는 것과 같습니다.

💡 4. 결론: 왜 이 연구가 중요한가?

이 연구는 우리에게 언어가 어떻게 작동하는지에 대한 새로운 통찰을 줍니다.

사람과 AI 의 공통점: 사람도 문법과 상식을 섞어서 언어를 이해합니다. AI 는 이 과정을 엄청나게 정교하게 수행할 뿐입니다.
분리된 것이 아닌 통합된 것: 언어를 이해하려면 '문법', '단어 뜻', '세상 지식'을 따로따로 처리하는 게 아니라, 이 모든 것을 한데 엮어서 동시에 처리해야 한다는 것을 보여줍니다.

🎁 한 줄 요약

"AI 는 가짜 단어 (재버워키) 로 뒤섞인 글에서도, 문법이라는 '뼈대'와 세상 지식이라는 '살'을 완벽하게 연결해, 마치 원래 글을 읽은 것처럼 정확한 뜻을 찾아냅니다. 이는 언어 이해가 단순한 단어 암기가 아니라, 문맥과 구조의 놀라운 통합임을 보여줍니다."

이 연구는 AI 가 단순히 말을 흉내 내는 '패러디'가 아니라, 언어의 깊은 구조를 이해하는 '진짜 이해'에 한 걸음 더 다가섰음을 시사합니다.

Each language version is independently generated for its own context, not a direct translation.

제공된 논문 "The Astonishing Ability of Large Language Models to Parse Jabberwockified Language"에 대한 상세한 기술적 요약입니다.

1. 연구 배경 및 문제 제기 (Problem)

핵심 질문: 대규모 언어 모델 (LLM) 은 의미 있는 내용어 (content words) 가 무작위 nonsense 문자열로 대체된 "Jabberwockified" (자바워키화) 된 텍스트에서 원래의 의미를 얼마나 정확하게 복원할 수 있는가?
이론적 배경:
- 전통적인 언어학 (예: Lewis Carroll 의 '자바워키' 시) 은 문법적 구조 (morphosyntax) 와 폐쇄급 단어 (closed-class words) 만으로도 의미 추론이 가능함을 시사함.
- 그러나 기존 연구는 구문론적 단서 (syntactic cues) 가 구체적인 어휘적 의미 (lexical meaning) 를 결정하는 데에는 한계가 있다고 보았음 (예: "He lorped it on the molp"에서 'lorped'가 'put'인지 'stacked'인지 구문만으로는 알 수 없음).
- 본 연구는 LLM 이 이러한 한계를 넘어, 구조적 단서와 세계 지식 (world knowledge) 을 통합하여 심하게 훼손된 텍스트에서도 놀라운 수준의 의미 복원을 수행할 수 있는지 검증하고자 함.

2. 연구 방법론 (Methodology)

자바워키화 텍스트 생성 (Jabberwockification):
- NLTK 를 사용하여 텍스트를 품사 (POS) 와 어간 (lemma) 단위로 파싱.
- 내용어 (명사, 동사, 형용사 등) 의 어간을 무작위로 선택된 영어와 유사한 가짜 단어 (nonce words) 로 대체.
- 제어 조건: 기능어 (stop words: 관사, 전치사, 대명사, 조동사 등), 구두점, 대소문자, 숫자는 원문 그대로 유지.
- 변형 실험: 기능어 제거, 대소문자/숫자 제거, 구두점 제거, 그리고 모든 내용어를 "BLANK"로 대체하는 조건 등 5 가지 변형을 추가하여 구조적 단서의 역할을 분석.
데이터셋:
- Human-AI-Parallel 코퍼스에서 추출한 150 개의 짧은 지문 (구어체, TV/영화 대본, 소설).
- 모델의 사전 학습 (pretraining) 에 포함되었는지 여부에 따라 통제된 비교 실험 수행 (유명 작품 vs. 미출판 학생 에세이).
사용 모델:
- OpenAI 의 GPT-5.1 (추론 모드), Gemini 3 Pro, 오픈소스 모델 (gemma, DeepSeek 등).
- 주요 분석은 GPT-5.1 (medium reasoning) 을 기반으로 수행.
평가 지표:
- 전체 번역 품질: 원문과 번역된 텍스트 간의 임베딩 유사도 (OpenAI text-embedding-3-large) 를 계산.
- 기저선 (Baseline) 보정: 동일한 장르의 무작위 원문과의 유사도를 비교하여 일반화된 번역이 아닌 구체적인 의미 복원인지 확인.
- 단어 단위 정확도: FastText 임베딩을 사용하여 개별 가짜 단어의 번역 정확도 측정.

3. 주요 결과 (Key Results)

놀라운 의미 복원 능력:
- LLM 은 내용어가 완전히 무작위화된 텍스트에서도 원문의 의미를 높은 정확도로 복원함 (평균 유사도 $M=0.59$ , 기저선 $0.43$보다 유의하게 높음).
- 일부 텍스트 (예: 'Great Expectations' 발췌문) 는 거의 완벽하게 ($0.99$) 복원됨.
구조적 단서의 중요성:
- 기능어 (Stop words) 의 역할: 기능어와 구두점이 포함된 조건이 번역 정확도에 결정적임. 기능어나 전치사를 제거하면 정확도가 유의하게 떨어짐.
- BLANK 조건: 모든 내용어를 'BLANK'로 대체하더라도 (단어 반복 신호 제거), LLM 은 여전히 높은 정확도로 의미를 복원함. 이는 문장 구조와 기능어만으로도 강력한 의미 추론이 가능함을 시사.
영향 요인:
- 장르 (Genre): 소설과 대본이 구어체 (podcast 등) 보다 번역이 더 잘됨.
- 사전 학습 여부: 원문이 모델의 학습 데이터에 포함되었을 때 정확도가 약간 높았으나, 새로운 텍스트 (미학습 데이터) 도 매우 높은 정확도로 복원됨. 이는 모델이 단순히 원문을 암기하는 것이 아니라 구조를 이해하고 있음을 의미.
- 맥락의 양: 문장 단위별 점진적 번역 실험에서, 추가적인 맥락 (후속 문장) 이 제공될수록 이전 문장의 번역 정확도가 향상됨.
단어별 분석:
- 빈도수가 높고, 문맥에서 반복되는 단어, 그리고 특정 구문 (예: "my BLANK and I") 에 포함된 단어일수록 번역이 쉬웠음.
- LLM 은 문법적 가능성뿐만 아니라 세계 지식 (예: 'wife' 대신 'husband'나 'dog'를 선택하지 않음) 을 활용하여 가장 적합한 단어를 추론함.

4. 주요 기여 (Key Contributions)

구조와 의미의 긴밀한 통합 증명: LLM 이 구문론 (syntax), 형태론 (morphology), 어휘 의미론 (lexical semantics), 그리고 일반 세계 지식을 분리하지 않고 매우 긴밀하게 통합하여 작동함을 실증함.
초인적 (Superhuman) 능력의 발견: 인간은 자바워키화된 텍스트에서 구체적인 의미를 복원하는 데 큰 어려움을 겪지만, LLM 은 이를 놀라운 수준으로 수행함. 이는 언어 처리 시스템이 효율적으로 작동하기 위해 모든 맥락적 단서 (구조적, 의미적, 세계 지식) 간의 통합이 필수적임을 시사.
구문론적 부트스트래핑 (Syntactic Bootstrapping) 의 확장: 기존 언어학 이론이 주장하던 것보다 훨씬 강력하게 구조적 단서가 어휘적 의미를 제약하고 결정할 수 있음을 보여줌.

5. 의의 및 시사점 (Significance)

언어 처리의 본질에 대한 통찰: 생물학적 시스템 (인간) 이나 인공 시스템 (LLM) 모두 효율적인 언어 처리를 위해 구문과 의미, 그리고 세계 지식을 분리된 모듈이 아닌 통합된 네트워크로 처리해야 함을 시사함.
LLM 의 작동 원리: LLM 이 단순한 확률적鹦鹉 (stochastic parrot) 가 아니라, 추상적인 패턴 매칭과 구조적 제약을 통해 고차원적인 의미 추론을 수행할 수 있음을 보여줌.
향후 연구 방향:
- 인간과 LLM 간의 성능 격차가 질적 (qualitative) 인지 양적 (quantitative) 인지 규명 필요.
- 다양한 언어 (특히 형태론이 풍부한 언어) 로의 확장 연구 필요.
- 의미 복원 메커니즘 (고수준 주제 식별 후 하위 추론 vs. 국소적 패턴 매칭) 에 대한 구체적인 메커니즘 규명 필요.

결론적으로, 이 논문은 LLM 이 심하게 훼손된 언어 입력에서도 구조적 단서와 세계 지식을 결합하여 놀라운 수준으로 원래 의미를 복원할 수 있음을 보여주며, 이는 언어 이해의 핵심 메커니즘이 구문과 의미의 밀접한 통합에 있음을 강력하게 시사합니다.