원저자: Santiago Acevedo, Alessandro Laio, Marco Baroni

게시일 2026-05-28

📖 3 분 읽기☕ 가벼운 읽기

원저자: Santiago Acevedo, Alessandro Laio, Marco Baroni

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

DeepSeek-V3 와 같은 대규모 언어 모델 (LLM) 을 거대한 다층 도서관으로 상상해 보세요. 이 도서관 안에서 당신이 입력한 모든 문장은 건물의 각 층 (레이어) 을 통과하며 고유한 고차원 "지문"(벡터) 으로 변환됩니다.

이 논문이 제기하는 핵심 질문은 다음과 같습니다: 이 도서관은 이러한 지문들을 어떻게 조직화할까요? 구체적으로, 문장의 "구조"(구문) 와 문장의 "의미"(의미론) 를 분리하여 보관하는지, 아니면 모두 큰 스무디처럼 뒤섞여 있는지 여부입니다.

연구자들이 발견한 바를 간단히 설명하면 다음과 같습니다:

1. "평균"의 속임수 (핵심 찾기)

연구자들은 문법적으로 동일한 문장들 (예: "고양이가 앉았다", "개가 달렸다", "새가 날았다") 이 공통된 "뼈대"를 공유한다는 사실을 깨달았습니다.

유추: 정확히 같은 종류의 모자를 쓴 100 명의 서로 다른 사람의 사진을 찍었다고 상상해 보세요. 이 사진들을 모두 평균내면 얼굴은 흐릿해지지만, 모자는 매우 선명하고 뚜렷하게 나타납니다.
방법: 그들은 이를 수학적으로 수행했습니다. 동일한 문법 구조를 가진 문장들의 지문을 평균내어 "구문 중심점"(순수한 문법 모자) 을 만들었습니다. 또한, 같은 의미지만 다른 단어를 사용한 문장들에 대해 동일한 작업을 수행하여 "의미론적 중심점"(순수한 의미 모자) 을 만들었습니다.

2. "뺄셈" 테스트 (모자 제거하기)

이러한 "순수한" 문법과 의미 벡터를 확보한 후, 연구자들은 원래 문장 지문에서 이를 제거해 보았습니다.

유추: 모자를 쓴 사람의 사진이 있다고 가정해 보세요. 사진에서 디지털 방식으로 "모자" 벡터를 빼면 모자가 사라집니다. 만약 사진이 여전히 사람처럼 보인다면, 모자는 별도의 층이었다는 뜻입니다. 만약 사람의 얼굴까지 사라진다면, 모자와 얼굴이 뒤섞여 있었다는 뜻입니다.
결과: "문법 모자"를 문장에서 뺄 때, 그 문장은 동일한 문법을 가진 다른 문장들과 매칭되는 능력을 잃었습니다. "의미 모자"를 뺄 때는 같은 의미를 가진 문장들과 매칭되는 능력을 잃었습니다.
결론: 이는 모델이 문법과 의미를 선형적으로 인코딩한다는 것을 증명합니다. 화학 반응처럼 새로운 물질이 되어 섞이는 것이 아니라, 수학적으로 분리 가능한 레시피의 distinct한 재료들과 같습니다.

3. "평면도" 발견 (어디에 사는가)

도서관에는 많은 층이 있습니다. 연구자들은 문법과 의미가 서로 다른 층에 거주한다는 사실을 발견했습니다.

문법 (구문): 이는 기초와 낮은 층과 같습니다. 시작부터 존재하며 최상층까지 일관되게 유지됩니다. 모델은 문장의 구조를 거의 즉시 파악합니다.
의미 (의미론): 이는 중간 층과 같습니다. 문장이 도서관에 들어오면 모델은 먼저 단어와 구조 (낮은 층) 를 살펴봅니다. 그런 다음 문장이 중간 층으로 이동함에 따라 모델은 그 문장이 실제로 무엇을 의미하는지 파악합니다. 최상층 (모델이 답변을 작성하는 곳) 에 도달할 때까지는 의미가 여전히 존재하지만, 초점은 출력 생성으로 이동합니다.
유추: 책을 읽는 것을 생각해 보세요. 먼저 글자와 단어를 인식합니다 (문법). 그런 다음 문단의 중간에서 이야기의 흐름을 이해합니다 (의미). 이야기를 이해하기 위해 글자를 다시 인식할 필요는 없지만, 시작하려면 글자가 필요합니다.

4. 한쪽 방향의 거리 (비대칭성)

가장 흥미로운 부분은 다음과 같습니다: 이 분리는 완벽하게 대등하지 않습니다.

문법은 독립적입니다: 문장에서 "의미"를 제거하면 "문법"은 완벽하게 온전하게 남습니다. 살을 제거해도 뼈대는 여전히 서 있습니다.
의미는 의존적입니다: 문장에서 "문법"을 제거하면 "의미"는 약간 흔들립니다. 완전히 사라지는 것은 아니지만, 인식하기가 더 어려워집니다.
유추: 집을 상상해 보세요. 가구 (의미) 를 제거하면 집 구조 (문법) 는 여전히 명확하게 집으로 남아 있습니다. 하지만 벽과 지붕 (문법) 을 제거하면 가구 (의미) 는 그냥 바닥에 쌓인 물건 덩어리에 불과해집니다; 그것이 무엇이었는지 파악하기 어렵습니다.

요약

이 논문은 이러한 거대한 AI 모델에서 다음과 같은 사실을 보여줍니다:

**문법과 의미는 구별됩니다:**它们是 별개로 인코딩되며, hopelessly 섞여 있지 않습니다.
그들은 선형적입니다: 수학적으로 하나에서 다른 하나를 "뺄" 수 있습니다.
그들은 서로 다른 곳에 존재합니다: 문법은 어디에나 존재합니다 (특히 초기 단계에서), 반면 의미는 모델 처리 과정의 중간에서 정점을 이룹니다.
문법은 튼튼한 기초입니다: 의미를 제거해도 문법이 무너지지 않지만, 문법을 제거하면 의미를 붙잡아 두기가 더 어려워집니다.

이는 이러한 모델들이 단순히 다음 단어를 예측하도록 훈련되었음에도 불구하고, 인간 언어학자들이 언어가 작동한다고 생각하는 방식과 매우 유사한 구조를 자연스럽게 발전시켰음을 시사합니다. 즉, 의미의 층을 지지하는 구조적 틀을 갖춘 것입니다.

기술적 요약: LLM 의 차분적 구문론적 및 의미론적 인코딩

문제 제기

본 연구는 대규모 언어 모델 (LLM) 이 고차원 내부 표현 내에서 구문론적 (구조적) 정보와 의미론적 (의미적) 정보를 어떻게 인코딩하는지 조사한다. LLM 의 성공은 언어적 역량이 어디에, 어떻게 저장되는지 해독하려는 관심을 촉발시켰으나, 구문론과 의미론 간의 관계에 대해서는 여전히 상당한 이견이 존재한다. 생성적 전통은 종종 구문론의 엄격한 자율성을 가정하는 반면, 기능주의적 접근법은二者가 깊이 얽혀 있다고 본다. 본 논문은 두 구성 요소가 선형적으로 인코딩되는지, 네트워크 계층을 어떻게 분포하는지, 그리고 명시적 언어적 사전 지식을 배제한 모델에서 어느 정도까지 분리될 수 있는지를 규명함으로써 이를 해결하고자 한다.

방법론

저자들은 DeepSeek-V3 모델 (671B 파라미터) 의 표현을 탐지하기 위해 선형 연산에 기반한 기하학적 접근법을 활용하며, 더 작은 모델 (Qwen2-7b, Gemma3-12b, Pythia-6.9b) 에 대해 정성적 복제를 수행한다.

1. 데이터셋 구성

본 연구는 다른 LLM(Gemini, ChatGPT, DeepSeek) 을 사용하여 생성된 매칭된 문장 쌍에 의존한다:

구문론적 매칭: 동일한 품사 (POS) 템플릿을 공유하지만 관련 없는 의미를 표현하는 문장 쌍 ("구문론적 쌍둥이").
의미론적 매칭: 원문과 그 영어 의역문으로 구성된 문장 쌍, 그리고 원문을 아랍어, 중국어, 독일어, 이탈리아어, 스페인어, 터키어 등 여섯 개 언어로 번역한 문장 쌍.

2. 중심점 (Centroid) 구성 및 제거

특정 정보 유형을 분리하기 위해 저자들은 숨겨진 표현을 평균화하여 "중심점"을 구성한다:

구문론적 중심점 ( $S_i$ ): 특정 POS 템플릿을 공유하는 모든 "구문론적 쌍둥이"의 표현 평균. 이는 구문론적 구조를 유지하면서 의미론적 변이를 평균화한다.
의미론적 중심점 ( $T_i$ ): 문장 $X_i$ 의 모든 번역 (원문과 그 영어 의역문 제외) 의 표현 평균. 이는 의미론적 내용을 유지하면서 구문론적 및 어휘적 변이를 평균화한다.

제거 절차: 저자들은 해당 중심점으로의 투영을 빼냄으로써 문장 벡터 $X_i$ 에서 특정 정보를 제거한다.

구문론적 제거: $X_i \perp S_i = X_i - \frac{X_i \cdot S_i}{|S_i|^2} S_i$
의미론적 제거: $X_i \perp T_i = X_i - \frac{X_i \cdot T_i}{|T_i|^2} T_i$

3. 유사도 측정

저자들은 고차원에서 약한 신호를 제공한다고 지적하는 중심 커널 정렬 (CKA) 과 같은 선형 지표 대신, **정보 불균형 (Information Imbalance)**에서 파생된 순위 기반 유사도 측정을 사용한다. 이 지표는 한 표현 공간에서의 최근접 이웃이 다른 공간에서의 최근접 이웃을 얼마나 잘 예측하는지를 정량화한다.

4. 표현 집계

토큰 수준의 숨겨진 상태를 문장 수준 벡터로 집계하기 위해 두 가지 방법이 사용된다:

연결 (Concatenation): 마지막 $N$ 개의 토큰을 연결 (위치 정보 보존).
평균화 (Averaging): 마지막 $N$ 개의 토큰 표현을 평균화 (위치 정보 제거).

주요 결과

1. 구문론과 의미론의 선형 인코딩

본 연구는 구문론과 의미론이 적어도 부분적으로 선형적으로 인코딩되어 있음을 발견한다. 문장 벡터에서 구문론적 또는 의미론적 중심점을 빼면 각각 매칭된 쌍 (구문론적 쌍둥이 또는 의역문) 간의 유사도가 현저히 감소한다. 이는 관련 정보의 상당 부분이 이러한 선형 방향에 포착됨을 시사한다.

2. 차등적 계층 프로파일

구문론과 의미론의 교차 계층 인코딩 프로파일은 다음과 같이 다르다:

구문론: 구문론적 유사도는 초기 계층에서 높으며 네트워크 전체에 걸쳐 상대적으로 일정하게 유지된다. 이는 연결된 표현에서 더 두드러지는데, 이는 위치 정보에 대한 의존성을 시사한다.
의미론: 의미론적 유사도는 초기 계층에서 낮으며, 중앙 계층에서 정점에 도달한 후 최종 출력 계층에서 약간 감소한다. 의미론적 유사도는 평균화된 표현에서 더 강하다.

3. 비대칭적 분리

구문론과 의미론이 서로에게 미치는 영향의 비대칭성이 중요한 발견이다:

의미론 제거: 구문론적 쌍둥이에서 의미론적 중심점을 제거해도 구문론적 유사도는 유의미하게 감소하지 않는다. 의미론적 정보가 제거되어도 구문론은 견고하게 유지된다.
구문론 제거: 의역문에서 구문론적 중심점을 제거하면, 특히 중앙 계층에서 의미론적 유사도가 현저히 감소한다.
해석: 이는 의미론이 구문론에서 부분적으로 분리될 수 있는 반면, 구문론은 더 자율적임을 시사한다. 구문론적 구조 (예: 어순) 를 제거하면 의미 회복 능력을 저하시키지만, 의미를 제거하면 구문론적 골격은 파괴되지 않는다.

4. 노름 분해

문장 벡터의 제곱 노름을 분해하면 다음과 같은 사실이 드러난다:

구문론적 구성 요소는 초기 계층에서 우세하다.
의미론적 구성 요소는 중앙 계층에서 우세하다.
이 두 중심점은 벡터 노름의 상당하지만 전체가 아닌 부분 (중앙 계층에서 약 40%) 을 설명하며, 상당한 "잔여" 구성 요소를 남긴다.

5. 하류 프로브 효과

제거 방법은 예상대로 하류 프로빙 작업에 영향을 미친다:

POS 분류: 구문론적 중심점을 제거하면 정확도가 급격히 감소하며, 의미론적 중심점을 제거하면 영향이 미미하다.
의역 회상: 의미론적 중심점을 제거하면 회상률이 급격히 감소하며, 구문론적 중심점을 제거하면 작지만 (존재하는) 부정적 영향을 미친다.

의의 및 주장

본 논문은 LLM 해석 가능성과 계산 언어학 분야에 다음과 같은 세 가지 주요 기여를 주장한다:

의미론적 핵심의 식별: 결과는 LLM 처리에 "의미론적 핵심"이 존재하며, 이는 더 안정적이고 계층을 아우르는 구문론적 처리와 구별되어 네트워크의 내부 계층에 집중되어 있음을 확인한다.
선형 중첩에 대한 증거: 본 연구는 단순한 선형 중첩이 심층 네트워크에서 추상적 언어적 특징 (구문론과 의미) 을 인코딩하는 근본적인 메커니즘임을 보여주는 추가 증거를 제공한다.
구문론의 발현적 자율성: 명시적 언어적 사전 지식을 배제한 모델에서 구문론과 의미론 간의 불완전하지만 명확한 분리가 관찰된다는 사실은, 구문론의 자율성이 언어적 표현의 고유하고 최적의 속성일 수 있음을 시사한다. 이 발견은 자율적 구문론을 가정하는 생성적 언어 이론과 기능주의적 관점 간의 간극을 연결하며, 이러한 구별이 인간 두뇌에서 LLM 에 이르기까지 인지 시스템에서 보편적으로 발현될 수 있음을 함의한다.

저자들은 겸손한 입장을 견지하며, 그들의 선형적 접근법이 이러한 복잡한 특징의 일부 측면만을 포착하며, 표현 노름의 상당 부분이 이러한 중심점으로 설명되지 않는다고 인정한다. 그들은 향후 연구가 비선형 특징 추출과 이러한 인코딩의 시간적 역학을 탐구해야 한다고 제안한다.

Differential syntactic and semantic encoding in LLMs