The Rise and Fall of $G$ in AGI

⚕️

이것은 동료 심사를 거치지 않은 프리프린트의 AI 생성 설명입니다. 의학적 조언이 아닙니다. 이 내용을 바탕으로 건강 관련 결정을 내리지 마세요. 전체 면책 조항 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"인공지능 (AI) 이 정말로 '만능 천재'가 되어가고 있는가, 아니면 각자 다른 재능을 가진 '전문가'들이 모여 있는 것인가?"**라는 질문에 통계학적 분석을 통해 답하려는 흥미로운 연구입니다.

저자 데이비드 크라카워는 심리학에서 오랫동안 논의되어 온 '일반 지능 (g)' 개념을 AI 에 적용해 보았습니다. 쉽게 말해, "한 가지 일을 잘하면 다른 모든 일도 잘하는가?"를 AI 벤치마크 점수들을 분석하며 확인한 것입니다.

이 복잡한 논문을 일상적인 언어와 비유로 풀어서 설명해 드리겠습니다.

1. 핵심 비유: "모든 것을 잘하는 천재 (호랑이)" vs "각자 특기를 가진 여우들"

과거 심리학자들은 인간이 지능 테스트에서 한 과목 (예: 수학) 을 잘하면 다른 과목 (예: 언어) 도 잘하는 경향이 있다고 보았습니다. 이를 **'일반 지능 (g)'**이라고 불렀습니다. 마치 한 마리 거대한 호랑이가 모든 사냥터를 지배하는 것처럼 말이죠.

AI 커뮤니티도 비슷하게 생각했습니다. "GPT-4 같은 모델은 수학도 잘하고, 코딩도 잘하고, 의학 지식도 있으니, 이건 진짜 '범용 인공지능 (AGI)'이구나!"라고 믿었습니다.

하지만 이 논문은 2019 년부터 2025 년까지 나온 39 개의 AI 모델과 14 가지 시험 점수를 분석하며 놀라운 사실을 발견했습니다.

결론: AI 는 점점 더 '범용 천재'가 아니라, 각자 특기를 가진 '여우들'의 무리로 변하고 있습니다.

2. 이야기의 흐름: "호랑이의 부활과 몰락"

1 단계: 호랑이의 전성기 (2023 년 초~중반)

처음에는 AI 모델들이 발전할 때, 모든 시험 점수가 동시에 뻥튀기되었습니다.

비유: 마치 한 팀의 운동선수가 훈련을 받자마자 달리기, 수영, 농구, 축구 실력이 모두 똑같이 비약적으로 향상된 것처럼요.
이때는 '일반 지능 (G)'이 90% 이상을 설명했습니다. 즉, "이 모델은 뭐든 잘한다"는 한 가지 척도로 모든 것을 설명할 수 있었습니다.

2 단계: 호랑이의 분열 (2024 년 말 이후)

그런데 2024 년 말부터 상황이 바뀝니다. AI 회사들이 "우리는 이제 모든 것을 다 잘하는 모델보다, 특정 일에 집중하는 모델을 만들자"라고 전략을 바꿨기 때문입니다.

새로운 등장인물: 'o1'이나 'DeepSeek R1' 같은 모델들은 **추론 (Reasoning)**에 특화되어 복잡한 수학 문제를 푼 반면, 다른 모델들은 코드 작성이나 기억력에 특화되었습니다.
비유: 이제 운동선수가 "달리기만 잘하는 선수"와 "수영만 잘하는 선수"로 나뉜 것입니다.
결과: '일반 지능 (G)'이 설명하는 점수 비중이 90% 에서 77% 로 떨어졌습니다. AI 는 더 이상 "무엇이든 잘하는 호랑이"가 아니라, 서로 다른 재능을 가진 **여우들 (전문가)**이 모여 있는 사회가 된 것입니다.

3. 중요한 발견: "도구를 쓰는 지능"

논문은 AI 의 지능이 모델 자체에 있는 것이 아니라, 모델이 사용하는 도구에 있다는 점을 강조합니다.

과거의 AI: 시험지를 보고 혼자서 모든 문제를 풀어야 했습니다. (사람이 펜 없이 시험을 보는 것과 같음)
현재의 AI: 계산기, 검색 엔진, 코드 실행기 같은 도구를 사용해서 문제를 풉니다.
비유: 인간이 지능이 좋아진 것이 아니라, 문자, 책, 인터넷이라는 도구를 발명해서 지능을 확장했듯이, AI 도 이제 외부 도구를 써서 지능을 확장하고 있습니다.

따라서 "이 AI 가 혼자서 얼마나 똑똑한가?"를 묻는 것은 의미가 없어지고, **"이 AI 가 어떤 도구를 어떻게 활용하는가?"**를 보는 것이 중요해졌습니다.

4. 지구의 궤도 비유: "지동설의 반전"

저자는 과학사의 유명한 비유를 사용합니다.

프톨레마이오스 (고대): 천체의 움직임을 설명하기 위해 복잡한 원 (주전원) 을 계속 덧붙였습니다. (AI 벤치마크가 계속 늘어나는 상황)
케플러/뉴턴 (근대): 단순한 법칙 하나로 모든 것을 설명하려 했습니다. (단순한 '일반 지능' 하나로 모든 AI 를 설명하려 했던 시도)

이 논문은 흥미롭게도 AI 는 프톨레마이오스식으로 복잡해지고 있다고 말합니다.

AI 는 단순한 하나의 법칙 (일반 지능) 으로 설명되지 않습니다.
대신, 복잡한 도구와 전문성들이 얽혀서 거대한 지능을 만들어냅니다.
이는 나쁜 일이 아닙니다. 오히려 인간의 뇌가 단순한 하드웨어가 아니라, 도구와 결합된 시스템이라는 사실을 AI 가 증명하고 있는 것입니다.

5. 요약: 우리가 무엇을 알아야 할까?

AI 는 '만능 천재'가 아닙니다: AI 는 점점 더 각자 특기를 가진 전문가 집단으로 변하고 있습니다. (수학 천재, 코딩 천재, 기억력 천재 등)
'지능'의 정의가 바뀝니다: AI 가 혼자서 문제를 푸는 능력보다, 어떤 도구를 어떻게 활용해서 문제를 해결하는가가 더 중요한 지능의 척도가 됩니다.
벤치마크의 한계: 과거의 시험 (벤치마크) 은 AI 가 혼자 문제를 푸는 능력을 측정했지만, 이제는 AI 가 도구를 쓰는 능력을 측정해야 합니다.

한 줄 요약:

"AI 는 더 이상 모든 것을 다 잘하는 '단일 천재'가 아니라, 각자 다른 도구를 들고 서로 다른 일을 해내는 '지능의 사회'가 되어가고 있습니다. 우리는 이제 '얼마나 똑똑한가'가 아니라 '어떻게 지능을 확장하는가'를 봐야 합니다."

Each language version is independently generated for its own context, not a direct translation.

1. 연구 문제 (Problem)

AGI 정의의 모호성: AI 커뮤니티는 LLM 이 다양한 벤치마크에서 높은 성능을 보일 때 이를 '일반 지능 (AGI)'의 증거로 간주하지만, 이는 인간 심리측정학의 '일반 지능 (g)' 개념과 어떻게 연결되는지에 대한 명확한 정의가 부족합니다.
양적 지표의 부재: 기존 연구들은 벤치마크 점수의 절대적 상승을 AGI 의 증거로 보지만, 이것이 진정한 '일반성'의 증가인지, 아니면 단순히 데이터 양의 증가나 시간적 추이에 따른 결과인지 구분하기 어렵습니다.
특수화 vs 일반화: 최근 모델들이 추론 (reasoning) 이나 도구 사용 (tool use) 에 특화되면서, 기존에 관찰되던 '모든 작업에서 고르게 향상되는' 양상이 깨지고 있는지에 대한 의문이 제기됩니다.

2. 방법론 (Methodology)

저자는 LLM 벤치마크 데이터를 인간 심리측정학의 테스트 배터리와 유사하게 취급하여 다음과 같은 분석을 수행했습니다.

데이터 구조:
- 대상: 2019 년 2 월부터 2025 년 12 월까지 발표된 39 개의 주요 LLM 모델 (OpenAI, Anthropic, Google, Meta, DeepSeek 등).
- 벤치마크: MMLU, GSM8K, MATH, HumanEval, GPQA Diamond 등 14 개의 주요 벤치마크.
- 행렬: 모델 × 벤치마크 × 시간의 3 차원 행렬을 구성하여, 결측치가 있는 상태에서도 분석 가능한 구조를 만들었습니다.
통계적 기법:
- 주성분 분석 (PCA): 표준화된 점수 행렬에 PCA 를 적용하여 제 1 주성분 (PC1, 즉 G 요인) 이 전체 분산을 얼마나 설명하는지 ( $\rho_1$ ) 측정했습니다.
- 양적 지표:
  - 양적 상관관계 (Positive Manifold): 모든 벤치마크 쌍의 상관관계가 양수인지 확인 (Spearman 의 g 요인 조건).
  - 고유값 진단: 분산 비율 ( $\rho_1$ ), 지배 비율 ( $\delta = \lambda_1/\lambda_2$ ), 유효 차원성 ( $d_{eff}$ ) 을 계산하여 단일 요인 구조가 유지되는지 확인했습니다.
  - 시간적 분해: 알고리즘적 시대 (Epoch) 를 구분하여 (확대 시대, 프론트라인 시대, 도구/추론 시대) 각 시대의 G 요인 변화를 추적했습니다.
  - 부분 상관관계 (Partial Correlation): G 요인의 영향을 제거한 후 잔여 상관관계를 분석하여 은폐된 특수화 (specialization) 구조를 파악했습니다.
  - 추세 제거 (Detrending): 시간적 추이 (모델이 출시될수록 성능이 좋아지는 자연스러운 경향) 를 제거하여 순수한 구조적 변화를 분리했습니다.

3. 주요 기여 (Key Contributions)

LLM 에 대한 심리측정학적 프레임워크 정립: LLM 벤치마크를 '인지 테스트 배터리'로, 모델 릴리스를 '피험자'로 간주하여 g 요인 분석을 체계적으로 적용한 최초의 연구 중 하나입니다.
G 요인의 '상승과 하락' 발견: 초기에는 G 요인이 분산의 90% 이상을 설명했으나, 2024 년 중반 이후 추론 특화 모델의 등장과 함께 G 요인의 설명력이 감소하고 유효 차원성이 증가함을 통계적으로 증명했습니다.
통계적 G vs 기계적 G 구분: G 요인이 단순한 데이터의 중첩 (통계적 G) 이 아니라, 실제 모델 아키텍처의 공통된 추론 메커니즘 (기계적 G) 에 기반한 것인지, 그리고 이것이 어떻게 진화하는지 분석했습니다.
Ptolemaic Succession (프톨레마이오스적 계승) 은유: LLM 의 발전이 단순한 법칙 발견이 아니라, 새로운 능력마다 새로운 벤치마크 (에피사이클) 를 추가하며 복잡해지는 과정임을 지적했습니다.

4. 주요 결과 (Results)

4.1 양적 상관관계 (Positive Manifold) 의 확인

8 개의 주요 벤치마크 간 28 개의 쌍별 상관관계가 모두 양수 ( $\bar{r} = 0.82$ ) 였으며, 이는 인간 심리측정학의 g 요인과 유사한 '양적 상관관계'가 LLM 에서도 존재함을 확인했습니다.
5 벤치마크 코어 배터리에서 PC1 (G 요인) 은 전체 분산의 **90%**를 설명했습니다.

4.2 G 요인의 시간적 진화와 '상승과 하락'

상승기 (Epoch II, 2023~2024.03): 단순 스케일링 (데이터와 파라미터 증가) 만이 지배하던 시기에는 G 요인이 분산의 **92%**를 설명하며 단일 요인 구조가 매우 강력했습니다.
하락기 (Epoch III, 2024.04~2024.09 및 이후): 추론 체인 (Chain-of-Thought) 과 도구 사용이 도입되면서 G 요인의 설명력은 **77%**로 감소했습니다.
통계적 의미: 이는 모델이 '모든 것을 잘하는' 단일 지능에서, '추론'과 '실행' 등 서로 다른 차원으로 분화 (Specialization) 하고 있음을 의미합니다. 추세 제거 (Detrending) 분석에서도 이 감소가 시간적 인공물이 아님이 확인되었습니다.

4.3 유효 차원성 (Effective Dimensionality) 의 증가

초기에는 $d_{eff} \approx 1.1$ 로 거의 1 차원적이었으나, 추론 특화 모델 (o1, DeepSeek R1 등) 이 등장한 후 5 벤치마크 배터리에서 $d_{eff}$ 가 1.9까지 증가했습니다.
이는 벤치마크 공간이 단일 요인으로 압축되지 않고, '추론 깊이 (Depth of search)'와 '기억 폭 (Breadth of recall)'이라는 두 번째 차원이 등장하고 있음을 시사합니다.

4.4 G 요인의 회전 (Eigenvector Rotation)

DeepSeek V3 와 같은 도구 증강 모델이 데이터에 포함될 때, G 요인의 주성분 벡터가 6.4 도 회전했습니다. 이는 이전 모델들 간의 0.57 도 회전보다 훨씬 큰 변화로, '일반 지능'의 정의가 도구 사용과 추론 능력에 맞춰 재정의되고 있음을 의미합니다.
G 요인이 '지식 기반 추론' 벤치마크 쪽으로 회전하고, '절차적 실행' (코드 생성 등) 쪽에서는 비중이 줄어든 것으로 나타났습니다.

4.5 잔여 구조와 '여우와 고슴도치'

G 요인을 제거한 후의 부분 상관관계 분석 결과, **추론 군 (MATH, GPQA)**과 실행/유창성 군 (GSM8K, HumanEval) 사이에 강한 부적 상관관계가 발견되었습니다.
이는 모델이 한 영역 (예: 추론) 에서 능력을 키우면 다른 영역 (예: 단순 실행) 에서 상대적으로 손해를 보거나, 서로 다른 아키텍처적 특성을 가진다는 것을 의미합니다.
저자는 이를 "한 가지 큰 것을 아는 고슴도치 (G 요인) 안에 여러 가지 것을 아는 여우들 (특수화 군) 이 숨어 있다"는 아이작 베링의 비유로 설명하며, LLM 이 단일 지능체가 아니라 '마음의 사회 (Society of Mind)'로 진화하고 있음을 주장합니다.

5. 의의 및 결론 (Significance)

AGI 에 대한 새로운 관점: LLM 은 인간처럼 단일한 '일반 지능'을 획득한 것이 아니라, 도구를 활용하여 고차원적인 문제 해결 공간을 탐색하는 '도구 사용 지능 (Tool-Using Intelligence)'으로 진화하고 있습니다.
벤치마크의 한계: 도구 없이 평가하는 기존 벤치마크는 도구 증강 모델의 진정한 능력을 측정하지 못합니다. 인간 지능이 도구 (언어, 글쓰기, 인터넷) 와 함께 진화했듯, AI 의 지능도 도구와 결합된 시스템의 속성으로 봐야 합니다.
Ptolemaic Succession 의 역전: 천문학에서 프톨레마이오스 모델이 행성 관측을 설명하기 위해 에피사이클을 무한히 추가했던 것처럼, AI 벤치마크도 새로운 능력마다 새로운 테스트를 추가하며 복잡해지고 있습니다. 하지만 LLM 은 계산 자원을 통해 이러한 복잡성을 (에피사이클을) 통합하여 작동할 수 있습니다.
미래 방향: 단순한 '일반 지능' 점수 (G-score) 에 집착하기보다, 지능의 다양한 차원 (추론, 실행, 도구 사용 등) 을 포괄하는 다차원적 평가 체계로 전환해야 합니다.

요약하자면, 이 논문은 LLM 의 성능 향상이 단순한 '일반 지능'의 선형적 증가가 아니라, 단일 요인 (G) 에서 다차원적 특수화 (Reasoning vs Execution) 로의 구조적 전환임을 통계적으로 증명했습니다. 이는 AGI 가 단일한 목표가 아니라, 도구와 결합된 고차원적 능력의 집합체로 진화하고 있음을 시사합니다.

The Rise and Fall of GGG in AGI