Each language version is independently generated for its own context, not a direct translation.

이 논문은 간단한 언어와 창의적인 비유를 사용하여 설명합니다.

큰 질문: 우리가 모델을 가르쳤을까, 아니면 단지 깨워냈을까?

수년 동안 혼자 연습해 온 매우 재능 있지만 약간 혼란스러운 음악가 (AI 모델) 가 있다고 상상해 보세요. 이제 그에게 새로운 곡을 가르치고자 합니다.

AI 세계에서는 그들을 가르치는 '방법'에 대해 큰 논쟁이 있습니다.

방법 A (SFT): 완벽한 연주 녹음을 들려주며 "이것을 정확히 따라 해라"라고 말합니다.
방법 B (RL): 그들이 연주하게 하고, 좋은 음을 낼 때마다 간식을 줍니다. 나쁜 음을 낼 때는 주지 않습니다.

일반적인 믿음은 다음과 같습니다: 방법 A는 그들이 이미 알고 있는 것을 모방하게 할 뿐 (모방) 이지만, 방법 B는 그들이 자신도 몰랐던 새로운 놀라운 것들을 발견하게 합니다 (발견).

이 논문의 저자들은 말합니다: "멈추세요. 그 구별은 너무 단순합니다."

그들은 실제 질문이 가르치는 '방법' (모방 대 보상) 이 아니라, 실제로 무엇을 가르치는가에 있다고 주장합니다. 당신은 단순히 음악가가 이미 연주할 수 있었지만 계속 실수하던 곡을 잘 연주하도록 도와준 것일 뿐일까요? 아니면 실제로 그들이 물리적으로 연주할 수 없었던 곡을 연주할 수 있는 능력을 부여한 것일까요?

그들은 이 두 가지를 다음과 같이 부릅니다:

능력 표출 (Capability Elicitation): 이미 존재했지만 잠들어 있던 기술을 깨우는 것.
능력 창출 (Capability Creation): 음악가가 전혀 가지고 있지 않았던 새로운 기술을 부여하는 것.

"에너지 지형" 비유

이를 설명하기 위해 저자들은 자유 에너지라는 물리학 개념을 사용합니다. 음악가의 마음을 언덕이 많은 지형으로 상상해 보세요.

계곡 (분지): 음악가가 자연스럽게 연주하는 쉬운 곡들입니다. 깊고 편안하며 쉽게 빠져들 수 있습니다.
언덕 (꼬리): 음악가가 연주할 수 있지만 매우 높은 곳에 있는 곡들입니다. 그곳에 도달하려면 많은 노력 (또는 많은 시도) 이 필요합니다.
벽 (장벽): 거대하고 넘을 수 없는 벽으로 분리된 곡들입니다. 음악가는 그냥 걸어 다니는 것만으로는 도달할 수 없으며, 사다리나 다리가 필요합니다.
세계의 다른 쪽 (지원되지 않음): 음악가의 우주에 아직 존재하지 않는 곡들입니다.

이 지도에서 훈련이 작동하는 방식

"모방" (SFT) 과 "보상" (RL) 모두 지형을 기울임으로써 작동합니다.

계곡에 있는 곡에 보상을 주면 그 계곡이 더 깊어집니다. 음악가는 그 곡을 더 자주 연주하게 됩니다.
언덕에 있는 곡에 보상을 주면 그 언덕에 경사로가 생깁니다. 음악가는 이제 그 곡에 더 쉽게 올라갈 수 있습니다.

중요한 점:
만약 그 곡이 이미 계곡이나 언덕에 있었다면, 당신은 새로운 능력을 창출한 것이 아닙니다. 기존 능력을 더 신뢰할 수 있게 만든 것뿐입니다. 이것이 표출입니다.

만약 그 곡이 벽 뒤에 있었고, 당신의 훈련 방법이 그곳에 도달할 수 있도록 다리나 사다리를 somehow 구축했다면, 그때서야 당신은 새로운 능력을 창출한 것입니다. 이것이 창출입니다.

학습의 네 가지 영역

이 논문은 이 지도를 기반으로 후속 훈련을 네 가지 구체적인 시나리오로 분류합니다.

1. "안전 지대" (시연 기반 표출)

시나리오: 음악가는 이미 곡을 완벽하게 알고 있지만 가끔 가사를 잊습니다. 당신은 악보 (시연) 를 보여줍니다.
결과: 그들은 더 이상 잊지 않습니다. 새로운 곡을 배운 것이 아니라 기존 곡을 안정화한 것뿐입니다.
교훈: 답을 찾기가 이미 쉬웠다면, 모방이든 보상이든 간에 당신은 새로운 것을 창조하는 것이 아니라 거친 보석을 다듬는 것뿐입니다.

2. "숨겨진 보석" (꼬리 재가중)

시나리오: 음악가는 복잡한 재즈 솔로를 알고 있지만, 백만 번의 시도 중 한 번만 연주합니다. 그것은 "언덕"에 숨겨져 있습니다.
결과: 당신은 보상 시스템을 사용하여 "와, 그 재즈 솔로가 훌륭했어!"라고 말합니다. 갑자기 그들은 그 곡을 계속 연주하기 시작합니다.
교훈: 연기가 급격히 향상되어 마법처럼 보일 수 있습니다. 하지만 음악가는 처음부터 그 곡을 연주할 수 있었습니다. 단지 그것을 찾을 수 있도록 살짝 밀어줄 필요가 있었을 뿐입니다. 이것은 여전히 창출이 아닌 표출입니다.

3. "다리 건설자" (장벽 횡단 발견)

시나리오: 음악가는 한 번도 함께 시도해 본 적이 없는 일련의 단계를 필요로 하는 곡을 연주해야 합니다. 그것은 벽 뒤에 있습니다.
결과: 당신은 단순히 마지막에 보상을 주는 것이 아니라, 중간 단계에 보상을 주거나 (또는) 그들이 간격을 넘을 수 있도록 도구 (사다리 등) 를 사용하게 합니다.
교훈: 이것이 능력 창출입니다. 훈련이 단순히 언덕을 기울인 것이 아니라, 음악가가 이전에 막혀 있던 곳에 도달할 수 있도록 지형을 변경한 것입니다.

4. "불가능 지대" (지원되지 않는 영역)

시나리오: 당신은 음악가가 바이올린 연주가 필요한 곡을 연주하도록 요청하지만, 그들에게는 기타만 있습니다.
결과: 모방이나 보상을 아무리 많이 해도 소용이 없습니다. 그 곡을 연주하는 데 필요한 "에너지"는 무한합니다.
교훈: 훈련만으로 여기서 능력을 "창출"할 수 없습니다. 새로운 정보, 새로운 악기, 또는 완전히 다른 모델이 필요합니다.

이것이 중요한 이유

이 논문은 우리가 종종 방법 (SFT 대 RL) 이 아니라 메커니즘을 보기 때문에 혼란을 겪고 있다고 주장합니다.

신화: "RL 은 새로운 기술을 창조하므로 마법과 같습니다."
현실: RL 은 모델이 "벽"을 넘을 수 있도록 도와주는 도구, 검색, 또는 상호작용과 결합될 때만 새로운 기술을 창출합니다. RL 이 단순히 이미 할 수 있었던 것에 대해 모델을 보상하는 것뿐이라면, 그것은 단지 표출일 뿐입니다.
신화: "SFT 는 단순히 모방하므로 약합니다."
현실: "모방" 데이터가 검색 엔진이나 더 강력한 AI 와 같은 초지능 출처에서 나온다면, SFT 는 모델이 전혀 알지 못했던 것을 가르쳐 효과적으로 창출 역할을 할 수 있습니다.

결론

AI 가 더 나아지는 것을 볼 때, 우리는 단순히 "그들이 강화 학습을 사용했는가?"라고 물어보지 말아야 합니다.

우리는 이렇게 물어봐야 합니다: "그들은 단순히 AI 가 이미 할 수 있었던 일을 더 잘하게 만들었을까, 아니면 실제로 AI 가 이전에 할 수 없었던 일을 할 수 있는 능력을 부여했을까?"

이 논문은 대부분의 경우 우리는 이미 존재하던 기술들을 깨우는 것 (표출) 일 뿐이며, 우리가 진정으로 새로운 능력을 발명했다고 주장하기 전에 매우 신중해야 한다고 제안합니다.

Each language version is independently generated for its own context, not a direct translation.

기술적 요약: 훈련 후(capability) 능력 유발과 능력 생성의 구분

1. 문제 제기

거대 언어 모델 (LLM) 의 훈련 후 (post-training) 에 관한 주류 담론은 종종 지도 미세 조정 (SFT) 과 강화 학습 (RL) 의 차이를 모방(SFT) 과 발견(RL) 사이의 이분법으로 규정합니다. 본 논문은 이러한 구분이 지나치게 거칠며, 훈련 후 과정이 모델의 행동을 어떻게 변화시키는지에 대한 근본적인 메커니즘을 흐리게 한다고 주장합니다.

핵심 문제는 훈련 후 절차가 다음 중 어느 것인지 판단하는 것입니다:

능력 유발 (Elicits capabilities): 사전 훈련된 베이스 모델이 이미 생성할 수 있었으나 신뢰성 있게 수행하지 못했던 행동의 확률을 높이는 것.
능력 생성 (Creates capabilities): 모델이 실제로 도달할 수 있는 행동 집합을 확장하여 이전에 접근 불가능했던 결과를 가능하게 하는 것.

저자들은 "SFT"또는"RL"이라는 방법론을 라벨링하는 것이 능력 메커니즘을 결정하지 않는다고 주장합니다. 대신, 그 메커니즘은 훈련 신호의 출처 (시연 대 보상), 후보 행동의 생성, 그리고 해당 과정이 모델의 **접근 가능한 지지 (accessible support)**를 확장하는지에 따라 결정됩니다.

2. 방법론 및 이론적 프레임워크

2.1 자유 에너지 관점

저자들은 통계 물리학 ($F = E - TS$) 과의 유추를 통해 훈련 후 과정을 자유 에너지 프레임워크로 형식화합니다. 그들은 훈련 후 목적 함수를 유효 자유 에너지의 최소화로서 해석합니다:
$F_x(q) = \mathbb{E}_{y \sim q(y|x)}[E(x, y)] + \beta \text{KL}[q(y|x) \parallel p_0(y|x)]$
여기서:

$p_0(y|x)$ 는 사전 훈련된 기준 분포입니다.
$q(y|x)$ 는 훈련 후 분포입니다.
$E(x, y)$ 는 외부 신호에서 유도된 유효 에너지입니다.
$\beta$ 는 역온도로 작용하며, 선호하는 행동을 활용하는 것과 다양성 유지 (KL 제약) 사이의 균형을 조절합니다.

주요 이론적 통찰:

에너지로서의 SFT: SFT 는 시연 데이터에 대한 음의 로그 가능도를 최소화합니다. 이는 유효 에너지 $E_{SFT}(x, y) = -\beta \log \frac{p_{demo}(y|x)}{p_0(y|x)}$ 를 정의하는 것과 동일합니다. 만약 어떤 행동이 시연 분포에는 포함되지만 베이스 모델에서는 확률이 0 인 경우 ( $p_0 \to 0$ ), 에너지는 특이점 (singular) 이 되어 국소적 재가중치 해석이 무너집니다.
에너지로서의 RL: RL 은 KL 제약 하에서 보상을 최대화합니다. 이는 $E_{RL}(x, y) = -R(x, y)$ 에 해당합니다. 최적 분포는 기준 분포의 볼츠만 재가중치입니다: $q^*(y|x) \propto p_0(y|x) \exp(R(x, y)/\beta)$ .
국소적 재가중치 (Local Reweighting): 업데이트가 기준 모델과 가까이 유지될 때 (강한 KL 제약), 주요 효과는 새로운 행동의 생성이 아닌 기존 분포의 국소적 재가중치입니다.

2.2 접근 가능한 지지 (Accessible Support)

유발과 생성 사이의 구분을 실용화하기 위해, 논문은 접근 가능한 지지를 도입합니다. 이는 유한한 샘플링, 최적화, 발산 예산 하에서 모델이 실제로 생성할 수 있는 행동 집합입니다. 이 개념은 엄밀한 수학적 지지 (비영 확률) 를 넘어 실제 도달 가능성으로 나아갑니다.

저자들은 목표 행동과 베이스 모델의 접근 가능한 지지 간의 관계에 따라 행동 지형을 네 가지 영역으로 분류합니다:

시연으로 덮인 유발 (Demonstration-Covered Elicitation): 목표 행동은 베이스 모델의 고확률"분지 (basin)"에 위치하며 시연으로 덮여 있습니다. 훈련 후는 이러한 기존 행동을 안정화시킵니다.
꼬리 재가중치 (Tail Reweighting): 목표 행동은 베이스 모델 분포의"꼬리"에 위치합니다 (탐욕적 디코딩 하에서는 드물지만 best-of-N 과 같은 더 큰 샘플링 예산 하에서는 도달 가능함). 훈련 후는 이러한 드물지만 도달 가능한 행동을 증폭시킵니다.
장벽 횡단 발견 (Barrier-Crossing Discovery): 목표 행동은 베이스 모델의 일반적인 출력과"장벽"(낮은 확률의 중간 단계로 이루어진 시퀀스) 에 의해 분리되어 있습니다. 이를 도달하려면 단순히 재가중치하는 것이 아니라 경로 생성 과정을 변경해야 합니다 (예: 검색, 도구 사용, 또는 과정 감독을 통해).
지지되지 않는 영역 (Unsupported Regimes): 목표 행동은 베이스 모델의 지지 범위 밖 ( $p_0(y|x) = 0$ ) 에 있습니다. 유효 에너지는 발산하게 됩니다. 훈련 후는 새로운 정보, 도구, 또는 아키텍처 변경 없이는 이러한 능력을 생성할 수 없습니다.

3. 주요 기여

SFT 대 RL 논쟁의 재정의: 논문은 알고리즘적 라벨 (SFT/RL) 이 아닌 능력 변화의 메커니즘(유발 대 생성) 에 초점을 이동시킵니다. 시연이 고품질 (꼬리를 덮는) 이라면 SFT 는 새로운 행동을 유발할 수 있으며, 강한 KL 패널티로 제한된다면 RL 은 단순한 재가중치일 수 있다고 주장합니다.
진단 프레임워크: 자유 에너지 관점을 적용함으로써, 저자들은 성능 향상이 국소적 재가중치 (접근 가능한 지지 내) 에서 비롯된 것인지, 아니면 지지 확장 (장벽 횡단) 에서 비롯된 것인지 진단할 수 있는 수학적 도구를 제공합니다.
네 가지 영역: 논문은 훈련 후 결과에 대한 분류 체계를 수립하여, "능력 생성"이 방법론의 이진적 속성이 아니라 훈련 신호, 후보 생성 과정, 베이스 모델의 도달 가능성 간의 상호작용의 속성임을 명확히 합니다.
"생성"의 명확화: 저자들은 진정한 능력 생성 (장벽 횡단 발견) 은 고립된 보상 최대화가 아니라 경로 생성 과정을 변경하는 메커니즘 (예: 검색, 상호작용, 도구 사용) 을 필요로 한다고 주장합니다.

4. 결과 및 주장

본 논문은 새로운 경험적 벤치마크를 제시하지는 않지만, 기존 훈련 후 현상에 대한 진단적 분석을 제공합니다:

SFT 는 본질적으로 약하지 않음: 시연에 검색이나 더 강력한 모델에 의해 생성된 경로가 포함되어 있다면, SFT 는 베이스 모델이 드물게 생성하는 행동을 유발할 수 있습니다. SFT 의 한계는 지도 목적 함수 자체가 아니라 시연 분포의 커버리지입니다.
RL 은 본질적으로 창의적이지 않음: RL 이 강한 KL 제약 하에 적용되고 검색 메커니즘 없이 수행된다면, 이는 단순히 베이스 모델의 꼬리 행동을 재가중치할 뿐입니다. 이 영역에서의 큰 벤치마크 향상은 새로운 능력의 생성이 아닌 꼬리 재가중치를 반영합니다.
특이점 경계: 유발에서 생성으로의 전환은 자유 에너지 공식의 특이점으로 표시됩니다. 필요한 행동에 대해 $p_0(y|x) \to 0$ 일 때, 국소적 재가중치 관점이 무너지며 이는 해당 행동이 접근 가능한 지지 범위를 벗어났음을 나타냅니다.

5. 중요성 및 범위

논문은 능력 유발과 능력 생성을 구분하는 것이 엄격한 훈련 후 연구에 필수적이라고 주장합니다.

겸손한 주장: 저자들은 SFT 와 RL 이 동일하거나 최적화 역학이 무관하다고 주장하지 않습니다. 대신, 최적화 역학은 영역 (regime) 에 비례하여 해석되어야 한다고 주장합니다 (예: 장벽 횡단 영역에서는 최적화가 경로 생성 변경과 결합되어야 함).
범위: 이 프레임워크는 진단적입니다. 성능 향상만으로는 능력 생성의 충분한 증거가 아님을 명확히 합니다. 생성을 주장하려면 단순히 기존 확률을 재가중치하는 것이 아니라, 검색, 상호작용, 또는 새로운 정보를 통해 모델의 도달 가능한 행동 공간을 확장했음을 입증해야 합니다.
미래 방향: 논문은 향후 연구가 이러한 영역들을 명시적으로 구분할 것을 요구합니다. 연구자들은 성능 향상뿐만 아니라, 그 향상이 분지의 안정화, 꼬리의 증폭, 또는 장벽의 횡단을 반영하는지 보고해야 합니다.

요약하자면, 본 논문은 훈련 후의 핵심 질문이"SFT 또는 RL?"이 아니라"이 방법이 이미 도달 가능한 것을 재가중치하는가, 아니면 도달 가능한 것을 확장하는가?"라고 제시합니다.

On Distinguishing Capability Elicitation from Capability Creation in Post-Training: A Free-Energy Perspective