당신이 매우 똑똑하지만 약간 산만한 학생에게 복잡한 문제를 해결하는 법을 가르치고 있다고 상상해 보세요. 당신은 학생에게 프롬프트(질문)를 주고, 자신의 사고 과정을 단계별로 전부 적어보라고 요청합니다.

문제는 학생이 글을 써 내려갈수록 점점 딴 길로 새기 시작한다는 점입니다. 학생은 무관한 세부 사항에 주의를 빼앗기거나, 했던 말을 반복하거나, 막다른 길로 빠지는 잘못된 방향으로 나아갈 수 있습니다. AI의 세계에서는 이를 "표류(drifting)" 또는 "불안정성(instability)"이라고 부릅니다.

이 논문은 AI가 특히 매우 긴 답변을 작성해야 할 때 경로를 이탈하지 않도록 돕는 새로운 도구인 ANTS(Adaptive Nucleus Truncation Sampling, 적응형 핵 절단 샘플링)를 소개합니다.

이것이 어떻게 작동하는지 쉬운 개념으로 나누어 설명하겠습니다.

1. 문제점: "고정된 필터" vs "스마트한 필터"

AI가 수천 개의 가능한 경로(단어) 중 하나를 선택해야 하는 갈림길에 서 있다고 상상해 보세요.

기존 방식: 전통적인 도구들은 고정된 문지기처럼 행동합니다. 그들은 "상황이 어떻든 상관없이, 우리는 상위 50%의 경로만 통과시키겠다"라고 말합니다.
- 결함: 때때로 학생은 매우 집중해야 할 때가 있고(수학 문제), 이때 넓은 문은 너무 많은 노이즈를 들여보냅니다. 반대로 창의적이어야 할 때(이야기 쓰기)는 좁은 문이 좋은 아이디어들을 차단해 버립니다. 고정된 문은 상황에 따라 마음을 바꿀 수 없습니다.
ANTS의 솔루션: ANTS는 스마트하고 적응적인 가이드 역할을 합니다. 고정된 문 대신, 현재 상황을 보고 다음과 같이 묻습니다: "지금 학생이 얼마나 혼란스러워하고 있는가?"
- 학생이 정답에 대해 매우 확신하고 있다면(낮은 혼란도), 가이드는 집중력을 유지하기 위해 문을 좁힙니다.
- 학생이 확신이 없다면(높은 혼란도), 가이드는 더 많은 옵션을 탐색할 수 있도록 문을 넓힙니다.

2. 비법: "로짓(Logits)"과 "엔트로피(Entropy)"

이러한 결정을 내리기 위해 ANTS는 두 가지 특별한 도구를 사용합니다.

로짓 (Raw Score, 원시 점수): 대부분의 AI 도구는 단어의 최종 "확률"(예: 퍼센트 확률)을 봅니다. 하지만 이 논문은 이것이 필터링되고 크기가 조정된 사진을 보는 것과 같다고 주장합니다. ANTS는 필터링이 일어나기 전의 **원시 점수(logits)**를 봅니다. 이것은 요리되기 전의 원재료를 보는 것과 같습니다. 즉, AI가 다음에 올 최적의 단어가 무엇이라고 실제로 "생각"하는지에 대한 더 명확한 그림을 제공합니다.
엔트로피 (혼란 측정기): ANTS는 "엔트로피"를 측정하는데, 이는 기본적으로 특정 순간에 AI가 얼마나 혼란스럽거나 불확실한지를 나타내는 척도입니다. ANTS는 이 측정기를 사용하여 문을 얼마나 넓게 열지 결정합니다.

3. 안전망: "폴백 암(Fallback Arm, 회귀 팔)"

이것은 이 발명품에서 가장 중요한 부분입니다.
스마트한 가이드(ANTS)가 너무 도움이 되려고 노력하다가, 경로를 너무 공격적으로 차단하여 학생이 막히거나 헛소리를 하기 시작한다고 가정해 봅시다.

폴백(Fallback): ANTS에는 특별한 "비상 버튼"(폴백 암이라고 불림)이 있습니다. 만약 가이드가 경로를 차단하는 것이 상황을 악화시키고 있다는 것을 깨달으면, 즉시 버튼을 눌러 경로 차단을 완전히 중단할 수 있습니다. 즉, 원래의 필터링되지 않은 방식으로 되돌아갑니다.
중요한 이유: 과거에는 필터가 너무 엄격하면 AI가 점점 더 나빠지기만 했습니다. 하지만 ANTS가 있으면, 시스템은 언제 엄격함을 멈추고 다시 자유롭게 풀어줄지 "학습"할 수 있어, 훈련 과정을 안정적으로 유지할 수 있습니다.

4. 결과: 대화가 길어질수록 더 좋아집니다

연구진은 다양한 "예산"(AI가 생성할 수 있는 단어 수의 제한)을 가진 대규모 AI 모델을 대상으로 테스트했습니다.

짧은 예산 (8K 단어): 결과는 엇갈렸습니다. 코드를 작성하는 것과 같은 일부 작업에서 AI는 ANTS를 사용했을 때 오히려 더 나쁜 성능을 보였습니다. 아주 적은 공간에서 작업할 때는 허용할 단어를 너무 까다롭게 고르는 것이 최종 결과에 해가 될 수 있다는 점을 시사합니다.
긴 예산 (16K 및 32K 단어): 여기서 ANTS가 빛을 발합니다. 허용된 길이가 길어질수록 ANTS는 눈에 띄게 좋아졌습니다.
- 지시 이행(Instruction Following): 복잡한 규칙을 오랫동안 따르라는 요청을 받았을 때, ANTS는 AI가 규칙을 잊어버리거나 횡설수설하는 것을 방지했습니다.
- 수학 및 논리: 어려운 수학 문제에서 ANTS는 AI가 잘못된 단계를 만들어내는 "환각(hallucination)" 현상을 피하도록 도와 높은 점수를 기록했습니다.
- "Codeforces"의 반전: 흥ending하게도, 코딩 작업의 경우 짧은 길이에서는 성능이 낮았지만, 긴 길이에서는 놀라울 정도로 뛰어났습니다. 이는 복잡한 코딩을 위해서는 정답을 결정하기 전에 많은 아이디어를 탐색할 자유가 필요하지만, 그럴 수 있는 충분한 공간이 있을 때만 유효하다는 것을 시사합니다.

핵심 요약

이 논문은 "샘플링" 방식(AI가 다음 단어를 선택하는 방법)을 단순히 켜거나 끄는 단순한 설정으로 취급해서는 안 된다고 주장합니다. 대신, 다음과 같은 상황에 따라 행동을 바꾸는 **동적 컨트롤러(dynamic controller)**가 되어야 합니다:

답변이 얼마나 길어야 하는가.
그 순간 AI가 얼마나 혼란스러운가.
현재 전략이 효과적인가, 아니면 리셋을 위해 "비상 버튼"을 눌러야 하는가.

요약하자면, ANTS는 AI에게 언제 집중하고, 언제 창의적이어야 하며, 언제 "똑똑해지려고" 애쓰는 것을 멈추고 자연스럽게 흘러가도록 내버려 두어야 하는지를 가르쳐줌으로써, 긴 대화 도중에 길을 잃지 않도록 보장하는 시스템입니다.

기술 요약: 장문 추론을 위한 적응형 핵 트렁케이션 (Adaptive Nucleus Truncation)

문제 정의

장문 언어 모델 추론에서 생성 예산(generation budget)은 다단계 추론, 자기 개선(self-refinement), 도구 사용을 지원할 수 있을 만큼 충분히 큰 경우가 많습니다. 이러한 체제에서 디코딩 샘플러는 단순한 후처리 세부 사항이 아니라, 도달 가능한 추론 경로와 학습 궤적의 안정성을 결정하는 핵심적인 제어 메커니즘입니다. 기존의 트렁케이션(truncation) 방식들—top- $p$ , min- $p$ , 고정된 top- $n_\sigma$ 샘플링 등—은 제한 없는 샘플링보다는 개선된 형태이지만 다음과 같은 중대한 한계를 가집니다:

고정된 임계값: top- $p$ 및 min- $p$ 와 같은 방식은 엔트로피, 작업 난이도, 학습 단계 또는 생성 예산의 변화에 적응할 수 없는 고정된 확률 임계값에 의존합니다.
확률 공간의 왜곡: 확률 기반 방식은 소프트맥스(softmax) 및 온도 스케일링(temperature scaling) 이후에 작동하므로, 확률 정규화로부터 기인하는 왜곡을 그대로 물려받습니다. 결과적으로 동일한 로짓 기하 구조(logit geometry)라도 온도가 변함에 따라 서로 다른 후보 집합을 생성할 수 있습니다.
적응성 부족: 단일 고정 트렁케이션 파라미터(예: top- $n_\sigma$ 의 고정된 $n$ )는 날카로운 가지치기가 필요한 결정적인 문맥과 넓은 지지(support)가 필요한 모호한 문맥을 동시에 대응할 수 없습니다. 또한, 불안정한 강화 학습(RL) 단계에서 공격적인 트렁케이션은 학습 불안정성(엔트로피, KL 발산 및 그래디언트 노름의 오버슈팅)을 초래할 수 있습니다.

방법론: 적응형 핵 트렁케이션 샘플링 (ANTS)

저자들은 **적응형 핵 트렁케이션 샘플링 (Adaptive Nucleus Truncation Sampling, ANTS)**을 제안합니다. 이는 고정된 디코딩 휴리스틱이었던 top- $n_\sigma$ 샘플링을 적응형이며 예산 인지적인 롤아웃 제어 메커니즘으로 확장한 것입니다. ANTS는 세 단계로 작동합니다:

1. 로짓 공간 지지체 추정 (Logit-Space Support Estimation)

확률 기반 방식과 달리, ANTS는 온도 적용 전의 로짓 공간에서 후보 집합을 선택합니다. 이 방식은 어휘 단위 표준 편차 $\sigma(\ell_t)$ 를 기반으로 최대 로짓 $\ell_{t, \text{max}}$ 주변의 이웃 $N_t(n)$ 을 정의합니다:
$N_t(n) = \{ v \in V \mid \ell_{t,v} > \max_{u \in V} \ell_{t,u} - n \cdot \sigma(\ell_t) \}$
이 선택 방식은 양의 로짓 재스케일링(온도 스케일링)에 불변하므로, 온도가 변하더라도 후보 집합이 일관되게 유지됩니다.

2. 엔트로피 조건부 임계값 설정 (Entropy-Conditioned Thresholding)

트렁케이션 이웃의 폭인 $n_t$ 는 고정되지 않고 모델의 국소적 불확실성에 따라 적응합니다. 이는 다음과 같이 계산됩니다:
$n_t = n_0 + \gamma \cdot H(p^{(0)}_t)$
여기서 $H(p^{(0)}_t)$ 는 단위 온도 분포의 엔트로피입니다. 엔트로피가 높은 문맥(모호한 경우)은 더 많은 대안을 유지( $n_t$ 가 커짐)하고, 엔트로피가 낮은 문맥(결정적인 경우)은 더 날카롭게 가지치기됩니다.

3. 온라인 톰슨 샘플링 컨트롤러 (Online Thompson-Sampling Controller)

최적의 트렁케이션 강도 $\gamma$ 를 동적으로 결정하기 위해, ANTS는 유한한 암(arm) 세트를 갖춘 톰슨 샘플링 밴딧 컨트롤러를 채택합니다:

유한한 암(Finite Arms): 로그 간격의 $\gamma$ 값( $\gamma_k = 10^{\eta_k}$ )을 가진 $K$ 개의 암.
폴백 암(Fallback Arm): 결정적인 $K+1$ 번째 암으로, $\gamma_{K+1} = +\infty$ 를 가지며 이는 사실상 트렁케이션을 비활성화( $N_t = V$ )하여 베이스라인 샘플러를 복구합니다.
보상 신호: 컨트롤러는 각 암에 의해 유도된 분포의 엔트로피를 기반으로 하는 내재적 보상을 사용합니다. 충분한 지지(support)를 보존하는 암(평균보다 높은 엔트로피)은 더 큰 사후 업데이트를 받습니다.
안정성 메커니즘: 폴백 암은 "안전한 탈출구" 역할을 합니다. RL 롤아웃 중에 트렁케이션이 불안정해져서 KL 발산이나 그래디언트 노름과 같은 지표가 드리프트되는 경우, 컨트롤러는 폴백 암을 선택하도록 학습되어 학습을 안정화할 수 있습니다.

주요 기여

적응형 로짓 공간 샘플러: 후보 집합 선택과 내부 확률적 변동성을 분리하는 온도 불변 샘플러로서 ANTS를 정식화했습니다.
엔트로피 구동 제어: 트렁케이션 강도를 온라인으로 적응시키고 학습 불안정성을 방지하기 위한 '트렁케이션 없음' 폴백 암을 포함하는 엔트로피 조건부 톰슨 컨트롤러를 도입했습니다.
생성 예산 스케일링 평가: 8K, 16K, 32K 생성 예산에 걸친 포괄적인 평가를 통해 성능 향상이 일반적으로 예산과 함께 스케일링됨을 입증했습니다.
예산 인지형 트렁케이션: 짧은 예산의 코드 생성에서 나타나는 특정 실패 모드를 규명하여, 생성 예산 및 작업 유형과 공동으로 학습되는 트렁케이션 정책의 필요성을 제시했습니다.

실험 결과

이 방법은 33B-total / 4B-active sparse Mixture-of-Experts (MoE) 추론 모델을 대상으로 평가되었습니다.

예산에 따른 스케일링: 백분율 기반 벤치마크에서의 평균 성능이 8K에서 +1.9 포인트, 16K에서 +3.8 포인트, 32K에서 +5.2 포인트 개선되었습니다.
지시 이행 (IFBench): 가장 강력한 향상을 보였으며, 32K에서 Loose 기준 +10.5, Strict 기준 +10.8 포인트 개선되었습니다. ANTS는 제약 조건을 위반하는 장황하거나 탈선하는 지속(continuation)으로의 드리프트를 방지했습니다.
수학적 추론 (AIME 2025): 32K에서 +7.0 포인트 개선되었으며, 8K에서 32K로 갈수록 이득이 거의 두 배로 증가했습니다.
코드 생성 (Codeforces): 중요한 예산 상호작용을 드러냈습니다. 8K에서는 더 많은 솔루션 토큰을 생성했음에도 불구하고 ANTS가 베이스라인보다 -59 ELO 뒤처졌습니다. 그러나 16K와 32K에서는 이 격차를 역전하여 각각 +230 및 +212 ELO 이득을 달랐습니다. 이는 트렁케이션이 엄격하게 제약된 코드 체제에서는 해롭지만, 실행 가능한 프로그램 공간이 더 큰 경우에는 유익하다는 것을 시사합니다.
과학적 QA (GPQA) 및 지식 (MMLU Pro): 거의 대등하거나 완만한 향상을 보였으며, 이는 로짓 공간 트렁케이션이 정밀한 단일 정답 선택이 필요한 작업보다는 장문 생성 작업에서 더 큰 레버리지를 제공함을 나타냅니다.
토큰 할당: ANTS는 토큰 사용 패턴을 변화시켰습니다. 중간 정도의 예산에서는 "사고(thought)" 토큰을 증가시켰습니다. 32K에서는 높은 정확도를 유지하면서 사고 토큰을 줄였는데, 이는 단순히 긴 체인을 생성하는 것이 아니라 불필요한 지속을 억제함을 시사합니다.

의의 및 주장

본 논문은 샘플러 설계를 단순히 고정된 디코딩 하이퍼파라미터가 아니라, 추론 시간 스케일링 및 롤아웃 제어의 통합된 구성 요소로 취급해야 한다고 주장합니다.

안정성: 폴백 암의 포함은 이 방법의 성공에 핵심적이며, 고정된 방식으로는 빠져나올 수 없는 불안정한 트렁케이션 상태로부터 시스템이 회복할 수 있게 해줍니다.
문맥 민감도: 결과는 최적의 샘플링 전략이 생성 예산, 작업 유형(예: 코드 vs 수학), 그리고 학습 상태에 따라 달라지는 문맥 의존적임을 입증합니다.
효율성: ANTS는 종종 베이스라인보다 더 빨리 성능 밴드에 도달하며, 저품질 또는 불안정한 롤아웃의 빈도를 줄임으로써 RL 환경에서의 유효 컴퓨팅 효율성을 높입니다.

저자들은 ANTS가 모든 작업에서 기존의 모든 샘플러를 보편적으로 압도하지는 않지만, 유용한 추론 경로를 제거하지 않으면서 노이즈 섞인 꼬리 부분을 억제하는 것이 중요한 장문 추론 및 지시 이행 분야에서 강력한 생성 예산 스케일링 패턴을 보여준다고 결론짓습니다.

Adaptive Nucleus Truncation for Long-Form Reasoning