Each language version is independently generated for its own context, not a direct translation.
1. 문제 정의 (Problem)
대형 언어 모델 (LLM) 은 복잡한 추론 능력 (수학, 과학, 코딩 등) 에서 탁월한 성능을 보이지만, 긴 추론 과정 (Chain-of-Thought) 으로 인해 높은 추론 비용과 지연 시간이 발생합니다. 반면, 소형 언어 모델 (SLM) 은 비용 효율적이지만 추론 능력이 부족하고, 특히 자신의 정답 여부에 대한 확신 (Confidence) 을 정확히 판단하지 못해 (Self-awareness 부족) 잘못된 답변을 높은 확신으로 내놓는 '과신 (Overconfidence)' 문제가 빈번합니다.
기존의 단일 모델 최적화나 외부 분류기를 이용한 라우팅 방식은 모델 아키텍처 수정이 필요하거나 실제 모델의 추론 능력을 정확히 반영하지 못하는 한계가 있습니다. 따라서 SLM 의 비용 효율성과 LLM 의 정확성을 결합하되, SLM 이 스스로의 한계를 인식하여 어려운 문제는 LLM 에게 위임하는 지능형 협업 시스템의 필요성이 대두되었습니다.
2. 제안 방법론: COREA (Methodology)
저자들은 COREA (COllaborative REAsoner) 라는 시스템을 제안합니다. 이는 SLM 과 LLM 을 직렬 (Cascaded) 로 연결하고, SLM 의 '말할 수 있는 확신 (Verbalized Confidence)'을 강화학습 (RL) 을 통해 보정하는 것이 핵심입니다.
2.1 시스템 아키텍처
- 1 단계 (SLM 처리): 사용자의 질문을 먼저 SLM 이 처리합니다. SLM 은 추론 단계, 최종 답변, 그리고 답변이 정확할 확률 (0.0~1.0) 을 언어로 표현한 점수를 출력합니다.
- 2 단계 (의사 결정): SLM 이 출력한 확신 점수가 미리 설정된 임계값 (Threshold) 보다 낮으면, 해당 질문은 더 강력한 LLM 에게 전달되어 재처리됩니다. 임계값 이상이면 SLM 의 답변을 최종 결과로 사용합니다.
2.2 핵심 기술: 확신 보정을 위한 강화학습 (RLCC)
기존의 검증 가능한 보상 (Verifiable Reward, RLVR) 만으로는 모델의 추론 능력은 향상되지만 확신 점수의 정확도 (Calibration) 는 개선되지 않습니다. COREA 는 이를 해결하기 위해 RL with Confidence Calibration (RLCC) 알고리즘을 도입했습니다.
- 복합 보상 함수 (Composite Reward):
- 정확성 보상 (Rcorrect): 답변이 정답과 일치하는지 여부.
- 형식 보상 (Rformat): 추론, 답변, 확신 점수가 지정된 형식으로 출력되었는지 확인.
- 확신 보정 보상 (Rconfidence): 모델이 출력한 확신 점수 (yc) 와 실제 정답 확률 (p) 간의 거리를 최소화하도록 설계.
- 거리 측정 지표로 L1, L2, KL 발산 등을 사용하며, 실험 결과 L1 거리 기반의 보상이 가장 균형을 잘 이룸을 확인했습니다.
- 그룹 단위 추정 (Group-level Estimation): 정답 확률 p는 알 수 없으므로, GRPO(Group Relative Policy Optimization) 롤아웃 과정에서 동일한 질문으로 생성된 여러 답변 집단의 정답률 (p^) 을 추정하여 보상으로 활용합니다. 이는 개별 샘플의 정답 여부에만 의존하는 기존 방식과 차별화됩니다.
3. 주요 기여 (Key Contributions)
- COREA 프레임워크 제안: SLM 이 낮은 확신 시 LLM 에게 위임하는 협업 시스템을 통해 정확도와 비용 간의 최적 균형을 달성했습니다.
- RLCC 학습 알고리즘 개발: 검증 가능한 보상과 확신 보정 보상을 결합한 강화학습 방법을 제안하여, 모델의 추론 능력과 확신 보정 (Calibration) 을 동시에 향상시켰습니다.
- 광범위한 실험 검증: 다양한 데이터셋 (수학, 비수학, 도메인 외 데이터) 과 모델 백본 (Qwen, Llama 등) 에서 SLM 의 자기 인식 능력과 협업 시스템의 효율성을 입증했습니다.
4. 실험 결과 (Results)
DeepMath-103K 등을 기반으로 한 실험 결과는 다음과 같습니다.
- 비용 대비 성능 최적화:
- LLM 만을 단독으로 사용할 때 대비, COREA 는 Out-of-Domain 수학 데이터에서 21.5%, 비수학 데이터에서 16.8% 의 비용 절감을 달성했습니다.
- 비용 절감에도 불구하고, Pass@1(정확도) 은 LLM 단독 사용 대비 2% 이내의 미미한 감소만 발생했습니다.
- 확신 보정 효과:
- RLCC 를 적용한 SLM 은 기존 RLVR 모델보다 ECE (Expected Calibration Error) 가 현저히 낮아졌으며, AUROC 는 향상되었습니다. 즉, 모델이 "자신이 모르는 문제"를 정확히 인지하여 LLM 에게 넘기는 능력이 크게 개선되었습니다.
- 기타 방법론과의 비교:
- 외부 분류기 (Router) 나 토큰 확률 평균 (AvgProb) 을 사용하는 기존 협업 방식은 비용은 줄일 수 있으나 정확도가 크게 떨어지는 반면, COREA 는 높은 정확도를 유지하며 비용을 절감했습니다.
- 모델 크기와 일반화:
- 1.5B, 7B, 8B, 32B 등 다양한 크기의 모델에서 효과가 입증되었으며, 특히 7B 모델이 32B 모델과 협업할 때 가장 효율적인 비용 - 성능 트레이드오프를 보였습니다.
5. 의의 및 결론 (Significance)
이 논문은 LLM 의 추론 비용을 획기적으로 줄이면서도 높은 정확도를 유지할 수 있는 실용적인 프레임워크를 제시했습니다. 핵심 통찰은 "모델이 자신의 능력을 정확히 평가하는 것 (Self-awareness)"이 비용 효율적인 협업의 열쇠라는 점입니다.
- 실무 적용 가능성: 대규모 LLM 을 모두 사용하는 대신, 간단한 문제는 SLM 이 처리하고 복잡한 문제만 LLM 이 처리하는 방식으로 운영 비용을 대폭 절감할 수 있습니다.
- 향후 연구 방향: 모델의 확신 점수가 이산적 (Discrete) 으로 나타나는 현상 개선, 더 작은 모델에서의 자기 인식 능력 향상, 그리고 다양한 SLM-LLM 조합에 대한 확장성 연구가 필요함을 지적했습니다.
결론적으로, COREA 는 **정확하게 보정된 확신 (Well-calibrated Confidence)**을 기반으로 한 SLM-LLM 협업이 현실 세계의 대규모 추론 작업에서 경제적이고 효율적인 솔루션이 될 수 있음을 입증했습니다.