Confidence-Calibrated Small-Large Language Model Collaboration for Cost-Efficient Reasoning

Each language version is independently generated for its own context, not a direct translation.

🍳 상황: 비싼 요리사와 싼 인턴

대규모 모델 (LLM): 세계적인 명장 요리사입니다. 어떤 요리든 완벽하게 해내지만, 요리비 (비용) 가 매우 비싸고 시간이 오래 걸립니다.
소규모 모델 (SLM): 유능한 인턴 요리사입니다. 요리비가 아주 저렴하고 빠르지만, 가끔은 실수를 하거나 자신이 뭘 모르는지 모르고 무작정 요리를 해냅니다.

기존에는 모든 주문을 비싼 명장에게 맡겼기 때문에 비용이 너무 많이 들었습니다. 반면, 인턴에게만 맡기면 싼 건 맞지만 맛없는 요리가 나올 위험이 큽니다.

💡 해결책: COREA (코레아) 시스템

이 논문은 **"인턴이 자신이 할 수 있는 요리는 직접 하고, 어려운 요리는 명장에게 넘기는 시스템"**을 제안합니다. 이를 COREA라고 부릅니다.

하지만 여기서 큰 문제가 하나 있었습니다.

인턴 요리사는 자신이 "이 요리를 못 한다"는 것을 잘 모릅니다.
(예: "아, 이 복잡한 소스 만들기는 내가 못 해. 명장 부장님한테 넘겨야지"라고 생각하지 못하고, 무조건 해보려다 실패하는 거죠.)

🔧 핵심 기술: "자신감 교정 (Confidence Calibration)"

이 문제를 해결하기 위해 연구자들은 인턴 요리사에게 **RL(강화학습)**이라는 특별한 훈련을 시켰습니다.

훈련 내용: 인턴이 요리를 할 때, 정답을 맞히면 점수를 주고, 자신의 실력을 정확히 평가하는 법도 점수에 포함시켰습니다.
- 잘할 때: "이건 내가 할 수 있어! (자신감 90%)"라고 말하고 직접 요리합니다.
- 못할 때: "이건 너무 어려워. 내가 실패할 확률이 높아. (자신감 30%)"라고 솔직하게 인정하고 명장에게 넘깁니다.

이 훈련을 통해 인턴은 **"내가 뭘 알고, 뭘 모르는지"**를 정확히 파악하게 되었습니다.

🚀 결과: 비용은 줄고, 맛은 그대로

이 시스템을 실험해 보니 놀라운 결과가 나왔습니다.

비용 절감: 명장 요리사 (비싼 LLM) 를 100% 사용하는 것보다 약 17~22% 정도 비용을 아꼈습니다. (인턴이 간단한 요리를 많이 처리해주니까요.)
맛 유지: 싼 인턴이 실수할까 봐 걱정했는데, 맛 (정확도) 은 명장이 직접 만든 요리와 거의 비슷하게 유지되었습니다. 인턴이 자신 없는 요리는 아예 넘겨주니까 실패할 일이 없기 때문입니다.

📝 한 줄 요약

**"자신의 실력을 정확히 아는 똑똑한 인턴 (SLM) 이 간단한 일은 직접 하고, 어려운 일은 명장 (LLM) 에게 넘겨주는 시스템"**을 만들어서, 돈은 아끼면서 품질은 유지하는 방법을 개발했습니다.

이처럼 AI 가 스스로 "내가 이거 못 해"라고 판단할 줄 안다면, 우리는 훨씬 더 저렴하고 효율적으로 AI 를 쓸 수 있게 되는 것입니다!

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

대형 언어 모델 (LLM) 은 복잡한 추론 능력 (수학, 과학, 코딩 등) 에서 탁월한 성능을 보이지만, 긴 추론 과정 (Chain-of-Thought) 으로 인해 높은 추론 비용과 지연 시간이 발생합니다. 반면, 소형 언어 모델 (SLM) 은 비용 효율적이지만 추론 능력이 부족하고, 특히 자신의 정답 여부에 대한 확신 (Confidence) 을 정확히 판단하지 못해 (Self-awareness 부족) 잘못된 답변을 높은 확신으로 내놓는 '과신 (Overconfidence)' 문제가 빈번합니다.

기존의 단일 모델 최적화나 외부 분류기를 이용한 라우팅 방식은 모델 아키텍처 수정이 필요하거나 실제 모델의 추론 능력을 정확히 반영하지 못하는 한계가 있습니다. 따라서 SLM 의 비용 효율성과 LLM 의 정확성을 결합하되, SLM 이 스스로의 한계를 인식하여 어려운 문제는 LLM 에게 위임하는 지능형 협업 시스템의 필요성이 대두되었습니다.

2. 제안 방법론: COREA (Methodology)

저자들은 COREA (COllaborative REAsoner) 라는 시스템을 제안합니다. 이는 SLM 과 LLM 을 직렬 (Cascaded) 로 연결하고, SLM 의 '말할 수 있는 확신 (Verbalized Confidence)'을 강화학습 (RL) 을 통해 보정하는 것이 핵심입니다.

2.1 시스템 아키텍처

1 단계 (SLM 처리): 사용자의 질문을 먼저 SLM 이 처리합니다. SLM 은 추론 단계, 최종 답변, 그리고 답변이 정확할 확률 (0.0~1.0) 을 언어로 표현한 점수를 출력합니다.
2 단계 (의사 결정): SLM 이 출력한 확신 점수가 미리 설정된 임계값 (Threshold) 보다 낮으면, 해당 질문은 더 강력한 LLM 에게 전달되어 재처리됩니다. 임계값 이상이면 SLM 의 답변을 최종 결과로 사용합니다.

2.2 핵심 기술: 확신 보정을 위한 강화학습 (RLCC)

기존의 검증 가능한 보상 (Verifiable Reward, RLVR) 만으로는 모델의 추론 능력은 향상되지만 확신 점수의 정확도 (Calibration) 는 개선되지 않습니다. COREA 는 이를 해결하기 위해 RL with Confidence Calibration (RLCC) 알고리즘을 도입했습니다.

복합 보상 함수 (Composite Reward):
- 정확성 보상 ( $R_{correct}$ ): 답변이 정답과 일치하는지 여부.
- 형식 보상 ( $R_{format}$ ): 추론, 답변, 확신 점수가 지정된 형식으로 출력되었는지 확인.
- 확신 보정 보상 ( $R_{confidence}$ ): 모델이 출력한 확신 점수 ( $y_c$ $y_{c}$ ) 와 실제 정답 확률 ( $p$ $p$ ) 간의 거리를 최소화하도록 설계.
  - 거리 측정 지표로 L1, L2, KL 발산 등을 사용하며, 실험 결과 L1 거리 기반의 보상이 가장 균형을 잘 이룸을 확인했습니다.
그룹 단위 추정 (Group-level Estimation): 정답 확률 $p$ 는 알 수 없으므로, GRPO(Group Relative Policy Optimization) 롤아웃 과정에서 동일한 질문으로 생성된 여러 답변 집단의 정답률 ( $\hat{p}$ ) 을 추정하여 보상으로 활용합니다. 이는 개별 샘플의 정답 여부에만 의존하는 기존 방식과 차별화됩니다.

3. 주요 기여 (Key Contributions)

COREA 프레임워크 제안: SLM 이 낮은 확신 시 LLM 에게 위임하는 협업 시스템을 통해 정확도와 비용 간의 최적 균형을 달성했습니다.
RLCC 학습 알고리즘 개발: 검증 가능한 보상과 확신 보정 보상을 결합한 강화학습 방법을 제안하여, 모델의 추론 능력과 확신 보정 (Calibration) 을 동시에 향상시켰습니다.
광범위한 실험 검증: 다양한 데이터셋 (수학, 비수학, 도메인 외 데이터) 과 모델 백본 (Qwen, Llama 등) 에서 SLM 의 자기 인식 능력과 협업 시스템의 효율성을 입증했습니다.

4. 실험 결과 (Results)

DeepMath-103K 등을 기반으로 한 실험 결과는 다음과 같습니다.

비용 대비 성능 최적화:
- LLM 만을 단독으로 사용할 때 대비, COREA 는 Out-of-Domain 수학 데이터에서 21.5%, 비수학 데이터에서 16.8% 의 비용 절감을 달성했습니다.
- 비용 절감에도 불구하고, Pass@1(정확도) 은 LLM 단독 사용 대비 2% 이내의 미미한 감소만 발생했습니다.
확신 보정 효과:
- RLCC 를 적용한 SLM 은 기존 RLVR 모델보다 ECE (Expected Calibration Error) 가 현저히 낮아졌으며, AUROC 는 향상되었습니다. 즉, 모델이 "자신이 모르는 문제"를 정확히 인지하여 LLM 에게 넘기는 능력이 크게 개선되었습니다.
기타 방법론과의 비교:
- 외부 분류기 (Router) 나 토큰 확률 평균 (AvgProb) 을 사용하는 기존 협업 방식은 비용은 줄일 수 있으나 정확도가 크게 떨어지는 반면, COREA 는 높은 정확도를 유지하며 비용을 절감했습니다.
모델 크기와 일반화:
- 1.5B, 7B, 8B, 32B 등 다양한 크기의 모델에서 효과가 입증되었으며, 특히 7B 모델이 32B 모델과 협업할 때 가장 효율적인 비용 - 성능 트레이드오프를 보였습니다.

5. 의의 및 결론 (Significance)

이 논문은 LLM 의 추론 비용을 획기적으로 줄이면서도 높은 정확도를 유지할 수 있는 실용적인 프레임워크를 제시했습니다. 핵심 통찰은 "모델이 자신의 능력을 정확히 평가하는 것 (Self-awareness)"이 비용 효율적인 협업의 열쇠라는 점입니다.

실무 적용 가능성: 대규모 LLM 을 모두 사용하는 대신, 간단한 문제는 SLM 이 처리하고 복잡한 문제만 LLM 이 처리하는 방식으로 운영 비용을 대폭 절감할 수 있습니다.
향후 연구 방향: 모델의 확신 점수가 이산적 (Discrete) 으로 나타나는 현상 개선, 더 작은 모델에서의 자기 인식 능력 향상, 그리고 다양한 SLM-LLM 조합에 대한 확장성 연구가 필요함을 지적했습니다.

결론적으로, COREA 는 **정확하게 보정된 확신 (Well-calibrated Confidence)**을 기반으로 한 SLM-LLM 협업이 현실 세계의 대규모 추론 작업에서 경제적이고 효율적인 솔루션이 될 수 있음을 입증했습니다.

Confidence-Calibrated Small-Large Language Model Collaboration for Cost-Efficient Reasoning

🍳 상황: 비싼 요리사와 싼 인턴

💡 해결책: COREA (코레아) 시스템

🔧 핵심 기술: "자신감 교정 (Confidence Calibration)"

🚀 결과: 비용은 줄고, 맛은 그대로

📝 한 줄 요약

1. 문제 정의 (Problem)

2. 제안 방법론: COREA (Methodology)

2.1 시스템 아키텍처

2.2 핵심 기술: 확신 보정을 위한 강화학습 (RLCC)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

Bridge Diffusion Model: Bridge Chinese Text-to-Image Diffusion Model with English Communities

CurvFed: Curvature-Aligned Federated Learning for Fairness without Demographics

SOAP: Enhancing Spatio-Temporal Relation and Motion Information Capturing for Few-Shot Action Recognition

Efficient Diffusion as Low Light Enhancer

Conditional Distribution Learning for Graph Classification