Confidence-Calibrated Small-Large Language Model Collaboration for Cost-Efficient Reasoning

이 논문은 소규모 언어 모델 (SLM) 의 답변 신뢰도를 보정하여 임계값 미만의 경우만 대규모 언어 모델 (LLM) 에게 위임하는 'COREA' 시스템을 제안함으로써, 복잡한 추론 작업에서 비용은 크게 절감하면서 정확도 손실은 최소화하는 효율적인 협업 방식을 제시합니다.

Chuang Zhang, Zizhen Zhu, Yihao Wei, Bing Tian, Junyi Liu, Henan Wang, Xavier Wang, Yaxiao Liu

게시일 2026-03-05
📖 2 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🍳 상황: 비싼 요리사와 싼 인턴

  • 대규모 모델 (LLM): 세계적인 명장 요리사입니다. 어떤 요리든 완벽하게 해내지만, 요리비 (비용) 가 매우 비싸고 시간이 오래 걸립니다.
  • 소규모 모델 (SLM): 유능한 인턴 요리사입니다. 요리비가 아주 저렴하고 빠르지만, 가끔은 실수를 하거나 자신이 뭘 모르는지 모르고 무작정 요리를 해냅니다.

기존에는 모든 주문을 비싼 명장에게 맡겼기 때문에 비용이 너무 많이 들었습니다. 반면, 인턴에게만 맡기면 싼 건 맞지만 맛없는 요리가 나올 위험이 큽니다.

💡 해결책: COREA (코레아) 시스템

이 논문은 **"인턴이 자신이 할 수 있는 요리는 직접 하고, 어려운 요리는 명장에게 넘기는 시스템"**을 제안합니다. 이를 COREA라고 부릅니다.

하지만 여기서 큰 문제가 하나 있었습니다.

인턴 요리사는 자신이 "이 요리를 못 한다"는 것을 잘 모릅니다.
(예: "아, 이 복잡한 소스 만들기는 내가 못 해. 명장 부장님한테 넘겨야지"라고 생각하지 못하고, 무조건 해보려다 실패하는 거죠.)

🔧 핵심 기술: "자신감 교정 (Confidence Calibration)"

이 문제를 해결하기 위해 연구자들은 인턴 요리사에게 **RL(강화학습)**이라는 특별한 훈련을 시켰습니다.

  1. 훈련 내용: 인턴이 요리를 할 때, 정답을 맞히면 점수를 주고, 자신의 실력을 정확히 평가하는 법도 점수에 포함시켰습니다.
    • 잘할 때: "이건 내가 할 수 있어! (자신감 90%)"라고 말하고 직접 요리합니다.
    • 못할 때: "이건 너무 어려워. 내가 실패할 확률이 높아. (자신감 30%)"라고 솔직하게 인정하고 명장에게 넘깁니다.

이 훈련을 통해 인턴은 **"내가 뭘 알고, 뭘 모르는지"**를 정확히 파악하게 되었습니다.

🚀 결과: 비용은 줄고, 맛은 그대로

이 시스템을 실험해 보니 놀라운 결과가 나왔습니다.

  • 비용 절감: 명장 요리사 (비싼 LLM) 를 100% 사용하는 것보다 약 17~22% 정도 비용을 아꼈습니다. (인턴이 간단한 요리를 많이 처리해주니까요.)
  • 맛 유지: 싼 인턴이 실수할까 봐 걱정했는데, 맛 (정확도) 은 명장이 직접 만든 요리와 거의 비슷하게 유지되었습니다. 인턴이 자신 없는 요리는 아예 넘겨주니까 실패할 일이 없기 때문입니다.

📝 한 줄 요약

**"자신의 실력을 정확히 아는 똑똑한 인턴 (SLM) 이 간단한 일은 직접 하고, 어려운 일은 명장 (LLM) 에게 넘겨주는 시스템"**을 만들어서, 돈은 아끼면서 품질은 유지하는 방법을 개발했습니다.

이처럼 AI 가 스스로 "내가 이거 못 해"라고 판단할 줄 안다면, 우리는 훨씬 더 저렴하고 효율적으로 AI 를 쓸 수 있게 되는 것입니다!