CTRL-RAG: Contrastive Likelihood Reward Based Reinforcement Learning for Context-Faithful RAG Models

이 논문은 외부 보상의 한계를 극복하고 환각을 방지하기 위해 지지 증거 유무에 따른 로그 가능도 차이를 최적화하는 대비적 가능도 보상 (CLR) 을 중심으로 한 하이브리드 보상 프레임워크를 제안하여 RAG 모델의 문맥 충실도를 향상시키는 방법을 제시합니다.

Zhehao Tan, Yihan Jiao, Dan Yang, Junjie Wang, Duolin Sun, Jie Feng, Xidong Wang, Lei Liu, Yue Shen, Jian Wang, Jinjie Gu

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎓 1. 문제 상황: "지식만 믿는 학생" vs "참고서도 보는 학생"

지금까지의 인공지능 (AI) 은 시험을 볼 때 두 가지 방식으로 답을 냅니다.

  1. 외운 지식만 믿는 학생: 검색된 참고서 (문서) 를 보지만, 머릿속에 이미 있는 기억 (외운 지식) 을 더 믿습니다. 만약 참고서에 잘못된 정보가 있어도, "아, 내가 아는 게 맞지"라고 생각하며 틀린 답을 냅니다.
  2. 참고서를 잘 못 읽는 학생: 참고서를 보기는 하지만, 중요한 내용을 놓치거나 엉뚱한 부분을 인용해서 답을 합니다.

기존의 AI 훈련 방법은 **"정답이 맞으면 점수 주고, 틀리면 감점"**하는 방식이었습니다. 하지만 이 방식에는 큰 문제가 있습니다.

  • 비유: 시험에서 정답을 맞췄는데, 그 정답이 참고서에서 가져온 게 아니라 AI 가 임의로 지어낸 (환각) 것일 수도 있습니다. 혹은 참고서에 있는 중요한 내용을 무시하고 정답을 맞췄는데, AI 는 "내가 잘했다"고 착각합니다.
  • 결과: AI 는 참고서를 무시하고 자기 머릿속 지식만 믿거나, 형식만 따르는 '가짜 학습'을 하게 됩니다.

💡 2. 해결책: CTRL-RAG (비교를 통한 학습)

저자들은 이 문제를 해결하기 위해 **"대조적 확률 보상 **(Contrastive Likelihood Reward, CLR)이라는 새로운 방법을 고안했습니다.

🕵️‍♂️ 비유: "수사관"의 역할

이 방법은 AI 를 훈련시킬 때 두 가지 시나리오를 동시에 만들어 비교합니다.

  1. **시나리오 A **(진짜 증거) 질문 + 올바른 참고 문서를 보여줍니다.
  2. **시나리오 B **(가짜 증거) 질문 + 무관하거나 헛된 문서를 보여줍니다.

그리고 AI 에게 묻습니다.

"어떤 상황에서 이 답을 더 확신하며 말할 수 있니?"

  • 기존 방식: "정답을 맞췄으니 점수 줌." (어떤 문서를 봤는지 모름)
  • CTRL-RAG 방식: "참고 문서를 봤을 때의 확신도"와 "무관한 문서를 봤을 때의 확신도"를 비교합니다.
    • 만약 AI 가 참고 문서를 봤을 때 답을 할 확률이 훨씬 높다면 → "좋아! 너는 그 문서를 제대로 믿고 활용하는구나!"라고 보상을 줍니다.
    • 만약 무관한 문서를 봐도 답을 할 확률이 높다면 → "아, 너는 문서를 안 보고 자기 머릿속 지식만 믿는구나."라고 감점합니다.

이 과정을 통해 AI 는 **"문서를 볼 때만 확신을 가지고 답해야 한다"**는 것을 배우게 됩니다.

🛠️ 3. 핵심 기술: "길이에 따른 페널티"와 "문서 신뢰도"

이 기술에는 두 가지 멋진 장치가 있습니다.

  1. 지루한 반복을 막는 "길이 조절기":

    • AI 가 보상을 받으려고 길고 지루하게 같은 말을 반복하면 안 됩니다.
    • 이 방법은 답변의 길이에 따라 보상을 나누어 줍니다. (길이가 길어질수록 보상 증가폭을 줄임)
    • 비유: "글이 길다고 점수가 더 주는 게 아니라, 핵심만 짚어서 간결하게 말해야 점수를 준다"는 규칙입니다.
  2. 신뢰도 필터:

    • 문서가 정말 도움이 되었을 때만 보상을 줍니다. 문서가 도움이 안 되거나 오히려 방해가 되면 보상을 주지 않습니다.
    • 비유: "참고서를 봤는데 답이 더 명확해졌을 때만 칭찬한다. 참고서를 봤는데 답이 더 헷갈렸다면 침묵한다."

🚀 4. 왜 이 방법이 중요한가요? (결과)

이 방법을 적용한 AI 는 다음과 같은 변화를 겪었습니다.

  • **할루시네이션 **(환각) AI 가 엉뚱한 사실을 지어내지 않고, 제공된 문서에 근거한 답만 하려고 노력하게 됩니다.
  • 복잡한 추론 능력 향상: 여러 문서를 연결해서 답을 찾아야 하는 문제 (예: A 문서에서 B 정보를 찾고, B 정보를 C 문서에 대입해서 답하기) 를 훨씬 잘 풀게 됩니다.
  • 어떤 모델에서도 작동: 작은 모델이든, 거대한 모델이든 모두 성능이 좋아졌습니다.

📝 요약: 한 문장으로 정리

CTRL-RAG는 AI 에게 "정답을 맞췄다"는 결과만 보는 게 아니라, **"정답을 맞출 때 정말로 검색한 문서를 믿고 활용했는가?"**를 비교하여 평가하고 훈련시키는 똑똑한 교사입니다.

이 기술 덕분에 앞으로의 AI 는 검색한 정보를 더 신뢰할 수 있게 되고, 우리가 믿고 의지할 수 있는 '진실한' 답변을 줄 수 있게 될 것입니다.