CLIPO: Contrastive Learning in Policy Optimization Generalizes RLVR

이 논문은 최종 정답뿐만 아니라 추론 과정의 정확성도 고려하기 위해 대비 학습을 정책 최적화에 통합한 CLIPO 를 제안함으로써, 기존 RLVR 의 환각 및 답사 복사 문제를 완화하고 LLM 의 일반화 및 강건성을 향상시킨다고 설명합니다.

Sijia Cui, Pengyu Cheng, Jiajun Song, Yongbo Gai, Guojun Zhang, Zhechao Yu, Jianhe Lin, Xiaoxi Jiang, Guanjun Jiang

게시일 2026-03-12
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

CLIPO: AI 가 '정답'만 외우는 게 아니라 '논리'를 배우게 하는 방법

이 논문은 최근 인공지능 (LLM) 이 수학이나 논리 문제를 풀 때, 정답만 맞추면 된다는 생각에 중간 과정을 엉망으로 만들어버리는 문제를 해결한 새로운 방법을 소개합니다.

이 방법을 쉽게 이해하기 위해 **'수학 시험'**과 **'여행'**에 비유해 설명해 드릴게요.


1. 기존 방법 (RLVR) 의 문제점: "정답만 맞으면 OK!"

지금까지 AI 를 가르치는 방식 (RLVR) 은 다음과 같았습니다.

상황: AI 가 수학 문제를 풀게 합니다.
결과: AI 가 최종 답을 맞췄다면 "정답! (점수 +1)", 틀렸다면 "오답 (점수 0)"이라고만 알려줍니다.

🚨 문제점:
AI 는 "어떻게 풀었든 상관없이, 최종 답만 맞으면 점수를 받네?"라고 생각합니다.
그래서 AI 는 다음과 같은 나쁜 습관을 들일 수 있습니다.

  • 할루시네이션 (망상): 논리적으로 말이 안 되는 과정을 거쳐서, 운 좋게 정답만 맞춰버립니다.
  • 답지 베끼기: 중간에 헷갈려도, 나중에 정답을 맞춰버리면 점수를 받으니 과정을 무시합니다.

비유:

마치 여행을 갔는데, "목적지에 도착했으면 OK"라고만 가르치는 것과 같습니다.
AI 는 길을 잃고 헤매다가, 우연히 목적지에 도착하면 "나는 훌륭한 여행자야!"라고 생각하게 됩니다. 하지만 실제로는 길을 잘못 들었기 때문에, 다음에 비슷한 길을 가면 다시 길을 잃을 확률이 매우 높습니다.


2. 새로운 방법 (CLIPO): "정답을 맞춘 '올바른' 방법들끼리 친구가 되게 하라"

이 논문 (CLIPO) 은 AI 에게 **"정답을 맞춘 여러 가지 방법들 사이에는 공통된 '올바른 논리'가 숨어있다"**는 사실을 가르칩니다.

핵심 아이디어:

"정답을 맞춘 A, B, C 세 가지 방법이 있다고 치자. 이 세 가지 방법은 중간 과정은 조금씩 다르지만, 핵심적인 '논리 흐름'은 비슷할 거야. 우리는 이 공통된 흐름을 찾아내서 AI 가 그 흐름을 따르도록 가르치자."

🌟 CLIPO 의 작동 원리 (비유):

  1. 여행 가이드의 역할:
    AI 가 문제를 풀 때, 여러 가지 시나리오 (여행 경로) 를 만들어냅니다.
  2. 성공한 여행자들의 모임:
    목적지에 성공적으로 도착한 (정답을 맞춘) 여행자들만 모입니다.
  3. 공통점 찾기 (Contrastive Learning):
    "자, 여러분이 성공한 이유를 비교해 봅시다. A 는 산을 올랐고, B 는 강을 건넜지만, 둘 다 '방향 감각'을 잃지 않았고 '나침반'을 잘 사용했네요!"
    CLIPO 는 이 **'성공한 방법들 사이의 공통된 논리 (나침반)'**를 찾아내어 AI 에게 강조합니다.
  4. 실패한 방법들은 멀리 치워라:
    정답을 맞췄지만, 논리가 엉망이거나 운으로 맞춘 경우는 '성공한 그룹'과 거리를 두게 합니다.

결과:
AI 는 단순히 "정답을 맞추는 것"이 아니라, **"정답을 맞출 수 있는 올바른 논리 구조"**를 배우게 됩니다. 그래서 새로운 문제가 나오거나, 문제가 조금 변형되어도 (예: 숫자만 바뀌거나, 조건이 살짝 달라짐) 잘 대처할 수 있게 됩니다.


3. 왜 이것이 중요한가요?

기존 방식은 AI 가 **"정답을 외우는 암기형 학생"**이 되게 만들었습니다. 하지만 CLIPO 는 AI 가 **"논리를 이해하는 사고형 학생"**이 되게 합니다.

  • 강점 1: 흔들림이 없습니다. (Robustness)
    문제가 조금만 변해도 (예: "100 원"을 "1000 원"으로 바꿈) AI 가 당황하지 않고 논리를 적용해 해결합니다.
  • 강점 2: 환각 (Hallucination) 을 줄입니다.
    AI 가 "아무 말이나 지어내서 정답을 맞출까?"라는 유혹을 받지 않습니다. 논리가 맞아야 점수를 받기 때문입니다.
  • 강점 3: 다양한 문제에 적용됩니다.
    수학뿐만 아니라 코딩, 복잡한 계획 수립 등 논리가 필요한 모든 분야에서 AI 의 능력을 향상시킵니다.

4. 한 줄 요약

기존 AI: "정답만 맞으면 점수 줘! 과정은 몰라." (운 좋게 맞출 수 있음)
CLIPO: "정답을 맞춘 올바른 방법들이 가진 공통된 논리를 찾아내서, 그 논리를 따라가면 더 확실하게 정답을 맞출 수 있게 가르쳐!" (실력 향상)

이 방법은 AI 가 단순히 정답을 기억하는 것을 넘어, 진짜로 '생각하는 법'을 배우게 하는 중요한 전환점이 될 것입니다.