V1V_1: Unifying Generation and Self-Verification for Parallel Reasoners

이 논문은 생성과 검증의 효율적인 통합을 위해 불확실성 기반의 토너먼트 순위 매김 알고리즘과 생성기-검증기 공동 학습 강화학습 프레임워크를 제안하여, 복잡한 추론 작업에서 기존 방법보다 뛰어난 성능과 효율성을 달성한 V1V_1 프레임워크를 소개합니다.

Harman Singh, Xiuyu Li, Kusha Sareen, Monishwaran Maheswaran, Sijun Tan, Xiaoxia Wu, Junxiong Wang, Alpay Ariyak, Qingyang Wu, Samir Khaki, Rishabh Tiwari, Long Lian, Yucheng Lu, Boyi Li, Alane Suhr, Ben Athiwaratkun, Kurt Keutzer

게시일 2026-03-05
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🧠 배경: "혼자서 고민하는 것" vs "친구들과 토론하는 것"

지금까지 AI 는 어려운 문제를 풀 때, 주로 "한 번에 여러 가지 답안 (생각의 흐름) 을 만들어낸 뒤, 그중 가장 그럴듯해 보이는 하나를 고르는" 방식을 썼습니다. 마치 시험을 볼 때 답안지 16 장을 모두 작성하고, 그중에서 점수가 가장 높아 보이는 것을 고르는 것과 비슷하죠.

하지만 여기서 큰 문제가 생깁니다.

  • 기존 방식 (점수 매기기): AI 가 각 답안을 따로따로 보며 "이거 10 점, 저거 8 점"이라고 점수를 매깁니다. 문제는 AI 가 혼자서 점수를 매길 때, "정답인지 틀린지"를 절대적인 기준으로 잘 판단하지 못한다는 것입니다. (예: 엉뚱한 답에도 10 점, 진짜 정답에도 8 점을 주는 식의 혼란)
  • 새로운 발견: 연구팀은 AI 가 **"서로 비교"**할 때는 훨씬 똑똑해진다는 사실을 발견했습니다. "이 답과 저 답 중 뭐가 더 나아?"라고 물어보면, AI 는 훨씬 정확하게 판단합니다.

이 논문의 제목인 V1은 바로 이 **"비교를 통한 자기 검증"**을 핵심으로 한 새로운 시스템입니다.


🚀 V1 의 두 가지 핵심 무기

이 시스템은 크게 두 단계로 나뉩니다.

1. V1-Infer: "토너먼트 방식의 치열한 대결" (시험장에서 쓰는 전략)

AI 가 16 개의 답안을 만들어냈을 때, 기존 방식은 각 답안을 따로 평가합니다. 하지만 V1-Infer 는 토너먼트 (Swiss System) 방식을 사용합니다.

  • 비유: 16 명의 선수가 있는 축구 토너먼트를 상상해 보세요.
    • 기존 방식: 심판이 각 선수의 경기 영상을 따로 보고 "A 는 8 점, B 는 7 점"이라고 점수를 줍니다.
    • V1-Infer 방식: 선수들을 서로 붙입니다. "A 와 B 중 누가 더 잘했나?", "C 와 D 중 누가 더 잘했나?"라고 직접 대결을 시킵니다.
    • 핵심 전략 (불확실성 가이드): 모든 경기를 다 할 필요는 없습니다. V1-Infer 는 **"누가 이길지 가장 애매한 경기"**에 집중합니다. (예: 10 점과 9 점 차이인 두 선수를 붙여 승부를 가리는 것). 이렇게 하면 적은 노력으로 가장 확실한 정답을 골라낼 수 있습니다.

결과: 수학 문제나 코딩 문제에서 정답을 찾을 확률이 기존보다 최대 10% 까지 높아졌습니다. 특히 어려운 문제일수록 이 차이가 큽니다.

2. V1-PairRL: "생각과 비판을 동시에 훈련하는 학교" (학습 단계에서의 전략)

기존에는 AI 가 문제를 풀기만 훈련하고, 나중에 따로 '심판 (검증자)'을 훈련시켰습니다. 하지만 V1-PairRL 은 한 명의 AI 가 '문제 풀이'와 '심판'을 동시에 배웁니다.

  • 비유:
    • 기존: 학생이 시험을 보고, 나중에 다른 선생님이 채점해 주는 방식. 학생은 채점 기준을 잘 모를 수 있습니다.
    • V1-PairRL: 학생이 문제를 풀면서 동시에 "내 풀이가 왜 맞는지, 왜 틀린지"를 스스로 평가하는 법을 배웁니다.
    • 공생 관계: 학생이 풀이를 잘하게 되면, 심판 (자신) 도 더 높은 수준의 답안을 구별할 수 있게 되고, 심판이 잘하게 되면 학생도 더 좋은 답을 만들게 됩니다. 서로가 서로를 성장시키는 '공진화 (Co-evolution)' 시스템입니다.

결과: 이 방법으로 훈련된 AI 는 시험장에서 더 좋은 성적을 내고, 심지어 추가적인 검증 없이도 처음부터 더 좋은 답을 만들어냅니다.


💡 왜 이것이 중요한가요? (일상적인 예시)

예시 1: 코딩 실수 찾기

  • 상황: 프로그램에 버그가 있습니다. 16 가지 해결책이 나왔습니다.
  • 기존: AI 가 "이 코드는 10 점, 저 코드는 10 점"이라고 합니다. (모두 비슷해 보임)
  • V1: "이 코드는 시간이 너무 오래 걸리고, 저 코드는 메모리를 아껴서 더 낫다"라고 직접 비교합니다. 그래서 효율적인 정답을 찾아냅니다.

예시 2: 소프트웨어 버그 수정 (SWE-bench)

  • 상황: 실제 기업에서 사용하는 프로그램에 버그가 생겼습니다.
  • V1: AI 가 만든 여러 개의 '패치 (수정 코드)'를 서로 비교하며, "이건 표면만 고친 거고, 저건 근본 원인을 고친 거야"라고 판단하여 가장 확실한 수정안을 선택합니다.

🏆 요약: V1 이 가져온 변화

  1. 혼자 점수 매기기보다 "서로 비교하기"가 훨씬 정확하다. (비교의 힘)
  2. 애매한 대결에 집중하면 적은 비용으로 정답을 찾을 수 있다. (효율성)
  3. 문제 풀이와 검증 능력을 동시에 훈련하면 AI 가 더 똑똑해진다. (학습의 시너지)

이 논문은 AI 가 단순히 "답을 많이 만들어내는 것"을 넘어, **"만든 답들 중에서 진짜 정답을 찾아내는 능력"**을 획기적으로 향상시켰다는 점에서 매우 중요합니다. 마치 수많은 후보자 중에서 가장 적합한 사람을 뽑는 '최고의 면접관'을 AI 스스로에게 심어준 것과 같습니다.