Parallel Test-Time Scaling with Multi-Sequence Verifiers

이 논문은 여러 후보 해답을 병렬로 생성하는 테스트 시간 확장 기법의 한계를 해결하기 위해, 모든 후보를 통합적으로 분석하여 보정 능력을 향상시키고 지연 시간을 줄이는 '다중 시퀀스 검증자 (MSV)'를 제안합니다.

Yegon Kim, Seungyoo Lee, Chaeyun Jang, Hyungi Lee, Juho Lee

게시일 2026-03-05
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 배경: 왜 '여러 명'이 필요할까? (병렬 테스트 시간 확장)

대형 AI 모델에게 어려운 수학 문제를 내면, 한 번에 정답을 맞추기보다 여러 번 (예: 64 번) 다른 방식으로 답을 내게 하는 것이 더 정확합니다. 이를 '병렬 확장'이라고 합니다.

  • 비유: 어려운 수학 문제를 풀 때, 혼자 끙끙 앓는 것보다 친구 64 명에게 동시에 풀게 하고 그중 가장 그럴듯한 답을 고르는 것이 훨씬 정확합니다.

2. 두 가지 큰 걸림돌

하지만 이 방식에는 두 가지 치명적인 단점이 있습니다.

  1. 정답 고르기 힘들음 (Selection Problem): 64 개의 답이 나왔을 때, 그중 진짜 정답을 골라내는 '심사위원'이 필요합니다. 기존 심사위원은 각 답을 혼자서만 보고 점수를 매겼기 때문에, 전체적인 맥락을 놓쳐서 틀린 답을 정답으로 골라내기도 했습니다.
  2. 시간이 너무 걸림 (High Latency): 64 개의 답을 모두 끝까지 다 쓴 다음에 심사위원이 점수를 매기면, 시간이 너무 오래 걸립니다. 마치 64 명의 친구가 다 글을 다 써놓고 나서야 "아, 너네 중 1 등인 사람은 너구나!"라고 말하는 꼴입니다.

3. 해결책: 'MSV(다중 시퀀스 검증기)'란 무엇인가?

이 논문은 이 두 문제를 동시에 해결하는 새로운 심사위원, MSV를 소개합니다.

핵심 아이디어: "혼자 보지 말고, 다 같이 보자!"

기존 심사위원은 각 답안을 고립된 상태에서 평가했습니다. 하지만 MSV 는 64 개의 답안을 한눈에 동시에 보며 서로 비교합니다.

  • 비유 (MSV 의 역할):
    • 기존 방식: 64 명의 학생이 시험지를 제출하면, 선생님이 한 명씩 불러와서 "너는 10 점, 너는 8 점"이라고 따로따로 채점합니다.
    • MSV 방식: 선생님이 모든 학생의 답안을 한꺼번에 펼쳐놓고 봅니다. "아, A 학생과 B 학생이 같은 답을 썼네? 둘 다 맞을 확률이 높구나. 그런데 C 학생은 완전히 다른 엉뚱한 답을 썼네? C 는 틀렸을 가능성이 크겠다."라고 서로 비교하며 채점합니다.

이렇게 하면 정답을 고르는 정확도가 훨씬 높아집니다.

4. 두 번째 혁신: "중간 확인"으로 시간 단축 (Early Stopping)

MSV 는 답을 다 쓰기 전에도 중간 단계에서 "이 답은 맞을 것 같다!"라고 판단할 수 있습니다.

  • 비유 (스트리밍 방식):
    • 기존 방식: 64 명의 친구가 글을 다 끝까지 써야만 "정답이다!"라고 말할 수 있습니다. (시간 낭비)
    • MSV 방식: 친구들이 글을 쓰는 도중, **누군가 "Wait(잠깐)"**이라고 말하며 중간 답을 내면, MSV 는 즉시 그 답을 다른 친구들의 답과 비교합니다.
    • 만약 어떤 친구의 중간 답이 다른 친구들의 답과 일치하고 점수가 매우 높다면, MSV 는 **"이 친구는 이미 정답을 찾았으니, 더 이상 쓸 필요 없어! 멈춰!"**라고 신호를 보냅니다.
    • 나머지 63 명은 글을 더 쓸 필요가 없으므로, 전체 시간이 절반으로 줄어듭니다.

5. 요약: 왜 이것이 중요한가?

이 논문이 제안한 MSV는 다음과 같은 마법을 부립니다:

  1. 더 정확한 선택: 여러 답안을 서로 비교하며 채점하므로, 정답을 골라낼 확률이 크게 올라갑니다. (기존 방식보다 약 6% 이상 정확도 향상)
  2. 더 빠른 속도: 정답이 뻔히 보이면, 모든 답을 다 쓸 필요 없이 즉시 멈추게 합니다. (동일한 정확도를 유지하면서 시간을 절반으로 단축)
  3. 신뢰도 향상: "이 답이 맞을 확률이 90% 입니다"라고 말할 때, 그 확률이 훨씬 더 믿을 수 있게 됩니다.

결론

이 기술은 마치 **"64 명의 명사들이 함께 문제를 풀고, 그중 가장 유력한 후보를 즉시 찾아내어 나머지 명사들의 시간을 아껴주는 똑똑한 팀장"**과 같습니다.

기존에는 "다 써놓고 고르자"였다면, 이제는 **"서로 비교하며 빨리 정답을 찾아내자"**는 새로운 패러다임을 제시하여, AI 가 더 빠르고 정확하게 복잡한 문제를 해결할 수 있게 도와줍니다.