Latent Self-Consistency for Reliable Majority-Set Selection in Short- and Long-Answer Reasoning

Each language version is independently generated for its own context, not a direct translation.

이 논문은 인공지능 (AI) 이 복잡한 질문에 답할 때, **"가장 정확한 답을 어떻게 골라낼까?"**라는 문제를 해결하기 위해 제안된 새로운 방법, **잠재적 자기 일관성 (Latent Self-Consistency, LSC)**에 대한 이야기입니다.

이해를 돕기 위해 AI 를 **"매우 똑똑하지만 때로는 혼란스러운 천재 작가"**라고 상상해 보세요. 이 작가는 같은 질문을 받으면 매번 조금씩 다른 이야기를 써냅니다. 우리는 이 중 가장 믿을 만한 이야기를 골라야 합니다.

이 논문이 제안하는 해결책을 3 가지 핵심 비유로 설명해 드리겠습니다.

지금까지 AI 가 쓴 여러 답안 중 하나를 고르는 방식에는 두 가지 큰 문제가 있었습니다.

기존 방법 A (자기 일관성, SC): "완벽한 단어 일치" 찾기
- 비유: 10 명의 학생에게 "사과를 몇 개 샀나요?"라고 물었을 때, 7 명이 **"3 개"**라고 똑같이 적으면 그걸 정답으로 믿는 방식입니다.
- 문제: 질문이 짧고 명확할 때는 훌륭합니다. 하지만 "이 소설의 주제를 설명해 줘"처럼 긴 글을 써야 할 때는 문제가 생깁니다. 7 명이 모두 같은 뜻이라도, 한 명은 "사랑과 상실"이라고 쓰고, 다른 이는 "인간의 고독"이라고 쓸 수 있습니다. 단어가 조금만 달라도 "틀린 답"으로 취급해서 아까운 정답을 버리게 됩니다.
기존 방법 B (USC 등): "전문 번역가 (또는 심사위원) 고용"
- 비유: 10 명의 학생이 쓴 답안지를 모두 모아, 또 다른 **초고수 심사위원 (AI)**에게 "이 중 어떤 답이 가장 일관성 있고 좋은가?"라고 물어보는 방식입니다.
- 문제: 정확도는 높을 수 있지만, 시간과 비용이 너무 많이 듭니다. 심사위원이 모든 답안을 다시 읽어야 하므로, AI 가 답을 내는 시간이 10 배나 늘어날 수 있습니다.

이 논문이 제안한 LSC는 이 두 방법의 단점을 모두 없애고 장점을 합친 혁신적인 아이디어입니다.

핵심 비유: "답변의 핵심을 담은 작은 스티커"
- AI 가 긴 글을 써낸 직후, 그 글의 **맨 뒤에 아주 작은 '요약 스티커' (학습 가능한 토큰)**를 붙입니다.
- 이 스티커는 글자 그대로의 내용이 아니라, **그 글이 어떤 '의미'를 담고 있는지 압축된 정보 (잠재적 표현)**를 가지고 있습니다.
- 마치 사람의 얼굴을 보지 않고도, **지문 (Fingerprint)**만 보고도 "이 사람이 누구인지" 알 수 있는 것처럼요.
어떻게 작동할까요?
1. AI 가 10 개의 다른 답안을 생성합니다.
2. 각 답안 끝에 '요약 스티커'를 붙여 AI 가 아주 가볍게 한 번 더 읽게 합니다. (이때 기존 글은 다시 읽지 않고, 이미 기억해 둔 정보만 활용하므로 속도가 매우 빠릅니다.)
3. 이 스티커들의 '지문'을 비교합니다.
  - "사랑과 상실"이라고 쓴 답안과 "인간의 고독"이라고 쓴 답안의 지문을 비교하면, 의미가 비슷해서 지문도 비슷하게 나옵니다.
  - 그래서 단어는 달라도 뜻이 같은 답안들을 한 무리로 묶어 가장 많은 무리를 정답으로 선택합니다.

속도와 정확도의 완벽한 조화:
- 기존에 "심사위원"을 고용하는 방식 (USC) 은 10% 이상의 시간이 더 걸렸지만, LSC 는 0.9% 미만의 시간만 추가로 소요됩니다. 마치 답을 쓴 직후, 아주 가볍게 "이거 맞나요?"라고 눈만 깜빡이는 수준입니다.
- 짧은 수학 문제 (숫자 맞추기) 에서도, 긴 에세이 (의미 이해) 에서도 동일하게 높은 정확도를 보여줍니다.
자신감 측정:
- 이 방법은 AI 가 "내가 이 답을 얼마나 확신하는가?"를 매우 정확하게 알려줍니다. 만약 10 개의 답안 중 지문 (의미) 이 제각각이라면, AI 는 "나는 확신이 없다"고 경고할 수 있습니다.

**"AI 가 쓴 여러 답안을 볼 때, 단어의 겉모습만 보지 말고, 각 답안의 '핵심 의미'를 압축한 작은 지문을 비교해서 가장 많은 사람들이 동의하는 답을 골라내는, 빠르고 똑똑한 새로운 필터링 기술"**입니다.

이 기술 덕분에 우리는 앞으로 AI 가 복잡한 질문을 할 때도, 빠르고 정확하게 가장 신뢰할 수 있는 답을 얻을 수 있게 될 것입니다.

유사한 논문