Batch-of-Thought: Cross-Instance Learning for Enhanced LLM Reasoning

이 논문은 개별 쿼리 처리의 한계를 극복하기 위해 관련 질문들을 집단적으로 처리하여 상호 학습을 가능하게 하는 훈련 없는 방법인 'Batch-of-Thought(BoT)'를 제안하고, 이를 통해 정확도와 신뢰도 보정을 향상시키면서 추론 비용을 최대 61%까지 절감하는 효과를 입증했습니다.

Xuan Yang, Furong Jia, Roy Xie, Xiong Xi, Hengwei Bian, Jian Li, Monica Agrawal

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제: 혼자서 시험을 보는 수험생 (기존 방식)

지금까지 AI 가 문제를 풀 때는 한 문제씩 완전히 독립적으로 접근했습니다. 마치 시험장에서 수험생 A 가 문제를 풀고, 그 답을 제출한 뒤, 수험생 B 가 또 다른 문제를 풀고 제출하는 것과 같습니다.

  • 단점: 수험생 A 가 "이 문제는 어렵네, 내가 틀렸을 수도 있겠다"라고 생각하더라도, 옆에 있는 수험생 B 가 같은 문제를 풀어서 "아, 이 문제는 이렇게 푸는 거구나!"라고 힌트를 줄 수 없습니다.
  • 결과: AI 는 같은 실수를 반복하거나, 자신이 틀린 답을 확신하며 제출하는 경우가 많습니다 (과신). 또한, 문제를 하나씩 다 확인하고 수정하는 과정이 반복되어 비용 (시간과 돈) 이 많이 듭니다.

2. 해결책: '생각의 뭉치 (BoT)'와 팀 프로젝트

이 논문이 제안하는 BoT는 문제를 한 번에 여러 개 묶어서 (Batch) 함께 풀게 합니다. 그리고 비교 분석을 통해 서로의 답을 검토하게 합니다.

창의적인 비유: "수험생들의 스터디 그룹"

  • 상황: 8 명의 수험생이 한 번에 8 개의 문제를 풀었습니다.
  • 기존 방식: 각자 답안을 제출하고 끝납니다.
  • BoT 방식 (스터디 그룹):
    1. 답안 공유: 8 명 모두의 답안을 한 번에 모읍니다.
    2. 비교 분석 (Cross-Instance Learning): "어? A 학생은 이 문제를 이렇게 풀었는데, B 학생은 저렇게 풀었네? 그런데 C, D, E 학생은 모두 A 학생의 방식과 비슷하게 풀었어. 아마 A 학생의 방식이 정답에 가까울 거야!"라고 서로의 답을 비교합니다.
    3. 이상 탐지: 만약 F 학생만 유독 이상한 답을 냈다면, "너는 왜 이렇게 풀었어? 다른 7 명은 다 이렇게 풀었잖아. 너는 다시 생각해보자"라고 지적합니다.
    4. 지식 공유: 정답을 확신하는 학생의 논리를 다른 학생에게 알려주어, 혼란스러웠던 학생도 확신을 갖게 됩니다.

3. 핵심 기술: '반사 (Reflection)'와 '평가자'

이 시스템은 두 명의 AI 에이전트 (가상 인물) 로 이루어져 있습니다.

  1. 작업자 (Actor): 문제를 풀고 답안을 작성합니다.
  2. 평가자 (Reflector): 한 번에 모든 답안을 한눈에 보며 비교합니다.
    • "이 답안은 다른 답안들과 너무 달라서 의심스럽구나."
    • "이 답안은 다른 5 개 답안과 논리가 일치하니 확신을 주자."
    • "이건 틀렸어, 다른 답안들의 패턴을 참고해서 고쳐."

이 평가자가 한 번에 여러 답안을 비교하기 때문에, 개별적으로 하나씩 평가할 때보다 훨씬 빠르고 정확하게 틀린 것을 찾아냅니다.

4. 왜 이것이 중요한가요? (3 가지 장점)

이 방법은 세 가지 큰 이점을 줍니다.

  • ① 더 정확한 답 (Accuracy):
    • 비유: 혼자 고민할 때는 실수할 수 있지만, 친구들의 답을 비교하면 "아, 내가 착각했구나"라고 깨닫고 정답을 찾을 수 있습니다. 특히 의학, 법률, 상식 같은 해석과 판단이 필요한 분야에서 효과가 큽니다.
  • ② 더 저렴한 비용 (Cost Reduction):
    • 비유: 8 개의 문제를 8 번 따로 평가하는 대신, 한 번에 묶어서 평가하면 평가자의 노력 (비용) 이 크게 줄어듭니다. 논문에서는 최대 61% 까지 비용이 절감되었다고 합니다.
  • ③ 더 정확한 자신감 (Confidence Calibration):
    • 비유: "내가 100% 확신해!"라고 말했지만 실제로는 틀린 경우가 많습니다. 하지만 다른 7 명이 다 "이건 90% 확신"이라고 하고, 한 명만 "100%"라고 한다면, 그 한 명은 "아, 내가 너무 자신 과신했나?"라고 깨닫고 확신을 낮출 수 있습니다. AI 도 이렇게 자신의 확신을 현실에 맞게 조정하게 됩니다.

5. 결론: 언제 효과가 있을까?

이 방법은 모든 경우에 완벽한 마법은 아닙니다.

  • 효과적인 경우: 수학이나 물리처럼 정답이 딱 하나인 기호 계산보다는, 의미 해석, 판단, 추론이 필요한 문제 (예: "이 판매자가 사기꾼일까?", "이 의학 지식을 어떻게 적용할까?") 에서 빛을 발합니다.
  • 주의할 점: 너무 많은 문제를 한 번에 묶으면 (예: 100 개), 오히려 정보가 섞여서 혼란이 생길 수 있습니다. 적당히 묶는 것 (예: 4~8 개) 이 가장 좋습니다.

요약

**"생각의 뭉치 (BoT)"**는 AI 가 문제를 풀 때, 혼자 고민하지 않고 '팀'을 이루어 서로의 답을 비교하고 교정하게 하는 방법입니다. 이를 통해 AI 는 더 똑똑해지고, 더 저렴해지며, 자신의 실수를 더 잘 인지하게 됩니다. 마치 혼자 공부하는 것보다 스터디 그룹에서 공부할 때 더 잘 배우는 것과 같은 원리입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →