Query Disambiguation via Answer-Free Context: Doubling Performance on Humanity's Last Exam

이 논문은 답변이 없는 컨텍스트를 활용해 질문을 재작성하여 모호성을 줄이는 방식이 Humanity's Last Exam 벤치마크에서 gpt-5-mini 의 정확도를 0.14 에서 0.37 로 두 배 이상 향상시킨다는 것을 보여줍니다.

Michael Majurski, Cynthia Matuszek

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🍳 비유: "요리사에게 재료를 주면, 레시피도 같이 알려줘야 한다"

상상해 보세요. 훌륭한 요리사 (AI 모델) 가 있습니다. 하지만 손님이 "이거 만들어 줘"라고만 말하고, 어떤 재료를 썼는지, 어떤 맛을 원하는지 설명을 안 해줍니다. 요리사는 자신의 경험 (학습 데이터) 을 바탕으로 "아, 아마도 김치찌개겠지?"라고 추측해서 김치찌개를 만들어 냅니다.

하지만 손님이 사실은 "김치찌개 말고, 치즈가 들어간 김치찌개를 원했는데!"라고 생각했다면? 요리사는 정답을 냈지만, 손님은 "이건 내가 원한 게 아니야!"라고 실망합니다.

이 논문은 바로 이 **오해 (모호함)**를 해결하는 방법을 연구했습니다.

🔍 핵심 발견: "정답은 주지 말고, '맥락'만 줘라"

연구팀은 AI 에게 질문을 할 때, 정답이 포함된 문서를 주는 게 아니라, **정답은 없지만 질문을 이해하는 데 필요한 배경 정보 (Answer-Free Context)**만 먼저 줘보았습니다.

예를 들어, "아연 황화물 결정이 쓰이는 레이저는?"이라는 질문이 있습니다.

  • 기존 방식: AI 에게 "아연 황화물 결정은 레이저에 쓰인다"는 정답이 포함된 문서를 줍니다. (AI 는 그냥 복사해서 답을 합니다.)
  • 이 논문의 방식 (AFC): AI 에게 "아연 황화물은 시계 바늘, X-ray 스크린 등에 쓰이는 형광 안료야"라는 배경 정보만 줍니다. 정답인 '레이저'는 빼고요.

그런 다음, AI 가 이 배경 정보를 보고 질문 자체를 다시 다듬게 (Rewrite) 합니다.

  • 원래 질문: "아연 황화물 결정이 쓰이는 레이저는?" (너무 짧고 모호함)
  • 다듬어진 질문: "시계 바늘이나 X-ray 스크린에 쓰이는 형광 안료인 아연 황화물 결정이 주로 사용하는 레이저의 전자기파 스펙트럼은 무엇인가?" (배경 정보가 질문 속에 자연스럽게 녹아들어, AI 가 정확히 무엇을 물어보는지 이해하게 됨)

🚀 놀라운 결과: "질문을 고치는 것만으로도 실력이 2 배가 된다!"

이 실험에서 가장 놀라운 점은 정답을 직접 주지 않아도, 질문을 명확하게 다듬는 것만으로도 AI 의 정답률이 2 배 이상 뛴다는 것입니다.

  • 기존 RAG(검색 기반 생성): 검색해서 나온 문서를 질문 뒤에 붙여주는 방식. (정답이 없으면 효과가 떨어짐)
  • 이 논문의 방식: 검색된 배경 정보를 바탕으로 질문을 다시 쓴 후, 그 새로운 질문으로 AI 에게 답을 구함.

결과적으로, 정답이 숨겨진 문서를 검색해서 주지 않아도, 질문 자체를 '맥락'에 맞게 재구성하는 것만으로도 AI 가 훨씬 똑똑하게 답을 냅니다. 마치 요리사에게 "이건 치즈 김치찌개야"라고 알려주는 대신, "이건 치즈가 들어간 김치찌개야"라고 설명을 더 자세히 해주는 것과 같습니다.

🧠 중요한 통찰: "생각하는 과정과 답하는 과정은 따로 해야 한다"

연구팀은 또 다른 재미있는 사실을 발견했습니다.
AI 에게 "배경 정보를 보고 질문을 고치고, 그걸로 바로 답해봐"라고 한 번에 시키면 (생각과 답하기를 동시에), 효과가 사라집니다.

하지만 **"1 단계: 질문을 고쳐라 (정답은 생각하지 말 것)" → "2 단계: 고쳐진 질문으로 답하라"**로 단계를 나누면 효과가 극대화됩니다.

이는 마치 수학 문제를 풀 때와 같습니다.

  • 한 번에 하려고 하면: "이 문제 뭐지? 답은 뭐지?"라고 혼란스러워하다가 틀립니다.
  • 단계를 나누면: 먼저 "이 문제는 무엇을 묻고 있지? (문제 해석)"를 명확히 하고, 그다음 "그럼 답은?"을 구하면 훨씬 정확해집니다.

📝 요약: 이 논문이 우리에게 알려주는 것

  1. 질문이 명확해야 AI 가 잘한다: 사용자가 질문할 때 생략하는 배경 지식이 AI 에게는 치명적인 오해를 불러일으킵니다.
  2. 정답 없이도 해결 가능하다: 정답이 포함된 문서를 찾을 필요 없이, **관련된 배경 정보 (맥락)**만 있으면 질문을 명확하게 다듬을 수 있습니다.
  3. 질문 다듬기 (Rewriting) 가 핵심: 검색된 정보를 그냥 붙여주는 것보다, 그 정보를 바탕으로 질문 자체를 다시 쓰는 과정이 훨씬 중요합니다.
  4. 단계를 나누자: 질문을 해석하고 답을 구하는 것은 별개의 작업입니다. 이 두 가지를 분리하면 AI 의 성능이 비약적으로 상승합니다.

결론적으로, 이 논문은 **"AI 를 더 똑똑하게 만드는 비결은 더 많은 데이터를 주는 것이 아니라, 질문을 더 명확하게 만들어주는 것"**임을 증명했습니다.