Over-Searching in Search-Augmented Large Language Models

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"검색을 너무 많이 하는 AI(과도한 검색)"**라는 흥미로운 문제를 다룹니다. 쉽게 말해, AI 가 정답을 알거나 아예 답할 수 없는 질문을 받았을 때, 굳이 인터넷을 뒤져서 불필요하게 정보를 찾는 버릇을 가지고 있다는 것입니다.

이 현상을 이해하기 위해 몇 가지 비유를 들어보겠습니다.

1. 핵심 문제: "모르는 척하는 법을 잊어버린 AI"

비유: "모르는 게 정답인 질문"에 대해 도서관을 뒤지는 학생
상상해 보세요. 친구가 "2075 년에 미국 대통령이 누가 될까?"라고 물었습니다.

정상적인 학생 (기존 AI): "아, 그건 미래의 일이라 아무도 모릅니다. 답할 수 없어요."라고 정직하게 말합니다.
과도한 검색을 하는 학생 (이 논문에서 지적한 AI): "잠깐, 내가 모를 리가 없어! 인터넷을 검색해 봐야 해!"라고 생각하며 도서관 (검색 엔진) 을 뒤집니다. 2075 년 뉴스, 미래 예측 기사, 심지어 가짜 뉴스까지 찾아보며 "아마도 A 씨일 거예요!"라고 엉뚱한 답을 내놓습니다.

이 논문은 AI 가 불필요하게 검색을 너무 많이 해서 두 가지 큰 문제를 일으킨다고 말합니다.

시간과 돈 낭비: 검색을 할 때마다 컴퓨터 자원 (토큰) 이 소모됩니다.
혼란과 착각: 검색 결과에 엉뚱한 정보나 가짜 뉴스가 섞여 있으면, AI 는 오히려 더 헷갈려서 틀린 답을 확신 있게 말하게 됩니다.

2. 연구 결과: "검색은 양날의 검이다"

연구진들은 다양한 AI 모델 (GPT-4, Kimi, Qwen 등) 을 실험해 보았습니다.

좋은 점: 검색을 하면 정답이 있는 질문에는 훨씬 잘 답합니다. (예: "오늘 서울 날씨 어때?")
나쁜 점: 하지만 정답이 없는 질문 (예: "지금까지 존재하지 않는 동물의 이름은?") 에는 검색을 할수록 오히려 "모른다"고 인정하지 못하게 됩니다. 검색 결과가 없어도 AI 는 억지로 답을 찾으려다 보니, "모르겠다"라고 말하는 능력 (거부 능력) 이 떨어집니다.

특이한 발견:

복잡한 추론을 잘하는 AI 일수록 검색을 더 많이 합니다. 마치 "내가 잘하니까 더 찾아봐야겠다"는 생각이 들게 만드는 것입니다.
대화 중에는 더 심해집니다: 한 번 검색을 시작하면, 다음 대화에서도 계속 검색을 하려는 버릇이 생깁니다. (눈덩이 효과)

3. 새로운 측정 도구: "정답 하나당 토큰 비용 (TPC)"

연구진은 이 비효율성을 측정하기 위해 **'정답 하나당 토큰 비용 (Tokens Per Correctness, TPC)'**이라는 새로운 지표를 만들었습니다.

비유: "정답 하나를 얻기 위해 얼마나 많은 '연료'를 탔는가?"
만약 AI 가 검색을 10 번이나 해서 정답을 맞췄다면, 연료 (비용) 는 많이 들었지만 정답은 하나뿐이므로 **비효율적 (TPC 높음)**입니다.
반면, 검색 없이 바로 정답을 맞췄다면 **효율적 (TPC 낮음)**입니다.
이 연구에서는 AI 가 불필요한 검색을 할수록 이 비용 지수가 기하급수적으로 올라간다는 것을 발견했습니다.

4. 해결책 시도: "왜 검색을 멈추지 못할까?"

연구진은 AI 가 검색을 멈추게 하려고 여러 방법을 시도해 보았습니다.

명령어 변경 (프롬프트): "정답이 없으면 검색하지 말고 '모른다'고 말해"라고 시켰습니다.
예시 보여주기: "이런 질문에는 검색하지 말고 이렇게 답해"라는 예시를 주었습니다.
데이터 보강: 검색 결과에 "이 질문은 답할 수 없습니다"라는 문구가 포함된 문서들을 인위적으로 넣었습니다.

결과:
이 방법들은 어느 정도 도움이 되었지만, 완벽한 해결책은 아니었습니다. AI 는 여전히 "검색을 해야 할지, 말아야 할지"를 스스로 판단하는 근본적인 능력이 부족했습니다. 마치 "검색 버튼을 누르지 말라고 해도, 손이 저절로 가는 습관"을 고치기 어렵다는 뜻입니다.

5. 결론: "적당히 멈추는 법을 배워야 한다"

이 논문은 AI 개발자들에게 중요한 메시지를 줍니다.

"무조건 검색을 많이 하는 것이 좋은 것이 아닙니다. AI 는 '언제 검색을 멈춰야 하는지'를 배워야 합니다."

검색을 통한 정보 획득은 강력하지만, 불필요한 검색은 AI 를 더 바보 같게 만들고 비용을 낭비시킵니다. 앞으로의 AI 는 더 똑똑한 검색도 중요하지만, **"지식 한계를 인정하고 멈추는 지혜"**를 갖추는 것이 더 중요해질 것입니다.

이 연구는 이런 문제를 해결하기 위한 새로운 기준 (OverSearchQA 벤치마크) 을 공개하여, 더 효율적이고 현명한 AI 를 만드는 길을 열었습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Definition)

검색 증강 생성 (RAG) 이나 검색 도구를 활용한 대형 언어 모델 (LLM) 은 외부 지식을 통합하여 지식 집약적 작업에서 뛰어난 성능을 보입니다. 그러나 이러한 모델들은 종종 **과도한 검색 (Over-searching)**이라는 실패 모드를 보입니다.

정의: 모델이 답변의 질을 향상시키지 못하는 상황에서도 불필요하게 검색 도구를 호출하는 현상입니다.
발생 원인:
- 모델이 이미 정답을 알고 있거나, 질문이 근본적으로 답변 불가능한 경우 (미래 사건, 잘못된 전제, 맥락 부족 등) 에도 검색을 시도합니다.
- 복잡한 추론 (Reasoning) 모델이나 'Deep Research' 시스템일수록, 그리고 노이즈가 많은 검색 결과가 제공될수록 이 현상이 심화됩니다.
부작용:
- 계산 비용 증가: 불필요한 토큰 생성 및 API 호출로 인한 비용 낭비.
- 할루시네이션 (Hallucination): 관련 없는 또는 오해의 소지가 있는 문맥을 포함하여 잘못된 답변을 생성할 가능성 증가.
- 거부 (Abstention) 능력 저하: 답변 불가능한 질문에 대해 "모른다"고 답하거나 추가 정보를 요청해야 함에도 불구하고, 검색을 통해 잘못된 정보를 찾아내어 확신 있게 틀린 답변을 내놓는 경향이 강해집니다.

2. 방법론 (Methodology)

저자들은 과도한 검색 현상을 체계적으로 평가하고 완화하기 위해 다음과 같은 방법론을 제시합니다.

A. 데이터셋: OverSearchQA

기존 벤치마크는 주로 답변 가능한 질문에만 초점을 맞추었으나, 저자들은 거부 (Abstention) 평가에 특화된 벤치마크인 OverSearchQA를 구축했습니다.

구성: 1,188 개의 질문으로 구성되며, 답변 가능 (Answerable) 과 답변 불가능 (Unanswerable) 질문이 균형을 이룹니다.
카테고리:
1. Answer Unknown (AU): 미래 사건이나 미해결 문제 등.
2. False Premise (FP): 잘못된 전제나 모순된 가정을 포함하는 질문.
3. Underspecified Context (UC): 맥락이 부족하거나 모호한 질문.
특징: 답변 가능/불가능 질문 간의 길이 분포와 의미적 유사성 (Embedding) 을 통제하여, 모델의 실패가 질문의 난이도가 아닌 '답변 가능성' 판단 오류에서 기인함을 보장합니다.

B. 평가 지표: Tokens Per Correctness (TPC)

기존의 정확도 지표만으로는 계산 비용과 성능 간의 트레이드오프를 파악하기 어렵습니다. 이를 해결하기 위해 TPC를 도입했습니다.

정의: 정답 (또는 적절한 거부) 을 얻기 위해 소요된 기대 계산 비용.
공식: $TPC = \frac{\sum Cost(q)}{\sum Correct(q)}$ $T P C = \frac{\sum C os t ( q )}{\sum C or r ec t ( q )}$
- $Cost(q)$ : 생성 토큰, 입력 컨텍스트 토큰, 검색 호출 수를 가중치와 함께 합산한 비용.
- $Correct(q)$ : 답변 가능 질문에서는 정답 여부, 답변 불가능 질문에서는 적절한 거부 여부를 1 로 간주.
의미: TPC 가 낮을수록 효율적입니다. TPC 가 증가한다는 것은 정답률 향상 없이 비용만 증가하는 '과도한 검색'을 의미합니다.

C. 실험 설정

모델: GPT-4o-mini, o4-mini, Kimi-K2, Qwen3, Llama-3 등 다양한 오픈소스 및 상용 모델 (Base, Reasoning, Deep Research 버전 포함) 평가.
검색 환경: 최신 위키백과, 구식 위키백과, 노이즈가 많은 C5 코퍼스, 실제 웹 검색 등 다양한 리트리벌 소스 비교.
평가자: LLM Judge (GPT-4o-mini 등) 를 활용하여 답변 정확도와 거부 정확도를 평가.

3. 주요 결과 (Key Results)

A. 검색 증강의 역설 (Search Augmentation Harms Abstention)

정답률 vs. 거부율: 검색을 추가하면 답변 가능한 질문의 정확도는 평균 24.0% 향상되었으나, 답변 불가능한 질문에 대한 적절한 거부 (Abstention) 정확도는 12.8% 감소했습니다.
원인: 모델이 검색 결과를 통해 잘못된 증거를 찾아내어, 본래 "모른다"고 해야 할 질문을 확신 있게 틀리게 답변하게 됩니다.

B. 모델 복잡성과 추론의 영향

Reasoning 모델의 취약성: 추론 능력이 강화된 모델 (o4-mini, Qwen3-Think 등) 일수록 과도한 검색이 더 심하게 나타납니다.
Deep Research 시스템: 검색 기능이 강화된 'Deep Research' 시스템은 정답률은 가장 높았으나, TPC 가 기하급수적으로 증가하여 (Base 모델 대비 221 배 이상) 비효율성이 극대화되었습니다.

C. 검색 결과의 품질과 증거 구성

노이즈의 영향: 노이즈가 많은 검색 결과 (C5) 를 사용할 경우, 모델은 더 많은 검색을 시도하여 TPC 가 급증합니다.
부정적 증거 (Negative Evidence) 의 중요성: 검색 결과에 "이 질문은 답변할 수 없다"는 명시적인 부정적 증거가 포함된 경우, 모델의 거부 정확도가 극적으로 향상됩니다. 그러나 실제 웹이나 위키백과에서는 이러한 부정적 증거가 매우 드뭅니다 (약 13-22%).

D. 다중 턴 대화 (Multi-turn Conversations)

눈덩이 효과 (Snowball Effect): 이전 턴에서 답변 가능한 질문들이 이어지면, 모델은 이후의 답변 불가능한 질문에서도 검색을 멈추지 않고 계속 시도하는 경향이 있습니다. 반면, 이전 턴에서 거부 패턴이 유지되면 이후에도 거부가 잘 유지됩니다.

4. 완화 전략 및 한계 (Mitigation & Limitations)

저자들은 두 가지 수준의 완화 전략을 실험했습니다.

쿼리 수준 (Query-level):
- Abstention-aware 프롬프트: 모델에게 답변 불가능 시 거부를 명시하도록 지시.
- Few-shot 학습: 적절한 거부 예시를 프롬프트에 포함.
- Self-evaluation: 답변 전에 질문의 답변 가능성을 스스로 평가하는 단계 추가.
- 결과: 거부 정확도를 평균 11.5%p 향상시켰으나, 정답률 감소나 추가 비용 (Self-eval) 의 트레이드오프가 존재했습니다.
검색 수준 (Retrieval-level):
- 코퍼스 증강: 합성된 부정적 증거 (Negative Evidence) 문서를 검색 코퍼스에 추가.
- 결과: 거부 정확도가 소폭 (3.6%) 향상되었으나, 검색 순위 상에서 부정적 문서가 잘 노출되지 않거나 긍정적 문서에 의해 희석되는 한계가 있었습니다.

결론: 현재 제안된 방법들은 과도한 검색을 일부 완화할 수 있으나, 모델이 근본적으로 "언제 검색을 멈춰야 하는지"를 합리적으로 판단하지 못하는 문제는 해결되지 않았습니다.

5. 의의 및 기여 (Significance & Contributions)

새로운 현상의 체계적 규명: 검색 증강 LLM 의 '과도한 검색' 현상을 정량화하고, 이것이 계산 비용 증가와 할루시네이션의 주요 원인임을 입증했습니다.
새로운 벤치마크 (OverSearchQA): 답변 불가능한 시나리오를 포함한 균형 잡힌 평가 데이터셋을 공개하여, 향후 연구의 기준을 마련했습니다.
새로운 평가 지표 (TPC): 정확도와 비용의 균형을 고려한 효율성 지표인 TPC 를 제안하여, 단순 정확도 중심의 평가에서 벗어나 실용적인 효율성 평가를 가능하게 했습니다.
향후 연구 방향 제시: 단순한 프롬프트 엔지니어링이나 데이터 증강을 넘어, 모델의 학습 단계 (Post-training/Alignment) 에서 검색의 합리성을 학습시키는 구조적 개선이 필요함을 시사합니다.

이 논문은 검색 증강 LLM 이 단순히 '더 많은 정보를 찾는 것'이 아니라, **'언제 검색을 멈추고 답을 하거나 멈출지 판단하는 능력'**이 효율성과 신뢰성 확보의 핵심임을 강조합니다.