Open-Source Reproduction and Explainability Analysis of Corrective Retrieval Augmented Generation

이 논문은 Google 검색 API 와 폐쇄형 모델 대신 위키백과 API 와 Phi-3-mini-4k-instruct 를 활용하여 CRAG 를 완전히 오픈소스로 재현하고, SHAP 을 통한 설명 가능성 분석을 통해 평가기의 핵심 작동 원리와 한계를 규명했습니다.

Surya Vardhan Yalavarthi

게시일 2026-03-18
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🧠 1. 문제: AI 의 '망상'과 '무조건적인 신뢰'

일반적인 AI 는 책을 많이 읽은 똑똑한 학생처럼 보이지만, 때로는 자신도 모르게 엉뚱한 소리를 지어내는 (할루시네이션) 버릇이 있습니다.
이를 해결하기 위해 'RAG'라는 기술을 썼는데, 이는 **"질문하면 AI 가 도서관에서 관련 책을 가져와서 답을 짓게 하는 시스템"**입니다.

하지만 여기서 큰 문제가 생깁니다. 도서관 사서 (검색 시스템) 가 엉뚱한 책을 가져올 수도 있기 때문입니다. 만약 사서가 질문과 전혀 상관없는 책을 가져오면, AI 는 그 책을 보고 엉뚱한 답을 지어내게 됩니다.

🛠️ 2. 해결책: CRAG (수정형 검색 증강 생성)

이 논문에서 다루는 CRAG는 바로 이 '사서'를 감시하는 엄격한 감시관을 추가한 시스템입니다.

  1. 감시관 (평가자) 의 역할: 도서관에서 가져온 책 (문서) 을 보고 "이건 질문과 잘 맞네 (Correct)", "완전 엉터리네 (Incorrect)", "좀 애매하네 (Ambiguous)"라고 판단합니다.
  2. 세 가지 행동:
    • 잘 맞으면: 책 내용을 다듬어서 AI 가 답을 짓게 합니다.
    • 엉터리면: 그 책을 버리고 **인터넷 검색 (구글 등)**을 통해 새로운 정보를 찾습니다.
    • 애매하면: 도서관 책과 인터넷 검색 결과를 섞어서 답을 짓습니다.

🚀 3. 이 연구의 핵심 기여: "비싼 장비를 무료로!"

원래 이 CRAG 시스템은 유료인 구글 검색 API비싼 AI 모델을 써야만 작동했습니다. 마치 고급 스포츠카를 타고 레이싱을 해야만 하는 상황과 같아서, 일반 연구자들이 따라 하기 힘들었습니다.

이 논문은 **"비싼 스포츠카를 떼어내고, 무료인 전기 자전거 (Wikipedia) 와 오픈소스 엔진 (Phi-3) 으로 똑같은 경기를 했다"**는 것을 증명했습니다.

  • 구글 검색 → 위키백과 API: 유료 검색 대신 무료 위키백과를 활용하는 5 단계 검색 시스템을 만들었습니다.
  • 비싼 AI → 무료 AI: 성능이 좋은 무료 AI 모델을 사용했습니다.
  • 결과: 비싼 장비를 쓴 원래 시스템과 거의 똑같은 점수를 받았습니다.

🔍 4. 숨겨진 비밀: 감시관이 어떻게 생각하는가? (설명 가능성 분석)

연구자들은 이 시스템의 '감시관 (T5 모델)'이 실제로 어떻게 판단하는지 SHAP이라는 도구를 써서 들여다봤습니다. (마치 감시관의 뇌를 엑스레이로 찍어본 것과 같습니다.)

놀라운 발견:
감시관은 책의 **내용 (의미)**을 깊이 이해해서 판단하는 게 아니라, 질문과 책에 나오는 '이름 (인물명 등)'이 일치하는지만 보고 판단하고 있었습니다.

  • 성공 사례: "헨리 필든의 직업은?"이라고 물으면, 책에 '헨리 필든'이라는 이름이 나오면 "정답이다!"라고 합니다.
  • 실패 사례: "타이타닉을 누가 감독했나요?"라고 물으면, 책에 '타이타닉'이라는 이름이 나오더라도 감시관은 "이건 영화 이름이지, 우리가 훈련받은 '사람 이름'이 아니야"라고 생각해서 점수를 낮게 줍니다.

비유하자면:
이 감시관은 이름만 보고 "아, 이 사람 아는 척하는구나!"라고 판단하는 사람입니다. 그래서 영화나 노래 제목 같은 '이름이 아닌 것'이 나오면 혼란을 겪고, 과학 질문처럼 구체적인 인물이 나오지 않는 질문에는 "모르겠다 (Ambiguous)"라고만 답합니다.

💡 5. 결론 및 시사점

이 연구는 두 가지 큰 메시지를 줍니다.

  1. 진정한 오픈소스: 비싼 돈 들이지 않고도 똑똑한 AI 시스템을 만들 수 있음을 증명했습니다. 누구나 이 코드를 가져와서 쓸 수 있습니다.
  2. 시스템의 한계: AI 가 정보를 평가할 때, 단순히 '이름'만 보고 판단하는 경향이 있어 과학이나 영화 같은 분야에서는 약하다는 것을 발견했습니다. 앞으로는 이런 부분을 고쳐서 더 똑똑하게 만들어야 합니다.

한 줄 요약:

"비싼 장비 없이도 똑똑한 AI 검색 시스템을 무료로 재현했고, 그 시스템이 '이름'만 보고 판단하는 버릇을 발견하여 앞으로 고쳐야 할 방향을 제시했습니다."

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →