Citation Failure: Definition, Analysis and Efficient Mitigation

이 논문은 RAG 시스템의 응답 생성과 무관하게 발생하는 '인용 실패' 현상을 정의하고, 이를 분석하기 위한 벤치마크 'CITECONTROL'과 생성·주의·검색 기반 방법을 통합한 효율적 해결 프레임워크 'CITENTION'을 제안합니다.

Jan Buchmann, Iryna Gurevych

게시일 2026-03-05
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

📚 1. 문제: "정답은 맞는데, 출처는 엉망인 AI"

우리가 AI 에게 "대한민국 수도는 어디야?"라고 물으면, AI 는 "서울입니다"라고 정확히 답합니다. 하지만 왜 서울인지 증명해 줄 문서를 보여달라고 하면 AI 는 엉뚱한 문서 [3] 번을 가리키거나, 아예 아무것도 보여주지 못할 때가 있습니다.

연구자들은 이를 두 가지로 나누어 생각했습니다.

  1. 답변 실패 (Response Failure): AI 가 아예 엉뚱한 답을 할 때 (예: "서울은 부산이다").
  2. 인용 실패 (Citation Failure): AI 는 정답 ("서울") 을 맞췄는데, 그걸 증명할 문서를 제대로 못 찾아낸 경우.

이전 연구들은 이 두 가지를 구분하지 않고 "AI 가 엉뚱한 답을 줬다"고만 했지만, 이 논문은 **"정답은 맞는데 근거를 못 찾는 경우"**에 집중했습니다.

🔍 2. 분석: 왜 AI 는 근거를 못 찾을까? (CITECONTROL)

연구진은 CITECONTROL이라는 새로운 시험지를 만들었습니다. 이 시험지는 AI 가 답을 찾을 때 얼마나 복잡한 논리를 거쳐야 하는지, 그리고 그 근거가 얼마나 명확한지를 조절할 수 있게 설계되었습니다.

  • 비유: 마치 수학 문제를 푸는 것과 같습니다.
    • 단순 문제 (Explicit): "1+1=?"이라고 물으면 답이 바로 보임. (AI 가 쉽게 근거를 찾음)
    • 복합 문제 (Multi-hop): "A 는 B 의 친구이고, B 는 C 의 형이다. A 와 C 의 관계는?"이라고 물으면, A→B→C 로 이어지는 연쇄 추론이 필요합니다.
    • 숨겨진 문제 (Implicit): 답이 문서에 직접 쓰여 있지 않고, 문맥을 유추해야 하는 경우.

결과:

  • AI 는 단순한 문제에서는 잘하지만, 복잡한 추론이 필요하거나 근거가 숨겨진 문제에서는 정답은 맞췄어도 근거를 찾지 못해 "인용 실패"를 많이 저지릅니다.
  • 특히 작은 모델일수록 이런 실수가 심했습니다.

🛠️ 3. 해결책: CITENTION (AI 의 '눈'을 활용하자)

그렇다면 어떻게 해결할까요? 연구진은 CITENTION이라는 새로운 도구를 제안했습니다.

  • 기존 방식: AI 가 답을 쓰면서 동시에 근거를 찾아내는 방식 (생성형). 하지만 이 방식은 AI 가 "무엇을 생각했는지"를 완전히 통제하기 어렵습니다.
  • 새로운 방식 (CITENTION): AI 가 답을 생성할 때, 내부적으로 어떤 단어에 '주목 (Attention)'을 했는지를 분석하는 것입니다.

비유:

AI 가 책을 읽을 때, **눈동자가 어디에 멈췄는지 (Attention)**를 추적하는 것입니다.

  • AI 가 "서울"이라는 답을 낼 때, 내부적으로 "서울"이라는 단어가 포함된 문장을 가장 강하게 주목했다면, 그 문장이 바로 근거가 됩니다.
  • 이 방법은 AI 를 다시 훈련시킬 필요도 없고, 별도의 검색 엔진을 돌릴 필요도 없어 매우 빠르고 효율적입니다.

🚀 4. 시너지 효과: "혼합 주전"이 최고다!

연구진은 세 가지 방법을 섞어보았습니다.

  1. 생성형: AI 가 스스로 답과 근거를 만드는 것.
  2. 검색형: 검색 엔진처럼 키워드로 문서를 찾는 것.
  3. 주목형 (Attention): AI 의 내부 시선을 추적하는 것.

결과는?

  • 각 방법마다 장단점이 있었습니다. (예: 검색형은 복잡한 추론엔 약하지만, 주목형은 긴 문서에서 강함)
  • 하지만 이 세 가지를 잘 섞어서 (Combine) 사용하면, 어떤 상황에서도 가장 높은 정확도를 보여줬습니다. 마치 축구팀에서 공격수, 수비수, 미드필더를 모두 잘 배치해야 우승할 수 있는 것과 같습니다.

💡 5. 결론: 왜 이 연구가 중요한가?

이 연구는 AI 가 "정답을 맞췄는데 근거를 못 찾는" 상황을 명확히 정의하고, AI 의 내부 작동 원리 (주목도) 를 활용하여 이를 효율적으로 고치는 방법을 제시했습니다.

  • 핵심 메시지: AI 가 답을 낼 때, 우리가 "왜 그 답을 냈는지"를 검증할 수 있어야 신뢰할 수 있습니다.
  • 미래 전망: 이 기술이 발전하면, 뉴스나 의학 정보처럼 정확성이 생명인 분야에서 AI 를 더 안전하게 쓸 수 있게 될 것입니다.

한 줄 요약:

"AI 가 정답은 맞췄는데 근거를 못 찾는 '인용 실수'를 막기 위해, AI 가 어디를 '주목'했는지 추적하고, 검색과 생성 기술을 섞어 완벽한 근거 제시 시스템을 만들었습니다."