QA-Dragon: Query-Aware Dynamic RAG System for Knowledge-Intensive Visual Question Answering

이 논문은 복잡한 시각적 질문 답변 (VQA) 태스크에서 기존 RAG 방법의 한계를 극복하기 위해 도메인 및 검색 라우터를 통해 텍스트와 이미지를 동적으로 결합한 'QA-Dragon' 시스템을 제안하고, KDD Cup 2025 에서 기존 모델 대비 정확도와 지식 오버랩 점수를 크게 향상시킨 결과를 제시합니다.

Zhuohang Jiang, Pangjing Wu, Xu Yuan, Wenqi Fan, Qing Li

게시일 2026-03-17
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🐉 "QA-드래곤": 그림과 지식을 하나로 묶는 똑똑한 비서

이 논문은 **"QA-드래곤 (QA-Dragon)"**이라는 새로운 시스템을 소개합니다. 이 시스템은 우리가 사진이나 그림을 보며 질문을 할 때, 인공지능 (AI) 이 헛소리를 하지 않고 정확한 답을 찾아주도록 도와주는 기술입니다.

상상해 보세요. AI 가 마치 현명한 비서처럼 행동한다고요. 이 비서는 단순히 책만 읽거나, 단순히 그림만 보는 게 아니라, 질문의 성격을 파악하고 가장 적절한 방법을 찾아 답을 찾아냅니다.


🎯 왜 이 시스템이 필요할까요? (문제 상황)

기존의 AI 비서들은 두 가지 큰 실수를 자주 했습니다.

  1. 망상 (Hallucination): 모르는 것을 아는 척하며 엉뚱한 소리를 지어냈습니다. (예: "이 차는 1990 년에 출시되었습니다"라고 말했는데, 사실은 2024 년 모델이었음)
  2. 단편적인 지식: 글로 된 정보만 찾거나, 이미지 정보만 따로 찾아서 복잡한 질문에는 답을 못 했습니다. (예: "이 차의 엔진은 어떤 기술로 만들어졌고, 가격은 얼마인가요?"라고 물으면, 차 사진만 보고는 엔진 기술은 모르고, 인터넷만 검색하면 차 사진의 맥락을 잃어버림)

🐉 QA-드래곤은 어떻게 해결할까요? (해결책)

QA-드래곤은 질문 (Query) 을 잘 이해하고, 상황에 따라 동적으로 움직이는 (Dynamic) 시스템입니다. 마치 명품 레스토랑의 주방장처럼 생각하면 쉽습니다.

1. 메뉴판 분류기 (도메인 라우터)

손님이 들어오면, 주방장은 "이 손님은 채식 메뉴를 원할까? 아니면 고기 메뉴를 원할까?"를 먼저 파악합니다.

  • 비유: 질문이 '자동차'에 관한 건지, '음식'에 관한 건지, '동물'에 관한 건지 먼저 분류합니다.
  • 효과: 각 분야에 맞는 전문 지식을 꺼내 쓸 수 있게 됩니다.

2. 지시판 (검색 라우터)

손님의 주문이 복잡해 보이면, 주방장은 "이건 바로 요리할 수 있는 재료인가? 아니면 추가 재료를 사러 가야 하는가?"를 결정합니다.

  • 직접 출력 (Direct Output): 사진만 봐도 답이 명확하면 (예: "이 우산에 뭐라고 쓰여 있어?"), 바로 답을 줍니다.
  • 검색 확인 (Search Verify): 답이 확실하지 않으면, 외부 자료를 찾아서 확인합니다.
  • RAG (검색 강화 생성): 답을 만들기 위해 아예 새로운 정보를 찾아와서 조합합니다.

3. 도구 선택기 (툴 라우터)

재료를 사러 갈 때, "사진을 찍어갈까? 아니면 글자를 검색할까?"를 결정합니다.

  • 이미지 검색: "이 차가 어떤 모델인지 모르겠어?" → 비슷한 차 사진을 찾아서 비교합니다.
  • 텍스트 검색: "이 차의 가격은 얼마야?" → 인터넷에서 가격 정보를 찾아옵니다.
  • 혼합 검색: 둘 다 필요한 경우, 두 가지 방법을 모두 사용합니다.

4. 정교한 필터 (재랭킹 시스템)

찾아온 정보들이 너무 많다면, 가장 중요한 것만 골라냅니다.

  • 비유: 100 개의 뉴스 기사를 읽는 대신, 질문과 가장 관련 있는 3 개의 기사만 뽑아내어 정리해 줍니다.
  • 과정: 먼저 대략적으로 걸러내고 (Coarse), 다시 자세히 검토하여 (Fine) 최고의 정보만 골라냅니다.

5. 최종 검수관 (Post-Answer Verifier)

마지막으로, 비서가 쓴 답안이 사실과 맞는지, 논리가 통하는지 다시 한번 점검합니다.

  • 비유: "이 답이 정말 맞을까? 내가 확신할 수 있는 근거가 있을까?"라고 스스로 질문하며, 틀릴 것 같으면 "모르겠습니다"라고 정직하게 말합니다.

🏆 결과는 어땠나요?

이 시스템은 KDD Cup 2025이라는 AI 대회에서 테스트되었습니다.

  • 단일 정보원 (사진만): 기존 방법보다 5% 이상 더 정확하게 답했습니다.
  • 복합 정보원 (사진 + 인터넷): 6% 이상 더 정확해졌습니다.
  • 다중 대화 (여러 번 질문): 대화 흐름을 잘 따라가며 5% 이상 향상되었습니다.

💡 핵심 요약

QA-드래곤은 "무조건 검색하는 AI"가 아니라, **"질문을 잘 읽고, 상황에 맞는 도구를 선택하고, 찾아온 정보를 꼼꼼히 검증하는 똑똑한 비서"**입니다.

이 기술 덕분에 우리는 AI 에게 복잡한 질문을 할 때, 더 신뢰할 수 있고 정확한 답변을 받을 수 있게 되었습니다. 마치 현명한 친구가 옆에 있어, 모르는 것은 찾아주고, 헷갈리는 것은 정리해 주는 것과 같습니다.