Each language version is independently generated for its own context, not a direct translation.

VerifAI: 의학적 질문에 답할 때 "거짓말"을 잡아주는 똑똑한 검색 엔진

이 논문은 VerifAI(베리파이) 라는 새로운 인공지능 시스템을 소개합니다. 이 시스템은 의학적 질문에 답할 때, AI 가 흔히 하는 실수인 '환각 (Hallucination)', 즉 사실과 다른 내용을 그럴싸하게 지어내는 문제를 해결하기 위해 만들어졌습니다.

이 복잡한 기술을 일상적인 비유로 쉽게 설명해 드리겠습니다.

1. 문제: "거짓말쟁이" AI 와 신뢰의 위기

우리가 AI 챗봇에게 "감기약과 진통제를 같이 먹어도 될까요?"라고 물으면, AI 는 아주 유창하고 자신감 있게 답변을 해줍니다. 하지만 문제는 그 답변이 사실일지, 아니면 AI 가 멋대로 지어낸 이야기일지 우리가 알 수 없다는 점입니다.

이는 마치 재능은 있지만 기억력이 나쁜 유능한 요리사와 같습니다. 그는 요리를 아주 맛있게 만들어내지만, 레시피를 기억하지 못해 "소금 대신 설탕을 넣어도 됩니다"라고 거짓말을 할 수도 있습니다. 생명과 직결된 의학 분야에서 이런 거짓말은 치명적일 수 있습니다.

2. 해결책: VerifAI 의 3 단계 "검증 시스템"

VerifAI 는 단순히 답변을 만들어내는 것이 아니라, 답변의 진위를 3 단계로 꼼꼼히 확인하는 시스템입니다. 이를 '검색 - 요리 - 검사'의 과정으로 비유해 볼 수 있습니다.

1 단계: 신뢰할 수 있는 도서관 사서 (검색 모듈)

비유: 인터넷 전체를 뒤지는 것이 아니라, 공신력 있는 의학 도서관 (PubMed) 에만 집중하는 전문 사서입니다.
작동 원리: 사용자가 질문을 하면, 이 사서는 수천만 편의 의학 논문 중에서 가장 관련성 높은 10 편의 논문을 찾아냅니다. 단순히 키워드만 매칭하는 것이 아니라, 문맥을 이해하여 가장 정확한 자료를 골라냅니다.
결과: AI 가 답변할 때 근거가 되는 '진짜 책'을 먼저 준비해 둡니다.

2 단계: 레시피를 보고 요리하는 셰프 (생성 모듈)

비유: 이제 앞서 사서가 찾아온 10 편의 논문만 보고 요리를 하는 셰프가 나옵니다.
작동 원리: 이 셰프는 자신의 기억 (AI 의 지식) 을 믿지 않습니다. 오직 손에 든 논문 내용만 참고하여 답변을 작성합니다. 그리고 매 문장마다 "이 말은 3 번 논문 5 페이지에 있습니다"라고 출처를 명시합니다.
특징: 이 셰프는 특별히 훈련을 받아, 논문 내용을 잘 요약하고 출처를 정확히 밝히는 법을 배웠습니다.

3 단계: 엄격한 맛보기 심사위원 (검증 모듈)

비유: 요리가 완성되면, 가장 엄격한 맛보기 심사위원이 등장합니다. 이 심사위원은 셰프가 쓴 답변과 원본 논문을 하나하나 비교합니다.
작동 원리:
- 초록색: 논문 내용을 정확히 인용했으니 "통과" ✅
- 노란색: 논문 내용과 비슷하지만 약간의 차이가 있으니 "주의" ⚠️
- 빨간색: 논문 내용과 정반대이거나 근거가 없으니 "거짓말" ❌
- 회색: 출처가 아예 없으니 "확인 필요" ⚫
핵심: 이 심사위원은 거대하고 비싼 AI(GPT-4 등) 보다 의학 전문 지식을 바탕으로 훈련된 작은 AI입니다. 그래서 의학 논문의 미묘한 뉘앙스를 더 정확하게 파악하여 거짓말을 잡아냅니다.

3. 왜 이 시스템이 특별한가요?

투명성 (Transparency): VerifAI 는 답변을 줄 때, 각 문장이 어떤 논문을 바탕으로 했는지 색깔로 보여줍니다. 사용자가 "이 문장이 빨간색이네? 아, 이 말은 근거가 없구나"라고 바로 알 수 있습니다.
작지만 똑똑한 모델: 보통 AI 는 거대할수록 좋다고 생각하지만, VerifAI 는 작은 모델 (SLM) 을 전문적으로 훈련시켜, 거대 모델보다 더 정확한 인용과 검증을 해냅니다. 이는 비용도 절감하고 속도도 빠르게 합니다.
오픈 소스: 이 시스템의 모든 코드와 데이터는 공개되어 있어, 누구나 검증하고 개선할 수 있습니다. "블랙박스"가 아닌, 누구나 들여다볼 수 있는 "유리 상자" 같은 시스템입니다.

4. 결론: 신뢰할 수 있는 AI 의 미래

VerifAI 는 AI 가 "알고 있는 척" 하는 것을 멈추게 하고, "알고 있는 것만, 그리고 그 근거를 보여주며" 말하게 만드는 시스템입니다.

의학, 법률, 금융처럼 사실 여부가 생명을 좌우하거나 큰 손해를 입히는 분야에서는, 화려한 답변보다 정확한 근거와 검증이 훨씬 중요합니다. VerifAI 는 이러한 분야에서 AI 를 안전하게 사용할 수 있는 길을 열어주는 혁신적인 도구입니다.

한 줄 요약:

VerifAI 는 AI 가 지어낸 거짓말을 잡아내기 위해, '전문 사서'가 자료를 찾고, '셰프'가 근거로 요리하며, '엄격한 심사위원'이 하나하나 검증하는 3 인 1 조의 검증 시스템입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

생성형 AI(대규모 언어 모델, LLM) 는 정보 검색 및 콘텐츠 생성 분야에서 혁신을 가져왔으나, 할루시네이션 (Hallucination) 문제가 심각한 장애물로 작용하고 있습니다. 특히 생명과학 및 의료 분야에서는 사실의 정확성과 검증 가능성이 필수적이지만, LLM 은 훈련 데이터의 한계와 복잡한 도메인 지식으로 인해 사실과 다른 내용을 그럴듯하게 생성하는 경향이 있습니다.
기존의 검색 증강 생성 (RAG) 시스템은 외부 문서를 참조하여 답변을 생성하지만, 생성된 답변과 검색된 증거 간의 정합성을 보장하지 못합니다. 또한, 인용 (Citation) 이 제대로 수행되지 않거나 인용된 문맥이 실제 주장을 지지하지 않는 경우가 빈번하여 사용자의 신뢰를 저해합니다.

2. 방법론 (Methodology)

저자들은 VerifAI라는 오픈 소스 전문가 시스템을 제안했습니다. 이는 검색 증강 생성 (RAG) 과 사후 주장 검증 (Post-hoc Claim Verification) 메커니즘을 통합한 모듈형 파이프라인으로 구성됩니다. 시스템은 크게 세 가지 핵심 구성 요소로 나뉩니다.

A. 정보 검색 (Information Retrieval, IR) 모듈

데이터: PubMed 의 약 2,550 만 개의 초록 (Abstract) 을 인덱싱합니다.
하이브리드 검색 전략:
- 어휘 검색 (Lexical): OpenSearch 와 BM25 알고리즘을 사용하여 키워드 기반 매칭을 수행합니다.
- 의미 검색 (Semantic): Qdrant 벡터 데이터베이스와 HNSW 알고리즘을 활용하여 임베딩 기반의 의미적 유사성을 검색합니다.
- 하이브리드 점수 계산: 두 검색 방식의 점수를 정규화하여 가중치 ( $\alpha, \beta$ ) 를 곱해 최종 점수를 산출합니다. 실험 결과, 의미 검색에 더 높은 가중치 (예: Lexical 0.7, Semantic 0.3) 를 부여했을 때 최적의 성능을 보였습니다.

B. 생성 (Generative) 모듈

모델: Mistral-7B-Instruct-v0.2 를 기반으로 커스텀 데이터셋 (PQAref) 으로 미세 조정 (Fine-tuning) 된 모델을 사용합니다.
학습 데이터: PubMedQA 에서 추출된 9,075 개의 질문과 각각 10 개의 관련 초록, 그리고 GPT-4 Turbo 가 생성한 참조 답변을 기반으로 구축되었습니다.
기능: 검색된 10 개의 초록을 입력받아 답변을 생성하며, 각 사실적 주장 (Claim) 마다 PubMed ID(PMID) 를 인용합니다. 미세 조정을 통해 할루시네이션된 인용을 줄이고 가장 관련성 높은 초록을 참조하는 능력을 향상시켰습니다.

C. 검증 (Verification) 모듈

목표: 생성된 답변의 각 문장을 "주장 (Hypothesis)"으로, 인용된 초록을 "전제 (Premise)"로 간주하여 자연어 추론 (NLI) 작업을 수행합니다.
작동 원리: 각 주장과 증거 간의 관계를 Support(지지), Contradict(모순), No Evidence(증거 없음) 중 하나로 분류합니다.
모델: DeBERTa-large 모델을 SciFact 및 HealthVer 데이터셋으로 미세 조정하여 사용했습니다. 이 모델은 GPT-4 를 포함한 일반 목적의 대형 모델보다 의료 도메인 검증 작업에서 더 높은 정확도를 보였습니다.
사용자 인터페이스: 검증 결과를 시각화하여 지원되는 문장은 녹색, 부분 지원은 노란색, 모순은 빨간색, 미참조 문장은 회색으로 표시합니다.

3. 주요 기여 (Key Contributions)

소형 언어 모델 (SLM) 을 활용한 인용 충실도: 거대 모델이 아니더라도 도메인 특화 미세 조정을 통해 선두 주자급 LLM 과 유사하거나 더 나은 인용 충실도를 달성할 수 있음을 증명했습니다.
도메인 특화 NLI 검증기의 우수성: 일반적인 생성형 검증 (GPT-4 등) 보다 의료 벤치마크 (HealthVer) 에서 전문적으로 미세 조정된 NLI 분류기가 훨씬 우수한 성능을 보임을 실증했습니다.
최초의 오픈 소스 종단 간 검증 파이프라인: 하이브리드 검색, 인용 인식 생성, 사후 추론 기반 검증을 하나의 모듈형 프레임워크로 통합하여 공개했습니다.

4. 평가 결과 (Results)

검색 (IR) 성능: BioASQ 데이터셋에서 하이브리드 검색 전략을 적용한 결과, **MAP@10 이 42.7%**로 PubMed 기본 검색 엔진 (MAP@10 19.1%) 보다 월등히 높은 성능을 보였습니다.
생성 (GC) 성능:
- 미세 조정된 모델 (M2) 은 제로샷 (Zero-shot) 모델 대비 할루시네이션된 PMID 수가 26 개에서 3 개로 크게 감소했습니다.
- 가장 관련성 높은 초록을 참조하는 비율이 22.5% 에서 1.2% 로 획기적으로 개선되었습니다.
검증 (VC) 성능:
- HealthVer 벤치마크에서 DeBERTa 기반 검증 모델은 F1 점수 0.48, 정확도 0.52를 기록하여 기존 SOTA(BERT-base, F1 0.36) 를 능가했습니다.
- GPT-4, GPT-4 Turbo, GPT-4o 와의 비교에서도 모든 메트릭 (정밀도, 재현율, F1) 에서 DeBERTa 모델이 우세했습니다.
종단 간 평가: 178 개의 BioASQ 질문을 대상으로 한 통합 평가에서, 검색 품질이 답변의 정확도와 검증 신뢰도에 직접적인 영향을 미침을 확인했습니다.

5. 의의 및 결론 (Significance)

신뢰할 수 있는 AI 배포: 고위험 분야 (의료, 법률 등) 에서 AI 의 신뢰성을 확보하기 위해 생성과 검증을 분리하고, 검증 단계를 통해 사실성을 보장하는 아키텍처의 중요성을 강조합니다.
투명성과 설명 가능성: 사용자에게 각 주장의 출처와 검증 상태를 시각적으로 제공함으로써 "블랙박스" 결정을 방지하고, 사용자가 직접 근거를 확인하고 판단할 수 있게 합니다.
확장성: 이 모듈형 아키텍처는 의료 분야를 넘어 법률, 금융, 정책 등 다른 고위험 도메인으로 쉽게 확장 가능하도록 설계되었습니다.
오픈 소스 생태계: 코드, 모델, 데이터셋을 모두 공개하여 연구의 재현성과 커뮤니티의 협력을 촉진합니다.

이 논문은 생성형 AI 의 할루시네이션 문제를 해결하기 위해 단순한 검색 증강을 넘어, 논리적 추론 기반의 엄격한 검증 단계를 필수적으로 포함해야 함을 보여주며, 신뢰할 수 있는 도메인 특화 AI 시스템 구축을 위한 새로운 표준을 제시합니다.

VerifAI: A Verifiable Open-Source Search Engine for Biomedical Question Answering