ViMultiChoice: Toward a Method That Gives Explanation for Multiple-Choice Reading Comprehension in Vietnamese

Each language version is independently generated for its own context, not a direct translation.

📚 1. 문제 상황: "정답은 맞는데, 이유를 모르겠어요!"

지금까지의 인공지능 (AI) 은 시험 문제를 풀 때, 정답을 고르는 능력은 매우 뛰어났습니다. 하지만 **"왜 A 가 정답이고 B 는 틀린지?"**를 설명하는 능력은 부족했습니다.

마치 시험을 치는 학생을 상상해 보세요.

기존 AI: 정답을 100 점 맞췄지만, 선생님에게 "왜 이걸 고르셨나요?"라고 물으면 "그냥 느낌이 그래요"라고만 말합니다. (이건 실생활에서 신뢰하기 어렵죠.)
이 연구의 목표: AI 가 정답을 고르는 동시에, **"이 문장의 이 부분 때문에 A 가 맞고, B 는 문맥상 어색하니까 틀렸어요"**라고 **설명서 (해설)**를 함께 써주는 것입니다.

🇻🇳 2. 새로운 도구: "베트남어 전용 도서관" (ViRCSoSciD)

이 연구는 베트남어에 특화된 새로운 데이터를 만들었습니다.

비유: 기존에는 영어나 중국어처럼 많은 책 (데이터) 이 있는 큰 도서관이 있었지만, 베트남어는 책이 적고 해설이 없는 도서관 같았습니다.
이 연구가 한 일: 베트남 고등학교 사회과목 (문학, 역사, 지리, 시민교육) 문제 1 만 2 천여 개를 모았습니다. 그리고 실제 선생님 7 명이 정답을 고른 후, **"왜 이 답이 맞는지"**를 직접 손으로 해설을 써주었습니다.
결과: 이제 AI 가 공부할 수 있는 '정답 + 해설'이 완벽하게 적힌 베트남어 전용 도서관이 생겼습니다.

🤖 3. 새로운 방법론: "비트코인"이 아니라 "비트 (Viet) + 멀티 (Multi) + 초이스" (ViMultiChoice)

저자들은 이 문제를 해결하기 위해 ViMultiChoice라는 새로운 AI 모델을 만들었습니다. 이 모델은 세 가지 핵심 기능을 가지고 있습니다.

① 베트남어 특화 번역기 (ViWordFormer)

비유: 베트남어는 단어와 단어가 붙어 새로운 의미를 만드는 경우가 많습니다. 기존 AI 는 이를 잘 못 알아챘습니다.
해결: 이 모델은 베트남어의 '구 (Phrase)' 구조를 잘 이해하도록 훈련되었습니다. 마치 베트남어 원어민이 문장을 읽을 때 단어 하나하나보다 '의미 덩어리'로 이해하는 것처럼 작동합니다.

② 선택지 비교관 (Option Inference)

비유: 시험지 앞의 네 가지 보기 (A, B, C, D) 를 보고 하나씩 따져봅니다.
해결: AI 는 "A 와 B 를 비교해 보니 A 가 더 자연스럽네", "C 는 문맥과 안 맞네"라고 네 가지 보기를 서로 비교하고 싸워 (비교) 가장 확실한 것을 골라냅니다.

③ 해설 작성자 (Explanation Generator)

비유: 정답을 고른 후, 시험지 옆에 해설을 직접 적는 역할입니다.
해결: 단순히 정답만 고르는 게 아니라, **"이 문장에서 이 단어가 중요해서 A 를 선택했습니다"**라고 글을 써냅니다.

🚀 4. 놀라운 결과: "해설을 쓰면 정답도 더 잘 맞춘다!"

가장 재미있는 발견은 이것입니다.

기존 상식: "정답을 맞추는 일"과 "해설을 쓰는 일"은 별개일 거라고 생각했습니다.
이 연구의 발견: 함께 훈련하면 둘 다 더 잘해집니다!
- 마치 수학 문제를 풀 때, 풀이 과정을 자세히 적으려고 노력하면 실수할 확률이 줄어드는 것과 같습니다.
- AI 가 "왜 이 답이 맞는지"를 설명하려고 노력하는 과정에서, 문장을 더 깊이 이해하게 되어 정답을 맞히는 능력도 함께 향상되었습니다.

🏆 5. 결론: 왜 이 연구가 중요한가요?

신뢰성: AI 가 답을 줄 때 이유를 설명해주므로, 우리가 그 답을 믿고 따라갈 수 있습니다. (예: 의료나 법률 같은 중요한 분야에서 필수적)
베트남어 특화: 베트남어라는 언어의 고유한 특징을 잘 반영하여, 영어 기반의 AI 들보다 훨씬 잘 작동합니다.
새로운 기준: 앞으로 베트남어 AI 를 연구할 때, 단순히 정답만 맞추는 게 아니라 **"얼마나 잘 설명하는가"**를 평가하는 새로운 기준을 제시했습니다.

한 줄 요약:

"이 연구는 베트남어 AI 에게 '정답'만 외우는 게 아니라, '해설'까지 써가며 문제를 풀게 훈련시켜, 더 똑똑하고 신뢰할 수 있는 AI 를 만들었습니다."

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 제기 (Problem)

배경: 다지선다형 독해 (MCRC, Multiple-Choice Reading Comprehension) 는 가상 비서 및 대화형 에이전트 등 다양한 응용 분야에서 중요한 역할을 합니다. 영어나 중국어와 같은 고자원 언어에서는 활발히 연구되고 있으나, 베트남어와 같은 저자원 언어에서는 연구가 제한적입니다.
기존 연구의 한계:
- 기존 베트남어 MCRC 연구는 주로 대규모 벤치마크 도입에 집중했으나, 복잡한 아키텍처 (NLI, 멀티홉 QA 등) 를 사용하여 계산 비용이 높고 베트남어의 언어적 특성을 충분히 반영하지 못했습니다.
- 대부분의 모델이 정답을 선택하는 데만 초점을 맞추어, 왜 그 답을 선택했는지에 대한 설명 (Explanation) 을 생성하는 능력은 결여되어 있었습니다. 이는 투명성과 실제 응용에 적합하지 않습니다.
- 기존 데이터셋은 추론의 깊이, 도메인 다양성, 그리고 설명 기반 평가의 부재라는 한계가 있었습니다.

2. 제안 방법: ViMultiChoice (Methodology)

저자들은 베트남어의 언어적 특성에 맞춘 새로운 MCRC 방법론인 ViMultiChoice를 제안했습니다. 이 모델은 정답 선택과 동시에 해당 선택에 대한 설명을 생성하는 멀티태스크 학습을 수행합니다.

주요 구성 요소:

베트남어 텍스트 인코더 (Vietnamese Text Encoder):
- ViWordFormer 모듈: 베트남어는 띄어쓰기가 있는 2 음절 이상의 합성어 (구체적 어구) 가 많다는 언어적 특징을 반영합니다. 기존 단어 분할 (Word Segmentation) 이 아닌, 어구 (Phrasal lexemes) 단위의 표현을 학습하기 위해 트랜스포머의 자기 주의 (Self-Attention) 메커니즘에 '구 점수 행렬 (Phrasal Score matrix)'을 도입하여 토큰 간의 연결을 재조정합니다.
- 사전 학습된 베트남어 언어 모델 (ViT5) 과 결합하여 질문, 보기, 문맥을 인코딩합니다.
옵션 추론 모듈 (Option Inference Module):
- OCN (Option Comparison Network) 기반의 아키텍처를 확장했습니다.
- 옵션 비교 (Option Comparison): 각 보기를 다른 보기들과 비교하여 유사성과 차이를 분석합니다.
- 유지 - 제거 메커니즘 (Keep-Eliminate Mechanism): 보기 간의 관계를 벡터로 표현하여 정답을 유지하거나 오답을 제거하는 논리를 학습합니다.
- 교차 주의 (Cross-Attention): 문맥 (Context) 정보와 보기 정보를 융합하여 중요한 단어를 강조합니다.
설명 생성기 (Explanation Generator):
- 최종 선택된 정답의 특징 벡터와 질문, 문맥 정보를 결합하여 (Encoder), 해당 선택에 대한 자연어 설명을 생성합니다.
학습 목표 함수 (Objective Function):
- 멀티태스크 학습: 정답 선택을 위한 교차 엔트로피 손실 ( $L_{MC}$ ) 과 설명 생성을 위한 교차 엔트로피 손실 ( $L_E$ ) 을 동시에 최소화합니다.
- 실험 결과, 설명 생성 태스크를 함께 학습하는 것이 정답 선택의 정확도를 유의미하게 향상시키는 것으로 나타났습니다.

3. 주요 기여 (Key Contributions)

ViRCSoSciD 데이터셋 구축:
- 베트남어 고등학교 사회과학 과목 (문학, 역사, 지리, 시민교육) 의 12,819 개의 다지선다형 질문으로 구성된 대규모 데이터셋입니다.
- 핵심 특징: 각 정답에 대해 **전문 교사 (7 명) 가 직접 작성한 설명 (Human-annotated explanations)**이 포함되어 있어, 설명 생성 능력을 평가할 수 있는 최초의 베트남어 MCRC 벤치마크입니다.
- 편향 (Bias) 문제 해결을 위해 보기 순서를 무작위화 (Shuffling) 하였고, 교차 검증 (Cohen's kappa 96%) 을 통해 데이터 품질을 확보했습니다.
ViMultiChoice 방법론 제안:
- 베트남어의 구 (Phrase) 구조를 모델링한 ViWordFormer 모듈을 도입하여 언어적 특성을 반영했습니다.
- 정답 선택과 설명 생성을 결합한 멀티태스크 학습을 통해 성능을 극대화했습니다.

4. 실험 결과 (Results)

데이터셋: ViRCSoSciD (새로 제안) 및 ViMMRC 2.0 (기존 벤치마크).
성능 비교:
- LLM 비교: Gemini-Flash 와 Mistral-Large 가 가장 좋은 성능을 보였으나, ViMultiChoice 는 오픈소스 LLM 들보다 뛰어난 성능을 보였습니다. 특히 Mistral-Large 는 설명 생성 (BLEU-4, ROUGE-L) 에서 가장 높았으나, ViMultiChoice 는 멀티태스크 학습을 통해 설명 생성과 정답 선택 모두에서 균형을 이뤘습니다.
- 기존 신경망 모델 비교: ViMultiChoice 는 ViMMRC 2.0 에서 64.38% (정확도), ViRCSoSciD 에서 64.38% (정확도) 의 SotA(State-of-the-Art) 성능을 달성했습니다. 이는 기존 OCN 모델보다 약 10%p 이상 향상된 결과입니다.
멀티태스크 학습의 효과: 설명 생성기를 포함하지 않은 단일 태스크 모델 (62.98%) 에 비해, 설명 생성을 함께 학습한 ViMultiChoice 는 정확도가 64.38% 로 상승했습니다. 이는 설명 생성 태스크가 모델의 추론 능력을 강화함을 시사합니다.
ViWordFormer의 효과: 아블레이션 연구에서 ViWordFormer 모듈을 제거했을 때 성능이 하락하여, 베트남어 구 구조 모델링의 중요성을 입증했습니다.

5. 의의 및 결론 (Significance)

베트남어 NLP 의 발전: 베트남어 저자원 언어 환경에서 고도화된 추론과 설명 생성이 가능한 MCRC 모델의 기초를 마련했습니다.
설명 가능성 (Explainability) 의 중요성 강조: 단순히 정답을 맞추는 것을 넘어, 그 이유를 설명할 수 있는 모델이 실제 응용 (교육, 의료 등) 에 더 유용함을 입증했습니다.
오픈 소스 기여: 코드와 ViRCSoSciD 데이터셋을 공개하여 향후 베트남어 및 저자원 언어 연구의 재현성과 발전을 도모합니다.

이 논문은 베트남어 독해 이해의 새로운 기준을 제시하며, 언어적 특성을 반영한 모델 설계와 멀티태스크 학습 전략의 유효성을 체계적으로 증명했습니다.