Each language version is independently generated for its own context, not a direct translation.
1. 왜 이 연구가 필요할까요? (문제 상황)
상속 문제를 푸는 것은 단순히 "누가 얼마를 받나요?"라고 묻는 게 아닙니다. 마치 복잡한 퍼즐을 맞추거나 정교한 레시피를 따라 요리를 하는 것과 비슷합니다.
- 레시피 (이슬람 상속법): "할아버지가 돌아가셨을 때, 아들이 있으면 손자는 물려받지 못한다", "아내와 딸이 동시에 있으면 비율이 어떻게 변하는지" 등 매우 엄격한 규칙이 있습니다.
- 현재 AI 의 문제: 요즘 AI 는 글을 잘 쓰고 대화를 잘하지만, 이런 엄격한 규칙을 단계별로 따르며 계산하는 것에는 약점이 있습니다.
- 예를 들어, AI 가 "손자도 받을 수 있다"고 잘못 판단하면, 그 뒤의 모든 계산이 엉망이 되어버립니다. (이걸 **'오류 전파'**라고 합니다.)
2. 이 연구가 만든 것: MAWARITH (마와리트)
연구진은 12,500 개의 상속 사례로 구성된 거대한 데이터베이스를 만들었습니다.
- 기존 방식 (단답형 퀴즈): "정답은 A, B, C 중 하나?"라고만 물었습니다. AI 가 운 좋게 정답을 맞혀도, **어떻게 그 답을 냈는지 (추론 과정)**는 알 수 없었습니다.
- 새로운 방식 (MAWARITH): AI 에게 **"단계별로 생각해보고, 왜 그렇게 판단했는지 설명하라"**고 요구합니다.
- 누가 상속받는지 찾기: (예: 아들은 있는데 손자는 제외해야 함)
- 규칙 적용하기: (누구를 제외하고 누구에게 얼마를 주는지)
- 정확한 계산하기: (나머지 부분을 어떻게 나누는지)
- 최종 답안 제시하기
이것은 AI 가 단순히 정답을 외우는 게 아니라, 법률가처럼 논리적으로 사고하는지를 확인하는 것입니다.
3. 어떻게 점수를 매기나요? (MIR-E 평가 기준)
단순히 "정답/오답"으로만 점수를 주면 안 됩니다. 그래서 연구진은 MIR-E라는 새로운 점수 시스템을 만들었습니다.
- 비유: 요리 대회 심사
- 기존 방식: 요리가 다 됐을 때 맛만 보고 점수 줌. (실수가 있어도 운 좋게 맛만 좋으면 통과)
- MIR-E 방식:
- 재료 준비: 올바른 재료를 썼나? (상속인 목록이 맞나?)
- 절차: 조리 순서를 지켰나? (규칙을 잘못 적용하지 않았나?)
- 마무리: 최종 맛은 어때? (계산 결과가 정확하냐?)
- 만약 재료를 잘못 준비했다면 (상속인 목록 오류), 그 뒤의 모든 과정이 무효가 되어 점수를 깎습니다. 이렇게 실수가 어디서 발생했는지를 정확히 찾아냅니다.
4. 실험 결과: 누가 이겼나요?
연구진은 최신 AI 모델 5 개를 이 시험에 풀어보게 했습니다.
- 승자: Gemini-2.5-flash
- 이 모델은 약 **90%**의 높은 점수를 받았습니다. 마치 숙련된 법률 전문가처럼 단계별로 정확하게 추론하고 계산했습니다.
- 패자: 다른 오픈소스 모델들 (LLaMA, Qwen, Fanar 등)
- 점수가 50% 미만으로 낮았습니다.
- 주요 실수:
- 허위 상속인 추가: 상속받을 자격이 없는 사람을 목록에 넣음.
- 자격 있는 사람 제외: 정작 받아야 할 사람을 빼먹음.
- 규칙 무시: 복잡한 상황 (예: 상속분이 전체보다 많을 때 줄이는 '아울' 규칙) 을 적용하지 않음.
5. 결론 및 시사점
이 연구는 **"AI 가 복잡한 규칙과 논리가 필요한 분야 (법률, 의료 등) 에서는 아직 인간 전문가를 완전히 대체하기 어렵다"**는 것을 보여줍니다.
- 핵심 메시지: AI 가 말을 잘하고 유창하게 글을 쓴다고 해서, 엄격한 규칙을 따르는 논리적 사고를 잘하는 것은 아닙니다.
- 미래 전망: 이 데이터셋 (MAWARITH) 은 앞으로 AI 가 더 똑똑하게 추론할 수 있도록 훈련시키는 데 쓰일 것입니다. 마치 법률가 지망생이 모의고사를 풀며 실력을 기르는 것처럼요.
한 줄 요약
"이슬람 상속법이라는 복잡한 퍼즐을 AI 가 얼마나 논리적으로 풀 수 있는지, 단계별 실수까지 꼼꼼히 채점하는 새로운 시험지를 만들었다."