Multilingual Financial Fraud Detection Using Machine Learning and Transformer Models: A Bangla-English Study

Each language version is independently generated for its own context, not a direct translation.

상상해 보세요. 거대한 은행 금고 앞에는 **사기꾼 (Scam)**과 **정직한 고객 (Ham)**이 섞여 있습니다. 이들을 구별해 내는 두 가지 감시 카메라가 있습니다.

구형 감시 카메라 (전통적인 기계 학습): "키가 크고, 모자를 썼으며, 손에 전화기를 들고 있으면 사기꾼일 확률이 높다"처럼 명확한 규칙과 특징을 찾아냅니다.
최신 AI 감시 카메라 (트랜스포머 모델): 수만 권의 책을 읽은 지식豊富な 탐정처럼, 문맥을 깊이 이해하고 "이 말투는 뭔가 수상해"라고 직관적으로 판단합니다.

이 연구는 영어와 벵골어가 섞인 (코드믹스) 금융 메시지를 대상으로 이 두 카메라 중 누가 더 잘 사기꾼을 잡아낼지 비교했습니다.

연구진들은 먼저 사기 메시지들을 분석해서 **사기꾼들의 '지문'**을 찾아냈습니다.

긴 편지: 정직한 메시지는 짧고 간결하지만, 사기꾼들은 긴 설명으로 당신을 설득하려 합니다. (마치 "이거 사세요! 지금 안 하면 손해!"라고 길게 떠드는 상인처럼요.)
긴박함 조장: "지금 당장!", "긴급!" 같은 단어를 자주 쓰며 당신을 불안하게 만듭니다.
연락처 폭격: 정직한 은행 메시지는 링크나 전화번호를 잘 안 보냅니다. 하지만 사기 메시지의 97% 는 전화번호가 있고, 32% 는 링크가 있습니다. (사기꾼들은 무조건 연락을 시키려 하죠.)

놀랍게도, 최신 AI 탐정 (트랜스포머) 보다는 구형 감시 카메라 (전통적 기계 학습) 가 더 잘 이겼습니다!

승자: 선형 SVM (전통적 모델)
- 성적: 정확도 91.59%, F1 점수 91.30%
- 이유: 사기꾼들이 쓰는 "긴 메시지", "전화번호", "긴박한 단어" 같은 뚜렷한 특징을 아주 정확하게 포착했기 때문입니다. 마치 사기꾼이 항상 붉은 모자를 쓴다는 것을 알고 있으면, 붉은 모자만 보면 바로 잡을 수 있는 것과 같습니다.
준우승자: 트랜스포머 모델 (최신 AI)
- 성적: 정확도 89.49%, F1 점수 88.88%
- 특이점: 이 AI 는 사기꾼을 놓치는 경우는 거의 없었습니다 (회상률 94.19%). 하지만 대신 정직한 사람을 사기꾼으로 오인하는 경우가 너무 많았습니다 (거짓 양성).
- 비유: 이 AI 는 "모든 사람이 사기꾼일지도 몰라!"라고 너무 경계하는 과보호하는 경비원 같습니다. 사기꾼은 다 잡지만, 정직한 고객까지 "잠깐 멈추세요!"라고 막아서게 됩니다.

언어의 장벽: 이 데이터는 영어와 벵골어가 섞여 있습니다. 최신 AI 는 영어는 잘하지만, 벵골어 금융 용어에 대한 학습 데이터가 부족해 혼란을 겪었습니다.
단순함의 힘: 사기 메시지는 복잡한 문맥보다는 전화번호나 링크 같은 '단순한 신호'로 드러나는 경우가 많습니다. 이런 경우, 복잡한 AI 보다는 규칙을 잘 따르는 전통적인 모델이 더 빠르고 정확하게 작동했습니다.

이 연구는 **"새롭고 복잡한 기술 (AI) 이 항상 최선은 아니다"**라는 것을 보여줍니다.

자원 부족 환경에서는: 데이터가 적거나 언어가 섞여 있는 상황에서는, **단순하고 잘 다듬어진 규칙 (전통적 기계 학습)**이 오히려 더 강력하고 안정적일 수 있습니다.
사기 방지 전략: 만약 사기꾼을 절대 놓치지 않아야 한다면 (예: 국가 안보), 최신 AI 를 쓰는 게 나을 수 있습니다. 하지만 정직한 사용자를 불편하게 하지 않으려면, 전통적인 모델이 더 적절할 수 있습니다.

한 줄 요약:

"사기꾼 잡는 데는 최신 AI 가 무조건 좋은 게 아니야. 오히려 '전화번호'나 '긴 메시지' 같은 단순한 특징을 잘 파악하는 오래된 방법이 영어와 벵골어가 섞인 복잡한 세상에서 더 잘 이겼어!"

유사한 논문