Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

Each language version is independently generated for its own context, not a direct translation.

기존의 AI 는 영어 단어 'Cat'과 독일어 단어 'Katze'가 서로 같다는 것을 미리 외워두거나 (사전), 단순히 두 언어의 단어들을 기계적으로 회전시켜 맞추는 방식을 썼습니다.
하지만 **문맥 (Context)**이 중요해지면 상황이 복잡해집니다.

예: 영어의 'Match'는 "신발이 옷과 잘 어울린다 (match)"일 수도 있고, "크리켓 경기 (match)"일 수도 있습니다.
기존 방식은 이 미묘한 차이를 구분하기 어렵고, 미리 준비된 단어 쌍 (Word Alignment) 에 의존하다 보니 틀린 연결을 할 때가 많았습니다.

저자들은 이 문제를 해결하기 위해 **'최적의 운송 (Optimal Transport)'**이라는 수학적 개념을 도입했습니다.

🚚 비유: 화물 트럭과 창고

상황: 영어로 된 문장 (A 창고) 과 독일어로 된 문장 (B 창고) 이 있습니다. 두 창고에는 각각 다른 단어들이 '화물'로 쌓여 있습니다.
기존 방식: 미리 정해진 규칙 (예: 1 대 1 매칭) 으로 화물을 옮깁니다. "A 의 1 번 화물은 무조건 B 의 1 번으로"라고 강제로 옮기다 보니, 화물의 무게나 모양이 맞지 않아 비효율적이거나 잘못 옮기는 경우가 생깁니다.
이 논문의 방식 (OT): AI 가 화물을 옮기는 '비용'을 최소화하는 방법을 스스로 찾습니다.
- "A 의 '신발' 화물은 B 의 '신발'로 옮기는 게 가장 저렴하고 효율적이야."
- "하지만 A 의 '경기' 화물은 B 의 '경기'로 옮기는 게 더 낫고, '어울리다' 화물은 '맞다'로 옮기는 게 더 좋아."
- AI 는 단어 하나하나를 1 대 1 로 딱딱 맞추는 게 아니라, 문장 전체의 의미 흐름을 고려해서 가장 자연스럽게 화물을 재배치하는 방법을 계산합니다.

병렬 문장 준비: 영어 문장과 그 번역인 다른 언어 문장을 한 쌍으로 준비합니다. (사전 번역된 문장만 있으면 됩니다. 단어별 매칭은 필요 없습니다.)
비용 계산 (OT): AI 는 두 문장의 단어들이 서로 얼마나 닮았는지, 그리고 문장 전체를 옮기는데 드는 '비용'을 계산합니다. 이때 한 단어에서 여러 단어로, 혹은 여러 단어에서 한 단어로 연결될 수도 있습니다. (예: 독일어 'Vorsichtsprinzip'이라는 긴 단어는 영어 'precautionary approach'라는 두 단어로 자연스럽게 연결됨)
학습 (Fine-tuning): 이 '비용'을 줄이는 방향으로 AI 의 뇌 (모델) 를 수정합니다. 마치 화물 트럭이 가장 효율적인 경로를 찾아내며 운전 실력을 기르는 것과 같습니다.

미리 준비할 필요가 없음: 사전에 "이 단어는 저 단어다"라고 일일이 알려줄 필요가 없습니다. AI 가 문장 속에서 스스로 관계를 찾아냅니다.
유연한 연결: 1 대 1 매칭이 아니라, 1 대 다, 다 대 1 등 복잡한 관계도 자연스럽게 처리합니다. (예: "무장한 개입"이라는 문장에서 '무장한'과 '개입'이 각각 다른 방식으로 연결될 수 있음)
성능 향상: 이 방법으로 학습한 AI 는 영어를 모국어로 하지 않는 언어 (저자원 언어) 에서도 문장 이해 (XNLI) 나 질문 답변 (XQuAD) 과 같은 과제에서 기존 모델보다 훨씬 좋은 점수를 받았습니다.

이 논문은 **"AI 가 두 언어의 문장을 비교할 때, 단순히 단어장을 보는 게 아니라, 문장 전체의 의미를 가장 효율적으로 옮길 수 있는 '최적의 경로'를 스스로 찾아내도록 훈련시켰더니, 훨씬 더 똑똑해졌다"**는 내용입니다.

마치 통역사가 단어 대 단어 번역을 하는 게 아니라, 의미의 흐름을 파악해서 가장 자연스럽게 재구성하는 것과 같은 원리입니다.

유사한 논문