Claim2Vec: Embedding Fact-Check Claims for Multilingual Similarity and Clustering

Each language version is independently generated for its own context, not a direct translation.

상상해 보세요. 전 세계 각지에서 날아온 **수만 통의 편지 (주장/Claim)**가 우체국에 쌓여 있다고 칩시다.

어떤 편지는 영어로, 어떤 건 스페인어로, 어떤 건 세르비아어로 쓰여 있습니다.
내용도 비슷합니다. 예를 들어, "A 라는 약이 심장마비를 막는다"는 영어 편지와 "A 라는 약이 심장 독소를 막는다"는 스페인어 편지가 사실은 같은 이야기인데, 단어만 다르고 언어도 달라서 우체국 직원 (기존 AI) 은 이 두 편지가 완전히 다른 내용인 줄 알고 서로 다른 상자에 따로따로 분류해 버립니다.

이렇게 같은 내용을 가진 편지들을 따로따로 분류하면, 한 번 확인한 사실을 다시 확인해야 하므로 시간이 너무 많이 걸리고 비효율적입니다. 우리는 "내용이 같은 편지들은 한 상자에 묶어서, 한 번만 확인하면 모두 해결되게" 만들고 싶었습니다.

연구팀은 기존에 있던 분류 전문가 (AI 모델) 가 언어와 단어의 뉘앙스 차이 때문에 실수를 많이 한다는 것을 발견했습니다. 그래서 **새로운 분류 전문가인 '클레임 2 벡 (Claim2Vec)'**을 훈련시켰습니다.

훈련 방법 (비유: 쌍둥이 찾기 게임)
- 기존 AI 는 "영어와 스페인어는 다르다"라고 생각했지만, 연구팀은 수많은 **비슷한 내용의 쌍 (예: 영어로 된 A 문장과 스페인어로 된 A 문장)**을 보여주고 "이건 같은 거야!"라고 가르쳤습니다.
- 마치 서로 다른 옷을 입은 쌍둥이를 보고, 옷차림이 달라도 얼굴이 같으면 '같은 사람'으로 인식하도록 훈련시킨 것과 같습니다.
- 이를 통해 AI 는 언어가 달라도 의미가 같으면 가까이 붙여두고, 의미가 다르면 멀리 떨어뜨리는 능력을 갖게 되었습니다.
결과: 더 똑똑한 분류
- 기존 AI 는 같은 내용을 가진 편지들을 3 개나 4 개로 잘게 쪼개서 분류했다면, 클레임 2 벡은 이들을 하나의 상자에 깔끔하게 묶어줍니다.
- 마치 도서관에서 "영어로 된 책"과 "한국어로 된 책"을 제목만 보고 분류하던 직원을, **"내용의 핵심 주제"**를 보고 분류하는 전문가로 바꾼 것과 같습니다.

연구팀은 전 세계 14 가지 다른 AI 모델과 비교 실험을 했습니다.

정확도 상승: 클레임 2 벡은 다른 모델들보다 훨씬 정확하게 같은 내용을 가진 주장들을 그룹화했습니다.
오류 수정: 기존 AI 가 "이건 A 이야기, 저건 B 이야기"라고 잘못 나누던 것들을 (Split Error), 클레임 2 벡은 "아, 이건 같은 이야기구나"라고 바로잡아 주었습니다.
다국어의 힘: 특히 여러 언어가 섞여 있는 그룹에서 클레임 2 벡의 성능이 가장 뛰어났습니다. 이는 서로 다른 언어 간의 지식을 잘 연결해 주는 '번역기' 역할도 잘 해낸다는 뜻입니다.

이 연구는 **"가짜 뉴스가 전 세계로 퍼질 때, 같은 이야기를 여러 언어로 반복해서 검증하는 수고를 줄여준다"**는 점에서 매우 중요합니다.

기존 방식: 같은 이야기를 영어, 프랑스어, 스페인어로 각각 따로 조사해야 함. (시간 낭비)
클레임 2 벡 방식: "아, 이 세 가지 언어의 글은 사실 같은 이야기구나!"라고 한 번에 묶어서, 한 번만 조사하면 모든 언어의 팩트체크가 끝남.

결론적으로, 이 기술은 **정보의 홍수 속에서 같은 내용을 가진 주장들을 찾아내어, 팩트체크의 효율을 극대화하는 '지능적인 정리 도구'**라고 할 수 있습니다.

유사한 논문