Building an Ensemble LLM Semantic Tagger for UN Security Council Resolutions

이 논문은 UN 안보리 결의안의 의미 태깅을 위해 여러 LLM 의 성능 변이를 활용한 앙상블 방법론과 환각을 방지하는 새로운 평가 지표를 도입하여, 비용 효율적으로 고품질의 데이터 정제 및 태깅 결과를 도출하는 신뢰할 수 있는 시스템을 제안합니다.

Hussein Ghaly

게시일 2026-03-09
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

📚 1. 문제 상황: "지저분한 고서적"

유엔은 1946 년부터 지금까지 수많은 문서 (결의안) 를 만들어냈습니다. 하지만 이 문서들은 다음과 같은 문제가 있었습니다.

  • 타자기로 작성되어 스캔됨: 글자가 번지거나 틀린 경우가 많아요 (OCR 오류).
  • 이중 열 형식: 옛날 문서들은 한 페이지에 영어와 프랑스어가 나란히 두 줄로 적혀 있어, 컴퓨터가 읽으면 글자가 뒤섞여 버립니다. (예: "안녕" 옆에 "Bonjour"가 붙어 있으면 컴퓨터는 "안녕 Bonjour"로 읽게 됩니다.)

이런 "지저분한 원고"를 컴퓨터가 제대로 이해하려면 먼저 **정리 (Cleaning)**를 해야 하고, 그다음에 **핵심 내용을 표시 (Semantic Tagging)**해야 합니다.

🤖 2. 해결책: "AI 팀의 협업 (Ensemble)"

저자는 혼자 일하는 AI 하나만 믿지 않고, 여러 개의 AI 모델 (GPT-4, GPT-5 등) 을 한 팀으로 모아 협업시키는 방식을 썼습니다.

  • 비유: 한 명의 천재 요리사에게 요리를 맡기기보다, 여러 명의 요리사에게 같은 재료를 주고 요리를 시킨 뒤, 가장 맛있는 요리를 골라내는 방식입니다.
  • 작동 원리:
    1. 같은 문서를 7 가지 다른 AI 모델에게 각각 2 번씩 처리하게 합니다. (총 14 개의 결과물이 나옵니다.)
    2. 이 결과물 중 가장 원본에 충실하고, 태그 (표시) 가 잘 된 것을 골라냅니다.

📏 3. 심사 기준: "실수하지 않는 척도"

AI 는 가끔 엉뚱한 말을 지어내거나 (할루시네이션), 중요한 내용을 빼먹는 실수를 합니다. 그래서 저자는 두 가지 중요한 **심사 기준 (메트릭)**을 만들었습니다.

  1. 내용 보존 비율 (CPR):
    • 비유: "원래 글자를 얼마나 그대로 남겼나요?"
    • AI 가 내용을 임의로 추가하거나 빼먹지 않고, 원본의 글자 조합을 얼마나 정확히 유지했는지 측정합니다.
  2. 태그 완성도 (TWF):
    • 비유: "옷을 입힐 때 단추를 다 잠갔나요?"
    • <태그>로 시작하면 반드시 </태그>로 끝나는지, 태그가 헝클어지지 않았는지 확인합니다.

💰 4. 결과: "가성비 좋은 승자"

이 실험을 통해 놀라운 결과가 나왔습니다.

  • 최고의 성능: 가장 최신 모델인 GPT-4.1이 가장 좋은 점수를 받았습니다. (내용 보존 99.99%, 태그 완성도 99.92%)
  • 가성비의 승리: 하지만 무조건 비싼 모델이 좋은 건 아닙니다. GPT-4.1-mini라는 작은 모델은 성능은 거의 비슷하면서, 비용은 20% 수준으로 훨씬 저렴했습니다.
    • 비유: "명품 브랜드 옷을 사지 않아도, 합리적인 가격에 똑같은 스타일을 입을 수 있다"는 뜻입니다.

🚀 5. 왜 중요한가요?

이 기술을 통해 유엔의 방대한 문서들을 **컴퓨터가 쉽게 이해할 수 있는 구조 (지식 그래프)**로 바꿀 수 있습니다.

  • 미래의 모습: "유엔이 1990 년에 어떤 결정을 내렸는지?"라고 검색하면, AI 가 문서 속의 '국가', '날짜', '이벤트'를 찾아서 바로 연결해 줄 수 있게 됩니다.
  • 핵심 메시지: AI 를 무작정 믿고 쓰는 게 아니라, 여러 모델을 비교하고 엄격한 기준으로 검증하면, 훨씬 더 정확하고 저렴한 방법으로 거대한 데이터를 정리할 수 있다는 것을 증명했습니다.

🎯 한 줄 요약

**"지저분한 유엔 문서들을 여러 AI 팀이 경쟁하게 하고, 가장 정확하고 저렴한 결과를 골라내어 컴퓨터가 읽기 쉬운 '지식 지도'로 만든 혁신적인 방법론"**입니다.