SemBench: A Universal Semantic Framework for LLM Evaluation

Each language version is independently generated for its own context, not a direct translation.

1. 문제: 기존 시험은 너무 비싸고 어렵습니다

지금까지 AI 의 언어 이해 능력을 테스트하려면 **'WiC(문맥 속의 단어)'**라는 시험지를 사용했습니다.

비유: "사과"라는 단어가 "과일 바구니에 있는 사과"와 "컴퓨터 회사인 애플"이라는 두 문장에 나왔을 때, AI 가 이 두 '사과'가 같은 뜻인지 다른 뜻인지 맞추는 문제입니다.
문제점: 이 시험지를 만들려면 언어학 전문가들이 직접 예문들을 하나하나 찾아서 만들어야 합니다. 마치 수천 개의 문제를 직접 출제하고 채점하는 선생님이 필요한 셈이죠. 게다가 영어는 잘 되지만, 스페인어나 바스크어처럼 자료가 적은 언어에서는 시험지를 만드는 것 자체가 불가능하거나 너무 비쌉니다.

2. 해결책: SemBench (자동으로 문제를 만들어주는 AI)

저자들은 "왜 우리가 직접 문제를 만들까? AI 에게 문제를 만들게 하고, 그 AI 가 만든 문제를 다시 AI 가 풀게 하면 되지 않나?"라고 생각했습니다. 이것이 SemBench입니다.

핵심 아이디어: 사전 (Dictionary) 에 있는 **'단어의 뜻 (정의)'**만 있으면 됩니다. 예문은 필요 없습니다.
작동 원리 (3 단계 마술):
1. 사전에서 뜻 뽑기: AI 는 사전에서 "파티 (party)"라는 단어의 '정치적 조직'이라는 뜻만 가져옵니다.
2. AI 가 예문 만들기: AI 는 그 뜻만 보고 "최근 선거에서 정당이 의석을 잃었다"라는 예문을 스스로 만들어냅니다.
3. AI 가 다시 뜻 맞추기: AI 는 방금 만든 예문을 보고, "이게 원래 사전에 있던 '정치적 조직' 뜻과 같은가, 아니면 다른 뜻 (예: '집에서 하는 잔치') 과 같은가?"를 판단합니다.
비유:
- 기존 방식: 선생님이 직접 "이 그림을 보고 무슨 뜻인지 말해봐"라고 문제를 내고 채점합니다.
- SemBench: 선생님이 "이 단어의 뜻만 알려줄게, 너가 예문 하나 만들어봐. 그리고 그 예문을 보고 다시 뜻이 맞는지 확인해봐"라고 말합니다. 선생님이 문제를 직접 만들 필요 없이, 사전만 있으면 AI 가 스스로 시험을 치고 채점하는 시스템입니다.

3. 왜 이것이 대단한가요? (세 가지 장점)

① 언어 장벽이 사라졌습니다 (언어 독립성)

비유: 기존 시험지는 영어, 스페인어, 바스크어 등 언어별로 따로따로 만들어져야 했습니다. 하지만 SemBench 는 모든 언어에 똑같은 '사전'과 '번역기 (인코더)'만 있으면 됩니다.
결과: 자료 (예문) 가 거의 없는 '바스크어' 같은 언어에서도 AI 의 능력을 정확하게 측정할 수 있게 되었습니다. 마치 전 세계 어디서나 쓸 수 있는 보편적인 체중계를 만든 것과 같습니다.

② 적은 데이터로도 정확한 순위가 나옵니다 (효율성)

비유: 보통 AI 를 평가하려면 수천 개의 문제를 풀게 해야 신뢰할 수 있는 순위가 나옵니다. 하지만 SemBench 는 단 250~500 개의 문제만으로도 AI 들의 실력 순위가 안정적으로 나옵니다.
의미: 시간이 훨씬 덜 들고, 비용도 적게 듭니다.

③ 진짜 실력을 가려냅니다 (높은 정확도)

결과: 실험 결과, SemBench 로 측정한 AI 순위는 기존에 전문가들이 만든 표준 시험 (WiC) 으로 측정한 순위와 90% 이상 일치했습니다.
특이한 점: 기존 시험은 잘하는 AI 들끼리 점수가 비슷하게 몰려서 (90 점, 91 점) 차이를 구별하기 어려웠는데, SemBench 는 90 점과 95 점의 미세한 차이도 잘 찾아냅니다. 마치 고해상도 카메라가 기존 카메라보다 더 선명하게 AI 의 실력을 찍어낸 셈입니다.

4. 결론: AI 평가의 새로운 표준

이 논문은 **"AI 가 언어를 진짜로 이해하는지 확인하는 데, 굳이 비싼 전문가의 손길이 필요하지 않다"**는 것을 증명했습니다.

기존: "전문가들이 수고해서 시험지를 만들어야 AI 를 평가할 수 있다."
SemBench: "사전만 있으면 AI 가 스스로 문제를 만들고, 스스로 평가해서 순위까지 매겨준다."

이 방법은 앞으로 영어뿐만 아니라 전 세계의 모든 언어, 특히 자료가 부족한 언어에서도 AI 의 능력을 빠르고 정확하게 측정할 수 있게 해주는 가볍고 강력한 도구가 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 제기 (Problem)

최근 대규모 언어 모델 (LLM) 은 뛰어난 생성 및 추론 능력을 보여주며 자연어 처리 (NLP) 분야를 주도하고 있습니다. 그러나 이러한 모델들의 진정한 의미 이해 (Semantic Understanding) 능력을 평가하는 것은 여전히 큰 과제로 남아 있습니다.

기존 평가의 한계: '문맥 속 단어 (Word-in-Context, WiC)'와 같은 기존 벤치마크는 의미 분별 능력을 측정하는 데 효과적이지만, 데이터 구축에 많은 인력과 자원이 소요됩니다.
리소스 의존성: 대부분의 기존 벤치마크는 수동으로 큐레이션된 예시 문장이 필요하며, 이는 고자원 언어 (영어 등) 에만 집중되어 있어 저자원 언어 (바스크어 등) 에서는 적용이 어렵거나 불가능합니다.
확장성 부족: 새로운 언어나 도메인에 대해 의미 능력을 평가하려면 매번 새로운 데이터셋을 제작해야 하는 비효율성이 존재합니다.

2. 방법론 (Methodology)

저자들은 SemBench라는 완전히 자동화된 프레임워크를 제안합니다. 이 프레임워크는 사전의 '의미 정의 (Sense Definitions)'와 '문장 인코더 (Sentence Encoder)'만을 사용하여 LLM 의 의미 능력을 평가합니다.

핵심 원리

SemBench 는 LLM 이 단어의 정의와 사용 예시 사이를 일관되게 전환할 수 있는 능력을 측정합니다. 구체적인 프로세스는 다음과 같습니다 (그림 1 참조):

샘플링: 다의어 (Polysemous word) 와 그 중 하나의 특정 의미 (Sense) 를 사전에서 무작위로 선택합니다.
생성 단계 (Generation):
- SemBenchDef (기본 설정): 사전의 정의 ( $d_i$ ) 를 입력받아 LLM 이 해당 의미에 맞는 **사용 예시 ( $e'_i$ )**를 생성합니다.
- 역변환: 생성된 예시 ( $e'_i$ ) 를 다시 입력받아 LLM 이 **새로운 정의 ( $d'_i$ )**를 생성합니다.
- (참고: 사전에 예시가 있는 경우에만 적용되는 SemBenchEx 설정도 존재합니다.)
평가 (Evaluation):
- 생성된 정의 ( $d'_i$ ) 를 사전에 있는 **목표 정의 ( $d_i$ )**와 **오답 정의 (Distractor, 다른 의미 $d_j$ )**와 비교합니다.
- **문장 인코더 (Sentence Encoder)**를 사용하여 생성된 정의와 두 정의 간의 의미적 유사도 (Cosine Similarity) 를 계산합니다.
- 성공 기준: 생성된 정의가 목표 정의와 오답 정의보다 더 높은 유사도를 보일 경우 정답으로 간주합니다.
- 공식: $sim(d'_i, d_i) > sim(d'_i, d_j)$

리소스 및 설정

필요 자원: 단어의 의미 정의가 포함된 사전 (예시 문장 불필요) 과 다국어 지원 문장 인코더 (EmbeddingGemma 300M 사용).
난이도 조절: 목표 정의와 오답 정의 간의 유사도에 따라 '쉬움 (Easy)', '중간 (Mid)', '어려움 (Hard)', '무작위 (Rand)'로 난이도를 제어할 수 있는 휴리스틱을 제공합니다.

3. 주요 기여 (Key Contributions)

완전 자동화된 평가 프레임워크: 수동으로 큐레이션된 예시 문장 없이 사전 정의만으로 LLM 의 의미 이해 능력을 평가하는 새로운 방법론을 제시했습니다.
언어 독립성과 확장성: 고자원 언어 (영어), 중자원 언어 (스페인어), 저자원 언어 (바스크어) 등 다양한 자원을 가진 언어에서 일관된 평가를 가능하게 하여, 기존 WiC 벤치마크가 존재하지 않는 언어에도 적용 가능합니다.
데이터 효율성: 소수의 테스트 인스턴스 (약 250~500 개) 만으로도 안정적이고 의미 있는 모델 순위 (Ranking) 를 도출할 수 있음을 입증했습니다.
난이도 제어 메커니즘: 평가의 난이도를 조절할 수 있는 간단한 휴리스틱을 제안하여, 모델의 성능 차이를 더 정교하게 포착할 수 있도록 했습니다.

4. 실험 결과 (Results)

연구진은 영어, 스페인어, 바스크어 세 가지 언어와 다양한 크기의 LLM (Gemma, Qwen, Llama, Latxa 등) 을 대상으로 실험을 수행했습니다.

WiC 벤치마크와의 상관관계:
- SemBench 로 도출된 모델 순위는 표준 WiC 데이터셋 기반 순위와 매우 높은 상관관계 (Spearman's $\rho$ $ρ$ ) 를 보였습니다.
  - 영어: $\rho = 0.930$ (SemBenchDef), $\rho = 0.911$ (SemBenchEx)
  - 스페인어: $\rho = 0.765$
  - 바스크어: $\rho = 0.657$ (저자원 환경에서도 유의미한 상관관계 유지)
판별력 (Discriminative Capacity):
- SemBench 는 WiC 보다 모델 간 성능 차이를 더 명확하게 구분했습니다. WiC 는 상위 모델들이 밀집된 점수를 보이는 반면, SemBench 는 더 넓은 분포를 보여 미세한 의미 능력 차이를 포착하는 데 유리합니다.
데이터 효율성:
- 테스트 인스턴스 수가 500 개를 넘어가면 상관관계의 이득이 미미해졌으며, 250 개만으로도 안정적인 결과를 얻을 수 있었습니다.
Zero-shot vs Few-shot:
- Few-shot(5 개 예시) 설정이 Zero-shot 보다 상관관계가 약간 높았으나, Zero-shot 설정에서도 높은 상관관계를 유지하여 실제 적용 시 예시 문장 생성에 드는 노력을 최소화할 수 있음을 보였습니다.
저자원 언어에서의 성과:
- 바스크어와 같은 저자원 언어에서는 WiC 에서 일반 모델들이 무작위 추측 수준으로 실패한 반면, SemBench 는 언어 특화 모델 (Latxa) 이 일반 모델보다 우월한 성능을 보이도록 올바르게 평가했습니다.

5. 의의 및 결론 (Significance)

SemBench 는 LLM 의 의미 이해 능력을 평가하기 위한 가볍고, 적응력이 높으며, 데이터 효율적인 새로운 표준을 제시합니다.

실용성: 수동 주석이 필요 없어 새로운 언어나 도메인에 대한 벤치마크를 즉시 구축할 수 있습니다.
신뢰성: 기존 WiC 와 높은 상관관계를 가지면서도 더 넓은 성능 스펙트럼을 제공하여 모델 비교에 더 적합합니다.
포용성: 저자원 언어에서도 의미 있는 평가를 가능하게 하여, 언어적 다양성을 고려한 LLM 평가 체계를 정립하는 데 기여합니다.

결론적으로, SemBench 는 사전 정의와 일반 목적의 인코더만으로도 LLM 의 의미적 역량을 정확하게 측정할 수 있음을 입증함으로써, 향후 NLP 평가 방법론의 중요한 전환점이 될 것으로 기대됩니다.