NCL-UoR at SemEval-2026 Task 5: Embedding-Based Methods, Fine-Tuning, and LLMs for Word Sense Plausibility Rating

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"말의 뉘앙스를 얼마나 자연스럽게 들리는지 1 점부터 5 점까지 점수를 매기는 게임"**에 대한 연구 결과입니다. 영어로 된 짧은 이야기 속에 '중의적 단어' (한 단어에 여러 뜻이 있는 말) 가 등장할 때, 그 단어가 문맥상 어떤 뜻으로 쓰였는지, 그리고 그 뜻이 얼마나 자연스러운지 인간이 어떻게 느끼는지를 AI 가 예측하는 과제입니다.

이 연구를 NCL-UoR 팀이 수행했는데, 세 가지 다른 방법을 비교해 보았습니다. 마치 세 명의 요리사가 같은 재료를 가지고 최고의 요리를 만들어보려는 상황과 비슷합니다.

1. 세 명의 요리사 (세 가지 방법)

① 첫 번째 요리사: '비교만 하는 요리사' (Embedding-Based Methods)

방식: 이 요리사는 이야기를 읽고 단어의 뜻을 '숫자'로 바꾼 뒤, 두 숫자가 얼마나 비슷한지 (거리, 각도 등) 계산합니다. 그런 다음 전통적인 수학 공식 (회귀 분석) 을 써서 점수를 냅니다.
비유: 마치 레고 블록을 보고 "이 블록과 저 블록의 모양이 얼마나 비슷하냐"만 재서 전체 구조를 예측하는 것과 같습니다.
결과: 실패. 이야기의 흐름이나 맥락을 이해하지 못해 점수가 매우 낮게 나왔습니다. 단순히 단어와 단어의 '거리'만으로는 이야기의 전체적인 분위기를 파악할 수 없었습니다.

② 두 번째 요리사: '공부하는 요리사' (Transformer Fine-Tuning)

방식: 이 요리사는 이미 수많은 책을 읽은 거대한 AI 모델 (ELECTRA, DeBERTa 등) 을 가져와서, 이 특정 게임 규칙에 맞춰 특별히 훈련 (Fine-tuning) 시켰습니다. 훈련할 때는 "사람들이 의견이 갈릴 때는 점수를 덜 주자"거나 "순서대로 점수를 잘 매기자"는 추가 규칙을 가르쳤습니다.
비유: 전문 요리 학교에 가서 이 게임에 특화된 레시피를 외우고 연습하는 방식입니다.
결과: 나쁘지 않았지만 한계가 있음. 훈련된 데이터에서는 잘했지만, 완전히 새로운 이야기 (테스트 데이터) 가 나오면 조금씩 헷갈리는 모습을 보였습니다.

③ 세 번째 요리사: '논리적으로 생각하는 요리사' (LLM Prompting)

방식: 이 요리사는 훈련을 시키지 않았습니다. 대신 AI 에게 **"이렇게 생각해보라"**는 아주 구체적인 지시서 (프롬프트) 를 주었습니다.
- "이야기의 시작, 중간, 끝을 따로따로 평가해라."
- "결론 (끝) 이 단어 뜻과 정반대라면 점수를 1~2 점으로 낮춰라."
- "모호하면 낮은 점수를 줘라."
비유: 명예로운 심사위원에게 "이렇게 심사 기준을 따져라"라고 명확한 가이드라인을 주고, AI 가 그 가이드라인대로 논리적으로 판단하게 한 것입니다.
결과: 압도적인 1 위! 훈련을 시킨 다른 요리사들보다 훨씬 더 인간과 비슷한 점수를 매겼습니다.

2. 핵심 발견: "무엇을 먹이는가"보다 "어떻게 말하느냐"가 중요하다

이 연구에서 가장 놀라운 점은 모델의 크기 (스케일) 보다는 '지시서 (프롬프트) 의 설계'가 훨씬 중요했다는 것입니다.

비유: 거대한 식재료를 가진 큰 주방 (거대 AI 모델) 보다, 명확한 조리법 (구조화된 지시서) 을 가진 작은 주방이 더 맛있는 요리를 만들었습니다.
GPT-4o 라는 모델에 "이야기를 시작, 중간, 끝으로 나누고, 결론이 모순되면 점수를 깎아라"라는 구체적인 규칙을 주니, 더 최신이고 큰 모델 (GPT-5 등) 보다 더 좋은 성적을 냈습니다.

3. 왜 어려웠을까? (오류 분석)

AI 가 실수한 경우를 보니 재미있는 패턴이 있었습니다.

중간 점수가 가장 어렵다: 1 점 (완전 어색함) 이나 5 점 (완전 자연스러움) 은 쉽게 맞췄지만, 3~4 점 사이의 '애매한' 상황에서 가장 많이 틀렸습니다. 인간도 애매할 때 의견이 갈리는데, AI 는 더 헷갈려 했습니다.
시작과 끝의 싸움: 이야기의 시작 부분이 단어의 한 뜻을 강력하게 암시하고, 끝 부분이 다른 뜻을 암시할 때 AI 는 혼란을 겪었습니다. 예를 들어, "도서관"에서 시작하면 '책' 관련 뜻으로 생각하다가, 끝에서 "책장"이 나오면 다시 '책장' 관련 뜻으로 넘어가야 하는데, AI 는 시작 부분에 너무 매몰되어 끝을 무시하는 실수를 했습니다.

4. 결론: 무엇이 승자였나?

이 팀이 만든 최고의 시스템은 거대한 AI 모델을 훈련시키는 것이 아니라, AI 에게 "이렇게 생각하라"는 명확한 논리 규칙 (구조화된 프롬프팅) 을 준 것이었습니다.

핵심 메시지: 복잡한 문제를 풀 때, 무조건 더 큰 두뇌 (모델) 를 쓰는 것보다 문제를 어떻게 쪼개고 (분해), 어떤 규칙으로 판단할지 (규칙) 를 명확히 하는 것이 훨씬 효과적입니다.

이 연구는 AI 가 단순히 데이터를 외우는 것을 넘어, 논리적으로 사고하고 규칙을 따르는 능력이 실제 언어 이해 과제에서 얼마나 중요한지를 보여줍니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Definition)

이 논문은 SemEval-2026 Task 5에 참여하여 단어 의미 확신도 평가 (Word Sense Plausibility Rating) 과제를 다룹니다.

과제 내용: 모호한 동음이의어 (homonym) 가 포함된 5 문장짜리 짧은 서사 (narrative) 가 주어졌을 때, 특정 단어 의미 (candidate word sense) 가 문맥상 얼마나 타당한지를 1~5 점 척도로 예측하는 것입니다.
데이터셋: AmbiStory 데이터셋을 사용하며, 각 스토리는 배경 설정 (precontext), 동음이의어가 포함된 목표 문장 (target sentence), 그리고 의미를 명확히 하거나 반박하는 결말 (ending) 로 구성됩니다.
전통적 WSD 와의 차이: 기존 단어 의미 분해 (WSD) 가 하나의 정답을 선택하는 이진 분류 문제였다면, 본 과제는 문맥에 따라 여러 의미가不同程度的로 타당할 수 있다는 점을 인정하고 회귀 (Regression) 문제로 접근합니다.

2. 방법론 (Methodology)

저자들은 세 가지 주요 접근 방식을 체계적으로 비교 및 분석했습니다.

(1) 임베딩 기반 방법 (Embedding-Based Methods)

원리: 문장 임베딩 (Sentence Embeddings) 을 추출하여 전통적인 회귀 모델 (Regressors) 과 결합합니다.
구현:
- MPNet 또는 RoBERTa 를 사용하여 스토리와 단어 의미 설명을 임베딩합니다.
- 코사인 유사도, 유클리드 거리, 내적, 텍스트 길이, 문장 구조 등 8~23 개의 특징 (features) 을 추출합니다.
- 추출된 특징을 Ridge Regression 또는 XGBoost 에 입력하여 점수를 예측합니다.
한계: 정적 유사도 메트릭만으로는 서사적 맥락의 복합적 추론을 포착하지 못함을 발견했습니다.

(2) 트랜스포머 파인튜닝 (Transformer Fine-Tuning)

원리: 사전 학습된 언어 모델을 LoRA (Low-Rank Adaptation) 를 통해 파라미터 효율적으로 미세 조정합니다.
모델: ELECTRA, DeBERTa-large 등을 사용했습니다.
고도화 전략:
- 입력 포맷: [의미] [SEP] [스토리] 형식으로 입력합니다.
- 손실 함수 (Loss Functions):
  - RankNet (Pairwise Loss): 스페어만 상관관계 (Spearman correlation) 를 최적화하기 위해 샘플 쌍의 순위 관계를 학습합니다.
  - Uncertainty-aware Loss: 주석자 간의 의견 불일치 (표준편차) 를 고려하여, 인간이 동의하지 않는 영역의 오차에 대한 패널티를 줄이는 손실 함수를 도입했습니다.
- 풀링 (Pooling): [CLS] 토큰뿐만 아니라 모든 토큰에 대한 평균 풀링 (Mean Pooling) 을 적용하여 강건성을 높였습니다.

(3) LLM 프롬프팅 (LLM Prompting)

원리: 대규모 언어 모델 (LLM) 을 미세 조정 없이 프롬프트 엔지니어링으로 활용합니다.
전략 비교:
- Few-Shot Prompting (P1): 학습 데이터의 예시 (1~5 점별 1 개씩) 를 제공하여 모델에게 태스크를 학습시킵니다.
- 구조화된 프롬프팅 (Structured Prompting, P2): 예시 대신 명시적인 평가 기준과 의사결정 규칙 (Decision Rules) 을 포함합니다.
  - 구성 요소별 평가: 배경 (precontext), 목표 문장, 결말 (ending) 을 분리하여 각각 타당성을 평가하도록 지시합니다.
  - 규칙 기반 보정: "결말이 의미를 명확히 반박하면 1~2 점", "모호하면 낮은 점수 선택", "5 점에는 결말의 명시적 확인이 필수" 등의 규칙을 적용합니다.
  - 중립적 프레임: 모델이 편견 없이 텍스트에만 기반하여 평가하도록 유도합니다.

3. 주요 결과 (Key Results)

테스트 세트 (Test Set) 에서의 성능은 다음과 같습니다 (Spearman 상관관계 $\rho$ / 정확도 Acc.):

접근 방식	모델/시스템	$\rho$	Acc.	비고
임베딩 기반	MPNet + Ridge	0.109	0.513	성능 저조
파인튜닝	DeBERTa-large + LoRA	0.492	0.676	불확실성 손실 적용 시 0.659
LLM 프롬프팅	GPT-4o (P2)	0.731	0.794	최고 성능
	GPT-5.2 (P2)	0.717	0.760
	GPT-5.2 (P1)	0.635	0.713	Few-shot 대비 P2 가 우월

성능 비교: 구조화된 프롬프팅 (P2) 을 사용한 GPT-4o가 파인튜닝 모델과 임베딩 기반 방법을 압도적으로 상회했습니다.
모델 규모 vs 프롬프트 설계: GPT-4o (P2) 가 더 큰 모델인 GPT-5.2 (P2) 보다 높은 성능을 보였습니다. 이는 이 과제에서 모델의 규모보다 프롬프트 설계 (구조화된 규칙) 가 더 중요함을 시사합니다.
에러 분석:
- 주석자 간 불일치가 큰 샘플 ( $\sigma \ge 1.0$ ) 은 예측 오차가 컸습니다.
- 중간 점수 (3.5~4.5) 구간이 예측이 가장 어려웠으며, 극단적인 점수 (1 또는 5) 는 상대적으로 정확했습니다.
- 치명적 오류: 배경 (precontext) 이 한 의미를 강력하게 암시하지만 결말 (ending) 이 다른 의미를 확인하는 경우, 모델이 배경에 과도하게 의존하여 큰 오차를 범했습니다.

4. 주요 기여 (Key Contributions)

구조화된 프롬프팅 전략의 제안: 단순한 Few-shot 학습을 넘어, 서사의 구성 요소 (배경, 목표, 결말) 를 분리 평가하고 명시적인 의사결정 규칙을 적용하는 프롬프트 설계가 가장 효과적인 해결책임을 입증했습니다.
다양한 접근법의 체계적 비교: 임베딩 기반, 파인튜닝, LLM 프롬프팅 세 가지 패러다임을 동일한 태스크에서 비교하여, 서사적 추론 (narrative reasoning) 에는 LLM 의 추론 능력이 필수적임을 보였습니다.
불확실성 모델링: 파인튜닝 모델에 주석자 불일치를 고려한 손실 함수 (Uncertainty-aware loss) 를 도입하여 성능을 개선하는 시도를 제시했습니다.

5. 의의 및 결론 (Significance & Conclusion)

의미 확신도 평가의 본질: 단어 의미의 타당성은 단순한 유사도 계산이 아니라, 문맥 전체의 흐름 (특히 결말) 을 종합적으로 이해하는 구성적 추론 (compositional reasoning) 이 필요함을 강조했습니다.
실용적 시사점: 대규모 언어 모델을 미세 조정하는 대신, 잘 설계된 프롬프트와 규칙 기반 보정을 통해 더 높은 성능을 달성할 수 있음을 보여주었습니다. 이는 계산 비용 절감과 빠른 배포 가능성 측면에서 중요합니다.
한계: 현재는 영어 AmbiStory 데이터셋에 국한되어 있으며, 프롬프트 형식에 따라 성능이 민감하게 변할 수 있습니다. 향후 파인튜닝 모델과 LLM 을 결합한 앙상블 방법 및 더 복잡한 갈등 상황 처리를 위한 연구가 필요하다고 결론지었습니다.

이 논문은 SemEval 2026 Task 5 에서 GPT-4o 기반의 구조화된 프롬프팅 시스템이 최고 성능을 기록했음을 보고하며, 자연어 처리 과제에서 "어떻게 질문을 던지느냐 (Prompt Design)"가 "어떤 모델을 쓰느냐 (Model Scale)"보다 중요할 수 있음을 보여주는 중요한 사례입니다.

NCL-UoR at SemEval-2026 Task 5: Embedding-Based Methods, Fine-Tuning, and LLMs for Word Sense Plausibility Rating

1. 세 명의 요리사 (세 가지 방법)

2. 핵심 발견: "무엇을 먹이는가"보다 "어떻게 말하느냐"가 중요하다

3. 왜 어려웠을까? (오류 분석)

4. 결론: 무엇이 승자였나?

1. 문제 정의 (Problem Definition)

2. 방법론 (Methodology)

(1) 임베딩 기반 방법 (Embedding-Based Methods)

(2) 트랜스포머 파인튜닝 (Transformer Fine-Tuning)

(3) LLM 프롬프팅 (LLM Prompting)

3. 주요 결과 (Key Results)

4. 주요 기여 (Key Contributions)

5. 의의 및 결론 (Significance & Conclusion)

유사한 논문

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models