Skeleton-based Coherence Modeling in Narratives

Each language version is independently generated for its own context, not a direct translation.

📖 1. 연구의 배경: "글의 흐름"이란 무엇일까?

글을 읽을 때 우리는 문장들이 자연스럽게 연결되는지 직관적으로 느낍니다. 하지만 컴퓨터에게 "이 두 문장은 잘 이어지는가?"라고 물어보는 것은 매우 어렵습니다.

연구자들은 최근 등장한 **'뼈대 (Skeleton)'**라는 개념에 주목했습니다.

비유: 글을 인간에 비유한다면, '뼈대'는 그 사람의 뼈와 근육만 남긴 상태입니다. 살 (부수적인 단어) 은 다 벗겨내고 핵심 구조만 남긴 거죠.
가설: "사람이 글을 쓸 때 살 (부수적인 말) 보다 뼈 (핵심 아이디어) 를 먼저 잡습니다. 그렇다면 글의 흐름을 판단할 때도 뼈대만 비교하면 더 정확하지 않을까?"라고 생각했습니다.

🛠️ 2. 연구 방법: "SSN"이라는 새로운 감별사

연구자들은 두 문장 (또는 두 뼈대) 이 서로 얼마나 닮았는지, 그리고 잘 이어지는지 판단하는 **'문장/뼈대 유사도 네트워크 (SSN)'**라는 새로운 AI 모델을 만들었습니다.

기존 방법 (비유): 두 문장을 비교할 때 단순히 단어의 나열만 보고 "이게 비슷해?"라고 묻는 것 (코사인 유사도 등).
새로운 방법 (SSN): 두 문장을 AI 가 깊게 읽고, "이 두 문장은 이야기의 맥락상 잘 어울리는 친구인가?"라고 판단하게 훈련시켰습니다.

🧪 3. 실험 과정: 뼈대 vs 전체 문장

연구팀은 두 가지 시나리오로 실험을 진행했습니다.

뼈대만 비교하기: 문장의 살을 다 벗겨낸 '핵심 뼈대'만 주고, 이것이 잘 이어지는지 판단하게 함.
원래 문장 비교하기: 살과 뼈가 모두 있는 '원래 문장' 전체를 주고 판단하게 함.

그리고 두 가지 테스트를 했습니다.

문장 순서 테스트: "A 문장 다음에 B 문장이 오는 게 자연스러운가?"
스토리 순서 테스트: "이야기 전체의 순서가 뒤죽박죽인지, 원래 순서인지 구별할 수 있는가?"

📉 4. 놀라운 결과: "뼈대"는 실패했다?

연구자들은 뼈대가 핵심 아이디어를 담고 있으니 더 잘할 거라고 예상했습니다. 하지만 결과는 정반대였습니다.

결과: 원래 문장 전체를 보는 모델이 뼈대만 보는 모델보다 훨씬 잘했습니다.
- 문장 순서 맞추기: 원래 문장 (92%) vs 뼈대 (84%)
- 이야기 순서 맞추기: 원래 문장 (69%) vs 뼈대 (62%)

왜 그랬을까요? (두 가지 이유)

뼈대 추출의 오류: 뼈대를 뽑아내는 과정 자체가 복잡한 AI 모델이 하는 일인데, 이 과정에서 이미 정보가 손실되거나 오류가 생길 수 있습니다. (비유: 뼈를 뽑는 의사가 실수를 하면, 그 뼈대로 진단을 내리는 것은 무의미합니다.)
맥락의 부재: 뼈대는 핵심 단어만 남긴 짧은 덩어리입니다. 단어의 순서나 뉘앙스 같은 '살'이 사라지면, AI 가 두 문장의 연결 고리를 찾기 어려워집니다.
- 비유: "사과를 먹었다" (뼈대) 와 "사과를 먹었다" (뼈대) 는 비슷해 보일 수 있지만, "아침에 사과를 먹었다"와 "아침에 사과를 먹었다"가 이어지는지, 아니면 "아침에 사과를 먹었다"와 "저녁에 사과를 먹었다"가 이어지는지 판단하려면 '아침', '저녁' 같은 살 (부수적 정보) 이 꼭 필요합니다.

💡 5. 결론 및 시사점

이 연구는 **"글의 일관성을 판단하려면 핵심 뼈대만 보는 게 아니라, 문장 전체의 맥락과 뉘앙스를 모두 봐야 한다"**는 것을 증명했습니다.

현재 기술의 방향: 이미 많은 AI 모델들이 문장 전체를 처리하는 방향으로 가고 있는데, 이 연구는 그 방향이 맞았음을 확인시켜 주었습니다.
주의할 점: 뼈대 추출 기술이 아직 완벽하지 않기 때문에, 일관성 판단에는 오히려 방해가 될 수 있습니다.

🔮 6. 앞으로의 과제

긴 글로 확장하기: 현재 실험은 짧은 이야기 (6 문장 이내) 로만 진행되었습니다. 긴 소설이나 보고서처럼 문장이 16 개 이상인 긴 글에서는 결과가 달라질 수도 있습니다.
더 똑똑한 주의 집중: 연구진은 '주의 메커니즘 (Self-attention)'을 도입해 중요한 단어에 집중하게 했지만, 아직은 큰 효과를 보지 못했습니다. 더 발전된 기술 (트랜스포머 등) 을 적용하면 더 나아질 것입니다.

한 줄 요약:

"글의 흐름을 판단할 때 핵심 뼈대만 남기는 건 너무 단순한 접근입니다. 문장의 살 (부수적 정보) 과 뼈가 어우러진 전체 문장을 봐야만 AI 가 진짜 '일관성'을 제대로 이해할 수 있습니다."

Each language version is independently generated for its own context, not a direct translation.

논문 요약: 서사적 텍스트의 일관성 모델링을 위한 스키럼 (Skeleton) 기반 접근법

1. 문제 정의 (Problem)

자연어 처리 (NLP) 에서 텍스트의 **일관성 (Coherence)**을 모델링하는 것은 텍스트의 주제와 논리가 독자에게 어떻게 연결되는지를 이해하는 핵심 과제입니다. 기존 연구들은 문장 간의 일관성을 평가하거나 일관성이 깨진 텍스트를 감지하는 데 집중해 왔습니다. 최근 Jingjing Xu 등 (EMNLP 2018) 은 서사 생성 (Narrative Generation) 시 문장의 핵심 개념 (개체, 관계, 사건 등) 을 추출한 **'스키럼 (Skeleton)'**을 사용하여 다음 문장을 생성하는 모델을 제안했습니다.

이 논문은 이러한 전제에서 출발하여 다음과 가설을 검증합니다:

"이전 문장의 스키럼을 기반으로 다음 문장을 생성하는 것이 일관된 이야기 생성에 효과적이라면, **연속된 문장 간의 스키럼 유사성 (Skeleton Similarity)**이 텍스트의 일관성을 평가하는 좋은 지표가 될 수 있을까?"

즉, 생성 모델 (Generative Model) 로서 작동하는 스키럼 기반 접근법을 **판별 모델 (Discrimative Model)**로 전환하여, 주어진 텍스트의 일관성을 평가하고 불일치하는 문장을 탐지하는지 연구합니다.

2. 방법론 (Methodology)

저자들은 문장 쌍 간의 유사성을 평가하기 위해 **문장/스키럼 유사성 네트워크 (Sentence/Skeleton Similarity Network, SSN)**를 제안했습니다.

모델 아키텍처:
- 입력: 두 문장 (또는 두 스키럼) 의 단어 임베딩 시퀀스.
- 인코더: Long Short-Term Memory (LSTM) 네트워크를 사용하여 시퀀스를 고정 길이 벡터 (Sentence Embedding) 로 변환합니다.
- 어텐션 (Self-Attention): 일부 실험에서 LSTM 출력에 자기 어텐션 (Self-Attention) 메커니즘을 추가하여 문장 수준의 임베딩 품질을 향상시키려 시도했습니다.
- 손실 함수 (Loss Function): 대비 손실 (Contrastive Loss) 을 사용합니다. 유사한 쌍 (연속된 문장) 은 거리를 줄이고, 비유사한 쌍 (무작위 문장) 은 거리를 늘리도록 학습합니다.
  - 에너지 함수 $E_w$ 는 두 임베딩의 정규화된 코사인 유사도로 정의됩니다.
  - $L_{pos}$ (유사한 경우) 와 $L_{neg}$ (비유사한 경우) 를 조합하여 전체 손실을 계산합니다.
- 임베딩: FastText 단어 임베딩을 사용하여, 스키럼이 원문에서 연속되지 않는 단어 집합이라는 특성을 고려하고 고품질 임베딩을 활용합니다.
데이터셋 및 실험 설정:
- 데이터: 스토리텔링 데이터셋 (40,153 개의 훈련, 4,990 개의 검증, 5,054 개의 테스트 스토리; 각 스토리 최대 6 문장).
- 데이터 구성:
  1. 문장 쌍 (Sentence Pairs): 실제 스토리의 연속된 문장 (레이블 1) vs. 다른 스토리의 무작위 문장 (레이블 0).
  2. 스토리 쌍 (Story Pairs): 원래 순서의 스토리 vs. 문장 순서가 뒤섞인 (Jumbled) 스토리.
- 비교 대상:
  1. 비모수적 유사도 측정 (코사인 유사도, 유클리드 거리) 을 사용하는 베이스라인.
  2. 스키럼 대신 **원문 (Raw Sentence)**을 입력으로 사용하는 동일한 SSN 구조.

3. 주요 결과 (Results)

실험은 세 가지 지표 (문장 순서 감지, 스토리 순서 감지, 문장 쌍 분류) 로 평가되었습니다.

비모수적 방법 vs. 신경망 모델:
- BERT 임베딩 평균을 사용한 코사인 유사도나 유클리드 거리보다, 신경망 기반 SSN 모델이 일관성 평가에서 훨씬 우수한 성능을 보였습니다. (예: 문장 순서 정확도 68~71% vs. SSN 92% 이상).
문장 (Sentence) vs. 스키럼 (Skeleton):
- 핵심 발견: 가설과 달리, 원문 (Sentence) 기반 모델이 스키럼 기반 모델보다 일관성 평가에서 일관되게 더 좋은 성능을 발휘했습니다.
  - 문장 순서 정확도: 문장 기반 SSN (약 92.9%) > 스키럼 기반 SSN (약 84.2%).
  - 스토리 순서 정확도: 문장 기반 SSN (69.6%) > 스키럼 기반 SSN (62.9%).
  - 문장 쌍 분류: 문장 기반 (82.2%) > 스키럼 기반 (73.8%).
어텐션 메커니즘의 영향:
- 자기 어텐션 (Self-Attention) 을 추가한 모델이 성능을 크게 향상시키지는 못했습니다. 이는 제한된 컴퓨팅 자원과 시간 제약으로 인해 2 층 LSTM + 어텐션 모델을 사용했으나, 어텐션 없는 3 층 LSTM 모델과 비교했을 때 차이가 없었기 때문입니다.

4. 분석 및 원인 (Analysis)

왜 스키럼이 기대만큼 성능이 나오지 않았을까요? 저자들은 다음과 같은 이유를 제시합니다.

스키럼 추출의 품질 문제: 스키럼 자체가 복잡한 신경망 (Input-to-Skeleton) 을 통해 추출되므로, 추출 과정에서의 오류나 정보 손실이 일관성 모델링 성능에 직접적인 악영향을 미칩니다.
정보의 불완전성: 스키럼은 원문의 핵심 단어만 포함하며, 단어의 순서와 문맥적 관계가 희미해집니다. 반면, 완전한 문장은 단어의 전체 집합과 순서를 가지고 있어 문장 간의 유사성을 더 정확하게 판단할 수 있습니다.

5. 결론 및 의의 (Conclusion & Significance)

결론: 텍스트의 일관성을 모델링할 때, 핵심 키워드만 추출한 '스키럼'보다는 완전한 '문장 (Sentence)' 자체가 더 효과적인 입력 표현임이 입증되었습니다. 이는 현재 일관성 모델링 연구가 문장 단위를 다루는 방향으로 나아가고 있다는 점을 지지합니다.
의의:
- 스키럼 기반 생성 모델의 아이디어를 판별 모델로 확장하여 텍스트 품질 평가에 적용한 새로운 시도입니다.
- 신경망 기반 유사도 네트워크 (SSN) 가 기존 비모수적 방법보다 일관성 감지에 훨씬 효과적임을 보였습니다.
- 스키럼이 일관성 평가에는 부적합할 수 있음을 실증적으로 보여줌으로써, 향후 연구 방향에 대한 통찰을 제공합니다.

6. 향후 작업 (Future Work)

더 긴 텍스트 (에세이, 보고서 등) 를 포함한 대규모 데이터셋에서의 평가.
Transformer 기반의 복잡한 어텐션 메커니즘 적용.
전체 스토리가 뒤섞인 경우뿐만 아니라, 텍스트 내 일부 문장만 불일치하는 경우를 탐지하는 실제 응용 (예: 자동 교정 도구) 개발.

이 논문은 NLP 의 일관성 모델링 분야에서 "단어/구문 수준의 추상화 (스키럼)"가 항상 더 좋은지, 아니면 "완전한 문맥 (문장)"이 더 중요한지에 대한 중요한 실증적 증거를 제시했습니다.