"지구라는 행성을 본 적이 없는 외계인에게 '커피'라는 단어를 설명한다고 상상해 보세요.

일반적인 사전을 사용한다면, 이렇게 말할지도 모릅니다: "커피는 볶은 콩으로 만든 짙고 쓴 액체입니다." 이는 사실이지만, 지루합니다. 핵심을 놓치고 있는 것이죠.

이 논문에서 설명하는 방법을 사용하면, 단순히 액체를 정의하는 것이 아니라 장면을 묘사하게 됩니다. 이렇게 말할 것입니다: "아침에 책상에 앉아 피곤하지만 의욕에 찬 사람을 상상해 보세요. 그들이 이 뜨거운 액체를 한 모금 마시자마자, 갑자기 경계심이 생기고 큰 프로젝트를 처리할 준비가 된 것처럼 느껴집니다. 방 안은 집중되고 에너지가 넘치는 기분이 듭니다."

'장면 추상화 (Scene Abstraction)'라는 제목의 이 논문은, 단어의 의미를 진정으로 이해하려면 사전 정의뿐만 아니라 이러한 '장면'을 포착해야 한다고 주장합니다.

일상적인 비유를 들어 그들이 어떻게 이를 수행했고 무엇을 발견했는지 간단히 설명해 보겠습니다.

1. 문제: '사전 vs 영화'

'까마귀 (crow)'라는 새와 같은 단어를 생각해 보세요.

사전적 관점: 큰 검은 새.
영화적 관점: 때로는 밤에 음산하고 고요한 숲에 나타나 죽음이나 불운을 예고하기도 합니다. 다른 때는 햇살이 비치는 정원에서 아이가 먹이를 주는 모습으로 나타나 평화롭고 향수 어린 기억을 상징하기도 합니다.

사전은 사물을 알려주지만, 분위기는 놓칩니다. 언어를 이해하는 현재의 컴퓨터 프로그램 (챗봇을 구동하는 것들) 은 텍스트를 읽는 데 뛰어나지만, '까마귀'나 '커피'와 같은 단어를 단순히 그 단어 주변에 등장하는 다른 단어들의 목록처럼 취급하는 경향이 있습니다. 상황의 분위기나 느낌을 포착하는 데는 어려움을 겪습니다.

2. 해결책: '장면 스냅샷'

저자들은 **장면 추상화 (Scene Abstraction)**라는 새로운 프레임워크를 개발했습니다. 그들은 똑똑한 AI(대규모 언어 모델) 에게 영화 감독처럼 행동하게 하여, 한 문장을 보고 전체 상황의 '스냅샷'을 찍게 했습니다.

이 스냅샷을 두 부분으로 나누었습니다:

맥락적 장면 (배경): 누가 있는가? 날씨는 어떤가? 시간은 언제인가? 분위기는 어떤가? (예: "늦은 밤 부엌에 있는 외로운 남자.")
표현 프로파일 (주연의 역할): 특정 단어가 이 장면에서 어떻게 들어맞는가?
- 무엇을 하고 있는가? (예: 위스키가 혼자 마셔지고 있다.)
- 무엇을 나타내는가? (예: 위안이나 슬픔을 나타낸다.)
- 어떤 감정을 불러일으키는가? (예: 우울함.)

비유: 당신이 형사라고 상상해 보세요. 일반적인 컴퓨터는 범죄 현장을 보고 사물 목록을 나열합니다: "총, 테이블, 피." 이 새로운 방법은 장면을 보고 이야기를 씁니다: "총은 절박한 순간에 사용되었다; 테이블에서는 마지막 다툼이 있었다; 피는 갑작스럽고 폭력적인 종말을 시사한다."

3. 실험: '이질적인 것 찾기' 게임

이 아이디어가 작동하는지 테스트하기 위해 연구자들은 인간 자원봉사자와 게임을 했습니다.

그들은 '불'이나 '화장실'과 같은 같은 단어가 포함된 다섯 개의 문장을 사람들에게 보여주었습니다. 네 개의 문장은 비슷한 '장면'(예: 아늑한 벽난로) 을 묘사했지만, 한 문장은 완전히 다른 장면(예: 집 화재) 을 묘사했습니다.

과제: 인간들은 '이질적인 것 (odd one out)'을 골라야 했습니다.
테스트: 그들은 또한 컴퓨터에게 두 가지 다른 방법을 사용하여 이질적인 것을 고르게 했습니다:
1. 구식 방법: 원본 텍스트만 보는 것.
2. 신식 방법: '장면 스냅샷'(사건, 감정, 배경의 구조화된 설명) 을 보는 것.

결과:

인간은 이 작업에 매우 능숙했습니다 (약 82% 정확도).
'구식 방법' 컴퓨터는 나쁘지 않았지만 훌륭하지는 않았습니다 (약 57% 정확도).
'신식 방법' 컴퓨터, 즉 장면 스냅샷을 사용한 컴퓨터는 훨씬 더 나아졌습니다 (약 69% 정확도).

의미: 컴퓨터가 단순히 단어를 읽는 것을 멈추고 그 단어가 만들어낸 상황을 이해하기 시작했을 때, 인간의 직관에 더 가까워졌습니다.

4. 비교: '구체적인 이야기' vs '일반 백과사전'

두 번째 실험에서 그들은 인간에게 특정 문장 속 단어의 어떤 설명이 더 나은지 판단하도록 요청했습니다. 그들은 그들의 '장면 스냅샷'을 일반적인 상식 데이터베이스인 ATOMIC과 비교했습니다.

장면 스냅샷 (그들의 방법): 특정 순간에 초점을 맞춥니다. 문장이 "그는 혼자 위스키를 마셨다"였다면, 스냅샷은 "이것은 외로움과 대처를 나타낸다"고 말합니다.
백과사전 (ATOMIC): 일반적인 사실에 초점을 맞춥니다. "위스키는 곡물로 만든 알코올 음료이다"라고 말합니다.

판단: 인간들은 압도적으로 장면 스냅샷을 선호했습니다 (약 86% 의 경우). 그들은 그것이 그 특정 순간에서 단어의 진짜 의미를 포착했다고 느낀 반면, 백과사전은 너무 일반적이고 감정적인 포인트를 놓친다고 느꼈습니다.

요약

이 논문은 단어들이 정적인 정의가 아니라 연극 속의 역동적인 배우라고 제안합니다. 이를 이해하려면 배우의 이름뿐만 아니라 무대, 다른 배우들, 그리고 분위기를 묘사해야 합니다.

컴퓨터에게 이러한 '장면 스냅샷'을 생성하도록 가르침으로써, 연구자들은 기계들이 실제 생활에서 인간이 실제로 느끼고 단어를 해석하는 방식에 훨씬 더 가까워질 수 있음을 보여주었습니다. 그들은 컴퓨터의 읽기 능력을 더 똑똑하게 만든 것이 아니라, 상상하는 능력을 더 똑똑하게 만들었습니다.

기술적 요약: 어휘 의미론을 위한 장면 추상화

1. 문제 제기

현재 어휘 의미의 계산적 표현은 단어의 상황적, 해석적 차원을 포착하는 데 어려움을 겪고 있습니다. 사전적 정의가 (예: "까마귀"를 새라고 하는 것) 지시적 내용을 제공하지만, 문맥에서 단어가 어떻게 이해되는지를 형성하는 반복적인 상황 패턴, 분위기, 그리고 정서적 연상 (예: "까마귀"가 침묵, 고립, 또는 죽음의 상징을 불러일으키는 것) 을 인코딩하지는 못합니다.

기존 접근법에는 한계가 존재합니다:

프레임 의미론 (예: FrameNet): 술어 - 논항 구조와 사전 정의된 의미 프레임을 중점적으로 다루며, 분위기나 정서와 같은 개방적이고 문맥에 따라 변하는 차원을 포착할 유연성이 부족합니다.
분포적/문맥적 모델: 의미 구조를 조밀한 벡터 내에 암묵적으로 인코딩하여, 사건 구조, 참여자 역할, 그리고 정서적 연상을 직접 검사하거나 비교하기 어렵게 만듭니다.
지시 조정 LLM: 강력한 문맥 이해 능력을 보여주지만, 체계적으로 집계하거나 사용 사례 간에 비교하기 어려운 비구조화된 자유 형식의 산문을 생성합니다.

핵심적인 과제는 사전 정의된 온톨로지나 불투명한 벡터 공간에 의존하지 않고, 특정 문맥에서 단어 의미를 정의하는 구조화된 해석적 규칙성을 계산적으로 구현하는 것입니다.

2. 방법론: 장면 추상화 프레임워크

저자들은 $u$ 를 사용 문맥, $x$ 를 대상 표현이라고 할 때, $S(u, x)$ 로 표기되는 해석적 장면에 대한 구조화된 분포로서 어휘 의미를 모델링하는 장면 추상화 (Scene Abstraction) 프레임워크를 제안합니다. 이 프레임워크는 두 가지 상호 보완적인 구성 요소로 이루어져 있습니다:

2.1 구조적 구성 요소

문맥적 장면 ( $C$ ): 대상 단어와 무관한 광범위한 상황적 해석을 포착합니다. 여기에는 다음이 포함됩니다:
- 사건: 익명화된 레이블 (예: PersonX, ObjectY) 을 사용하여 추상화된 행동/상호작용.
- 개체: 역할, 속성, 정서적 상태로 특징지어지는 주요 참여자/객체.
- 배경: 공간적, 시간적, 그리고 분위기적 배경.
표현 프로파일 ( $E$ ): 대상 표현 중심의 구성 요소로, 장면 기반의 $x$ $x$ 의 의미를 포착합니다. 여기에는 다음이 포함됩니다:
- 참여 사건: $x$ 가 중심적인 역할을 하는 사건.
- 일반화 가능한 속성: 장면 문맥에 특화된 $x$ 의 의미적 속성.
- 유발된 감정: 장면 내에서 $x$ 에 의해 촉발된 정서적 연상.

2.2 구현

이 프레임워크는 대형 언어 모델 (LLM, 구체적으로 gpt-4o-mini) 의 **퓨샷 프롬핑 (few-shot prompting)**을 통해 구현됩니다.

프롬프트 설계: 시스템은 네 가지 추상화 원칙을 갖춘 구조화된 프롬프트를 사용합니다:
- 일반화: 고유 명사를 역할 기반 레이블 (예: PersonX) 로 대체.
- 세부 사항 생략: 상황적 해석과 무관한 내러티브 세부 사항 제거.
- 해석 가능성: 코드 대신 자연어 구문으로 출력.
- 문맥 민감성: 프로파일이 일반적인 사전 정의가 아닌 특정 사용 사례를 설명하도록 보장.
임베딩: 구조화된 출력은 자연어 문자열로 직렬화되어 SentenceBERT (all-mpnet-base-v2) 를 사용하여 인코딩되며, 하류 비교를 위한 조밀한 벡터 표현을 생성합니다.

3. 주요 기여

본 논문은 세 가지 주요 기여를 제시합니다:

구조화된 표현 프레임워크: 프레임 의미론, 분포적 접근법, 그리고 LLM 생성 능력을 연결하는 상황적 어휘 의미를 위한 2 층 스키마 ( $C$ 와 $E$ ).
COCA-Scenes 데이터셋: 현대 미국 영어 코퍼스 (COCA) 의 소설 장르에서 수동으로 선별된 26 개 키워드 (예: 까마귀, 위스키, 욕실) 에 걸친 520 개의 사용 사례로 구성된 새로운 데이터셋. 이 데이터셋은 키워드당 네 가지 고유의 장면 유형이 정의되어 장면 수준의 평가를 지원하도록 설계되었습니다.
실증적 검증: 장면 기반 표현이 인간에 의해 신뢰성 있게 식별 가능하며, 기존 상식 기반선보다 인간의 해석과 더 밀접하게 일치한다는 두 가지 실험의 증거.

4. 실험 결과

실험 1: 이상 장면 찾기 작업 (구성 타당성)

작업: 주석 작성자들은 공통된 대상 키워드를 공유하지만 상황적으로 구별되는 장면을 묘사한 다섯 문장 중 "이상한" 문장을 식별했습니다.
인간 수행: 82.37% 의 정확도 (무작위 추측 20% 대비) 를 달성했으며, 상당한 주석자 간 일치 (Gwet's AC1 = 0.761) 를 보여 장면 수준의 구별이 공유되고 신뢰할 수 있는 구조임을 확인했습니다.
계산적 수행:
- 텍스트 전용 기반선: 57.5% 정확도.
- 장면 기반 표현 (텍스트 + 장면): 69.3% 정확도 (기반선 대비 11.8% 포인트 향상).
- 장면 전용 (원본 텍스트 없이 추상화된 특징): 62.7% 정확도. 이는 추상화된 장면 특징이 이상치를 식별하는 데 충분한 의미적 무게를 지니고 있음을 보여줍니다.
- 구성 요소 분석: 일반화 가능한 속성이 가장 차별적인 특징으로 입증되었습니다 (66.1% 정확도).

실험 2: 인간 선호도 연구 (정렬)

작업: 주석 작성자들은 문맥 내 단어에 대한 인간의 해석과의 정렬 여부에 관해 LLM 생성 장면 프로파일과 ATOMIC 기반 프로파일 (상식 지식 그래프 기반선) 을 비교했습니다.
결과:
- 선호도: 세 가지 차원 (참여 사건, 일반화 가능한 속성, 유발된 감정) 에 걸쳐 유효한 평가의 **86.4%**에서 장면 프로파일이 선호되었습니다.
- 만족도: 장면 프로파일은 평균 약 4.7 의 만족도 점수를 받아 ATOMIC 프로파일 (평균 약 4.0–4.4) 보다 현저히 높았습니다.
- 정성적 차이: 장면 프로파일은 간결하고 문맥적으로 정확하다는 칭찬을 받았습니다. 반면 ATOMIC 프로파일은 verbose(불필요하게 길고), 중복적이거나, "위스키는 곡물로 만들어진다"와 같은 유형 수준의 일반화를 제공하는 대신 "위스키는 고독을 의미한다"와 같은 장면 특정적 통찰을 제공하지 못한다는 비판을 받았습니다.
- 실패 모드: 장면 프로파일은 때때로 과도한 해석 (텍스트에서 지지되지 않는 속성을 추론) 이나 정보 부족 (너무 희박함) 에 시달렸으며, 특히 입력 문맥이 모호할 때 두드러졌습니다.

5. 의의 및 주장

본 논문은 장면 추상화가 암묵적인 상황 지식을 명시적이고 구조화되며 계산적으로 접근 가능한 표현으로 성공적으로 외부화한다고 주장합니다.

상황적 의미의 검증: 실험 1 에서의 높은 인간 일치도는 "장면"이 단순히 주관적인 해석이 아니라, 인간이 단어 의미를 처리하는 방식에서 공유되고 차별적인 구조를 반영함을 시사합니다.
기반선 대비 우월성: 이 프레임워크는 상황적 구별을 포착하는 데 원시 텍스트 임베딩보다 우수하며, 인간의 해석과 정렬하는 데 있어 ATOMIC 기반 상식 프로파일보다 우수합니다. 이는 인스턴스 수준의 장면 기반이 유형 수준의 관계 스키마보다 어휘 의미론에 더 효과적임을 나타냅니다.
해석 가능성: 조밀한 벡터와 달리, 장면 스키마는 연구자들이 의미의 특정 차원 (사건, 속성, 감정) 을 독립적으로 검사할 수 있게 합니다.

저자들은 겸손한 입장을 견지하며, 이 프레임워크가 인지 처리의 직접적인 모델이 아니라 표현 및 분석 도구임을 인정합니다. 그들은 잠재적인 LLM 편향, 정서적 추론의 주관적 성격, 그리고 현재 검증이 영어 소설로 제한된 점에 대한 한계를 지적합니다. 향후 연구는 은유적 언어와 유형 수준 의미론을 위한 장면 집계로 제안되지만, 논문은 이러한 연구 방향을 넘어 구체적인 새로운 응용 프로그램을 제안하지는 않습니다.

Scene Abstraction for Lexical Semantics: Structured Representations of Situated Meaning