Text-as-Signal: Quantitative Semantic Scoring with Embeddings, Logprobs, and Noise Reduction

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"텍스트를 숫자 신호로 바꾸는 방법"**에 대해 설명합니다.

기존에는 뉴스 기사나 문서 같은 텍스트를 컴퓨터가 이해하려면 사람이 직접 읽어서 "이건 좋은 기사야", "이건 위험한 기사야"라고 라벨을 붙여주거나, 복잡한 통계로 무작위하게 분류해야 했습니다. 하지만 이 논문은 **"인간이 직접 해석하지 않아도, 컴퓨터가 텍스트의 '의미'를 숫자 점수로 바로 측정할 수 있다"**는 새로운 방식을 제안합니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

🏭 비유: 거대한 뉴스 공장의 '스마트 센서'

이 논문의 아이디어를 한 편의 공장에 비유해 보겠습니다.

1. 문제: 혼란스러운 뉴스의 바다

상상해 보세요. 1 만 2 천 개의 포르투갈어 뉴스 기사가 한곳에 쏟아져 들어옵니다. 이 기사들은 모두 '인공지능 (AI)'에 대해 이야기하지만, 어떤 것은 "AI 가 세상을 구한다!"라고 기뻐하고, 어떤 것은 "AI 가 위험하다!"라고 경고합니다.
이때 우리가 이 산더미 같은 텍스트를 일일이 읽어서 분류하려면 시간이 너무 오래 걸립니다.

2. 해결책: 텍스트를 '신호'로 변환하는 3 단계 공정

저자는 이 공장에 3 단계의 스마트 센서 시스템을 설치했습니다.

1 단계: 전체를 한 번에 스캔하기 (임베딩)

비유: 각 뉴스 기사를 책 한 권으로 생각하고, 그 책의 표지와 내용을 모두 읽어서 **'디지털 지문'**을 찍는 작업입니다.
설명: 컴퓨터는 각 기사를 4,096 개의 숫자로 이루어진 복잡한 '지문'으로 변환합니다. 이때 기사를 잘게 자르지 않고, 한 편의 기사 전체를 하나의 덩어리로 봅니다.

2 단계: 지도 그리기와 정리하기 (UMAP & 노이즈 제거)

비유: 이 지문들을 바탕으로 거대한 지도를 그립니다. 하지만 처음엔 지도가 너무 복잡하고, 엉뚱한 곳 (노이즈) 에 있는 기사들도 섞여 있습니다.
설명:
- 지도 축소: 복잡한 지문을 2 차원 지도로 줄여서, 비슷한 주제끼리 모여 있는 '지역 (클러스터)'을 찾습니다.
- 정리 (노이즈 제거): 지도에서 너무 멀리 떨어진 이상한 점들 (전혀 관련 없는 기사나 엉뚱한 내용) 을 3 단계 필터로 걸러냅니다. 마치 금광에서 불순물을 제거하고 진짜 금만 남기는 과정과 같습니다.

3 단계: 의미 점수 매기기 (로그확률 기반 평가)

비유: 이제 정리된 지도 위에 6 가지 나침반을 꽂습니다.
1. 기회 vs 위험
2. 규제 압력
3. 경제 성장
4. 윤리 vs 효율
5. 지리적 범위 (로컬 vs 글로벌)
6. 긴박함 (분석적 vs 위기감)
설명: 컴퓨터가 "이 기사가 '위험' 쪽에 얼마나 가깝고, '기회' 쪽에 얼마나 먼가?"를 0 에서 1 사이의 숫자 점수로 매깁니다. 이때 사람이 직접 글을 쓰게 하지 않고, AI 모델이 "이 단어를 쓸 확률"을 계산해서 점수를 줍니다. 마치 스마트폰의 얼굴 인식처럼, 사람이 직접 눈으로 확인하지 않아도 모델이 "이건 위험한 얼굴이야"라고 점수만 내주는 것과 같습니다.

🎯 이 방식이 왜 특별한가요?

이 논문의 핵심은 **"텍스트를 단순히 읽는 게 아니라, 측정 가능한 '데이터 신호'로 만든다"**는 점입니다.

기존 방식: 사람이 기사를 읽고 "아, 이건 AI 규제에 대한 이야기구나"라고 생각해야 함.
이 논문의 방식: 컴퓨터가 자동으로 "이 기사는 규제 점수가 0.8 이고, 경제 점수가 0.2 야"라고 숫자로 알려줌.

이렇게 되면 기업이나 기관은 다음과 같은 일을 할 수 있습니다:

실시간 모니터링: "오늘 뉴스에서 '위험' 점수가 갑자기 높아진 기사가 많으면 경보가 울린다."
패턴 찾기: "최근 '경제 성장' 점수가 높은 기사들이 특정 지역에 모여 있네."
자동 분류: "이 기사는 '긴박함' 점수가 높으니까 긴급 처리팀으로 보내라."

💡 결론: 맞춤형 나침반

이 시스템의 가장 큰 장점은 유연성입니다.
지금까지의 연구는 "무조건 이 6 가지 기준"만 썼지만, 이 논문의 시스템은 사용자가 원하는 기준으로 바꿀 수 있습니다.

정치 분석가라면 "친정부 vs 반정부"로 나침반을 바꿀 수 있고,
투자자는 "수익성 vs 손실"로 바꿀 수 있습니다.

한 줄 요약:

"이 논문은 거대한 뉴스 바다를 인간이 일일이 헤엄쳐 다니지 않아도, 컴퓨터가 자동으로 지도와 나침반을 만들어주어, 어떤 기사가 어디에 있는지, 어떤 성향을 띠는지 숫자 점수로 바로 알려주는 **'스마트 텍스트 분석 시스템'**을 소개합니다."

이제 텍스트는 더 이상 읽기만 하는 '글'이 아니라, 분석하고 예측할 수 있는 **'신호 (Signal)'**가 된 것입니다.

Each language version is independently generated for its own context, not a direct translation.

논문 개요

이 논문은 비정형 텍스트 코퍼스를 정량적 의미 신호 (Quantitative Semantic Signals) 로 변환하는 실용적인 파이프라인을 제안합니다. 저자는 대규모 언어 모델 (LLM) 의 생성 기능보다는 모델의 출력 공간 (특히 로그 확률, Logprobs) 을 '잠재적 언어 신호의 평가자'로 활용하여, 문서 단위의 연속적인 의미 점수와 코퍼스 전체의 구조적 특성을 도출하는 방법을 제시합니다.

1. 문제 제기 (Problem)

운영적 활용의 부재: 밀집 임베딩 (Dense Embeddings) 은 문서 표현에 효과적이지만, 그 자체로는 운영 환경 (Operational Settings) 에서 직접 사용하기 어렵습니다.
해석의 어려움: 잠재 공간 (Latent Space) 을 인간이 직접 해석하거나 비정형 텍스트 라벨을 생성하는 방식은 비효율적이며, 자동화된 AI 엔지니어링 작업 (모니터링, 회귀 분석, 라우팅 등) 에 바로 적용하기 어렵습니다.
해결 필요성: 텍스트를 단순한 내러티브가 아닌, 연속적인 변수로 표현된 운영 신호로 변환하여 정량화하고 구조화할 필요가 있습니다.

2. 방법론 (Methodology)

제안된 파이프라인은 크게 4 단계로 구성되며, 포르투갈어 AI 뉴스 코퍼스 (11,922 개 기사) 에 적용되었습니다.

1 단계: 임베딩 생성 (Embedding Generation)

모델: Qwen2.5 8B Instruct 모델 사용.
단위: 검색용 청크가 아닌 전체 문서 (Full-document) 를 단일 의미 단위로 처리.
출력: 4096 차원 임베딩 벡터 생성 (vLLM 및 PostgreSQL/pgvector 활용).

2 단계: 구조적 차원 축소 및 분할 (Structural Reduction & Partitioning)

UMAP 적용: 4096 차원 임베딩을 5 차원 잠재 공간 (구조 분석용) 과 2 차원 공간 (시각화용) 으로 축소.
- 5 차원 선택 근거: 코퍼스의 고유 차원성 (Intrinsic Dimensionality) 이 약 4.11 로 추정됨.
K-Means 클러스터링: 5 차원 공간에서 $K=15$ 로 초기 구조 분할 수행 (안정적인 해석을 위한 실용적 해상도).

3 단계: 로그 확률 기반 의미 점수화 (Logprob-based Semantic Scoring)

기법: 생성형 텍스트 라벨링 대신, 모델의 로그 확률 (Logprobs) 을 직접 활용하여 0 과 1 사이의 연속적인 의미 지표를 산출.
의미 사전 (Positional Dictionary): 6 가지 차원으로 구성된 사전 정의된 의미 축을 설정.
- 기회 vs 위험 (Opportunity vs. Risk)
- 규제 압력 (Regulatory Pressure)
- 경제적 모멘텀 (Economic Momentum)
- 윤리 vs 효용 (Ethics vs. Utility)
- 지정학적 범위 (Geopolitical Scope)
- 긴급성 (Urgency)
계산: 각 문서가 특정 의미 축의 양극 (Pole) 에 얼마나 가까운지 확률 기반 점수 ( $s_{i,m} \in [0, 1]$ ) 로 변환.

4 단계: 노이즈 제거 및 이상치 탐지 (Noise Reduction & Anomaly Detection)

3 단계 필터링 프로세스:
1. 전역 이상치 (Global Outliers): 2 차원 지도상에서 HDBSCAN 으로 정의된 '대륙 (Core)'의 중심으로부터의 거리가 평균 + 1.2 표준편차 ( $\sigma$ ) 를 초과하는 문서 제거.
2. 국소 이상치 (Local Mavericks): 각 K-Means 클러스터 내에서 해당 클러스터 중심으로부터의 거리가 평균 + 1.8 $\sigma$ 를 초과하는 문서 제거.
3. 구조적 이상치 (Structural Islands): 그래프 기반 연결성 (Connected Components) 분석을 통해 구조적으로 단절된 작은 군집 제거.
결과: 전체 코퍼스의 약 21.5% (2,565 개 문서) 를 제거하여 안정적이고 해석 가능한 의미 지도를 완성.

3. 주요 결과 (Key Results)

구조적 안정성: 초기 K-Means 분할 (15 개 영역) 은 노이즈 제거 후 13 개 영역으로 정제되었으며, HDBSCAN 만으로는 코퍼스의 45% 를 노이즈로 제거하여 과도하게 제한적이었으나, 제안된 하이브리드 방식은 광범위한 담론을 유지하며 노이즈를 제거함.
의미 중심성 (Semantic Centrality): 로그 확률 기반 점수를 통해 코퍼스가 '인공지능'이라는 주제에 얼마나 집중되어 있는지 측정 가능. 제거된 이상치들이 단순히 주제와 무관한 문서가 아니라, 위상적으로 불안정한 문서임을 확인.
정량적 프로파일링:
- 개별 문서: 각 기사에 6 차원 연속 점수가 부여되어 의미적 위치가 명확해짐.
- 코퍼스 전체: 집계된 분포를 통해 코퍼스의 성격을 정량화 (예: 기회 지향적, 규제 완화, 상업적 성장, 균형 잡힌 윤리, 분석적 프레임이 주류).
공간적 상관관계: 의미 축의 양극 (예: 기회 vs 위험) 이 지도상의 서로 다른 공간적 영역에 명확히 분포하여, 기하학적 구조와 의미적 특성이 일치함을 입증.

4. 주요 기여 (Key Contributions)

Text-as-Signal 워크플로우: 텍스트를 단순한 콘텐츠가 아닌, AI 엔지니어링 (모니터링, 이상 탐지, 의사결정 지원) 에 직접 활용 가능한 연속적인 정량 신호로 변환하는 실용적 파이프라인 제시.
생성 모델의 새로운 활용: LLM 을 텍스트 생성기가 아닌 잠재 신호 평가기 (Evaluator) 로 활용하여, 로그 확률을 통해 안정적이고 보정된 (Calibrated) 연속 점수를 도출.
유연한 의미 계층 (Configurable Identity Layer): 고정된 범주형 라벨 대신, 분석 목적에 따라 재정의 가능한 구성 가능한 의미 사전을 제공하여 다양한 분석 스트림에 적응 가능.
다중 스케일 분석: 문서 수준의 의미 위치 지정과 코퍼스 수준의 집계 프로파일링을 동일한 파이프라인에서 동시에 수행 가능.

5. 의의 및 한계 (Significance & Limitations)

의의:
- 수동 주석 (Manual Annotation) 에 대한 의존도를 줄이고, 대규모 텍스트 코퍼스를 실시간으로 모니터링하고 구조화할 수 있는 구체적인 AI 엔지니어링 역량을 입증.
- 비정형 텍스트 데이터를 회귀 분석, 예측 모델, 임계값 기반 라우팅 등 하류 작업 (Downstream Tasks) 에 즉시 활용 가능하게 함.
한계:
- 완전한 벤치마킹 연구가 아닌 실용적 파이프라인 문서화이므로, 다양한 모델 선택이나 파라미터에 대한 포괄적 비교는 부족함.
- 의미 지표가 프롬프트 앵커링과 모델 행동에 의존하며, 인간 주석과의 정량적 비교가 포함되지 않음.
- 특정 인프라 (vLLM, PostgreSQL, GPU 기반 Qwen) 에 종속적임.

결론

이 논문은 텍스트 데이터를 정량적 신호로 변환하는 새로운 패러다임을 제시하며, LLM 의 임베딩과 로그 확률을 결합하여 구조적 안정성과 해석 가능한 의미 점수를 동시에 확보하는 방법을 보여줍니다. 이는 텍스트 분석을 단순한 시각화를 넘어, 데이터 엔지니어링 및 의사결정 지원 시스템의 핵심 구성 요소로 격상시키는 중요한 기여입니다.