Transducing Language Models

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"언어 모델 (AI) 의 말투를 바꾸는 마법"**에 대한 이야기입니다.

현대 AI(언어 모델) 는 보통 '토큰'이라는 작은 조각으로 글을 씁니다. 하지만 우리가 실제로 원하는 것은 '단어', '문자', 혹은 '아미노산 (유전자)' 같은 다른 형태일 때가 많습니다. 이 논문은 AI 를 다시 훈련시키지 않고도, 그 AI 가 내뱉는 말의 형태를 원하는 대로 변환할 수 있는 새로운 방법을 제안합니다.

이 복잡한 개념을 이해하기 쉽게 세 가지 비유로 설명해 드릴게요.

1. 문제 상황: "레시피는 있는데, 요리가 안 맞아요" 🍳

상상해 보세요. 아주 훌륭한 요리사 (AI 모델) 가 있습니다. 이 요리사는 **특정 재료를 잘게 썬 것 (토큰)**으로만 요리를 할 수 있습니다.

예: "안녕하세요"라는 말을 "안 | 녕 | 하 | 세 | 요"처럼 잘게 썰어서 요리합니다.

하지만 손님은 완전한 단어로 요리를 원하거나, 한 글자씩으로 요리를 원할 수도 있습니다.

손님이 원하는 것: "안녕하세요" (단어) 또는 "안녕하세요" (글자)

기존 방식은 요리사에게 "너는 이제부터 단어로만 요리해!"라고 다시 가르치는 것 (재훈련) 이었습니다. 하지만 이는 시간이 너무 오래 걸리고 비쌉니다.

이 논문은 **"요리사 (AI) 는 그대로 두고, 그 요리가 나오는 접시 (출력) 를 바꿔주는 기계"**를 만들었습니다.

2. 해결책: "자동 변환기 (트랜스듀서)" 🔄

저희가 만든 기계는 **자동 변환기 (Finite-State Transducer, FST)**라고 부릅니다. 이 기계는 요리사가 썬 재료를 받아서, 손님이 원하는 형태로 바로 바꿔줍니다.

상황 A (문자 변환): 요리사가 "안 | 녕"을 내보내면, 이 기계는 이를 받아 "안녕"으로 합쳐서 내보냅니다.
상황 B (유전자 변환): 요리사가 DNA 서열 (A, T, G, C) 을 내보내면, 이 기계는 이를 받아 단백질 (아미노산) 서열로 바꿔줍니다.

핵심 아이디어:
이 변환기는 단순히 텍스트를 바꾸는 게 아니라, 확률까지 정확히 계산합니다.

"요리사가 '안'을 낼 확률이 50% 이고, '녕'을 낼 확률이 50% 라면, 합쳐진 '안녕'이 나올 확률은 얼마일까?"

이걸 계산하는 게 보통은 매우 어렵습니다. 왜냐하면 "안녕"이라는 단어가 나올 수 있는 조합이 무수히 많기 때문입니다 (예: "안 | 녕", "안 | 녕 | ", "안 | 녕 | (공백)" 등).

3. 어떻게 해결했나? "수학적인 마법 (분해와 합치기)" 🧮

이 논문은 이 어려운 계산을 해결하기 위해 **두 가지 상자 (Quotient 와 Remainder)**를 사용했습니다.

상자 1 (Quotient - 확실한 것들): "이 조합은 무조건 '안녕'으로 이어진다"는 것들. (예: 요리사가 '안'을 내면, 그 뒤가 뭐가 오든 '안녕'이 될 가능성이 확실한 경우)
상자 2 (Remainder - 나머지 것들): "이 조합은 '안녕'이 될 수도 있고, 안 될 수도 있는 애매한 것들."

이 논문의 알고리즘은 이 두 상자를 효율적으로 나누고, 확률의 무게를 계산해서 최종적으로 "안녕"이 나올 확률을 정확히 구해냅니다. 마치 복잡한 퍼즐을 조각내어 가장 중요한 조각들만 골라내는 것과 같습니다.

4. 실제 실험 결과: "실제로 작동합니다!" 🧪

저희는 이 방법을 세 가지 다른 분야에서 테스트했습니다.

단어에서 글자로: AI 가 만든 단어를 하나하나의 글자로 분해해서, 글자 단위로 예측하는 모델을 만들었습니다.
단어에서 문장 구조로: 문법적으로 올바른 단어 단위로 AI 의 출력을 정리했습니다.
DNA 에서 단백질로: 유전자 (DNA) 를 읽는 AI 를 단백질 (아미노산) 을 만드는 AI 로 변환했습니다.

결과:

AI 를 다시 훈련시키지 않아도, 원하는 형태로 정확히 변환되었습니다.
계산 속도는 빠르고, 정확도도 매우 높았습니다.
특히, DNA 나 단백질처럼 복잡한 생물학적 데이터를 다룰 때도 유용하게 쓰였습니다.

5. 결론: 왜 이 연구가 중요한가요? 🌟

이 연구는 **"기존의 AI 를 버리지 않고, 새로운 일에 쓰게 하는 방법"**을 제시합니다.

비용 절감: AI 를 처음부터 다시 학습시킬 필요가 없습니다.
유연성: AI 가 배운 지식을 유지하면서, 의학, 생물학, 언어학 등 다양한 분야에 맞춰 출력을 바꿀 수 있습니다.
정확성: 단순히 텍스트를 자르고 붙이는 게 아니라, 확률의 원리를 지켜서 AI 의 '생각'을 왜곡하지 않습니다.

한 줄 요약:

"AI 가 입는 옷 (출력 형식) 을 바꾸고 싶다면, AI 를 다시 키우지 말고 옷을 갈아입히는 기계 (변환기) 를 달아주세요!"

이 논문은 그 '옷 갈아입는 기계'를 어떻게 만들고, 어떻게 효율적으로 작동하게 하는지에 대한 완벽한 설계도를 제시합니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 제기 (The Problem)

현대 언어 모델은 토큰 (token) 또는 바이트 페어 (BPE) 와 같은 특정 단위로 문자열 분포를 정의합니다. 그러나 실제 응용 프로그램은 종종 다른 단위를 요구합니다.

문자열 불일치 (String Mismatch Problem): 예를 들어, BPE 토큰으로 생성된 모델을 단어 (word) 단위나 바이트 (byte) 단위로 변환해야 하거나, DNA 서열을 아미노산 서열로 변환해야 하는 경우가 있습니다.
기존 접근법의 한계: 현재는 이러한 변환을 위해 사후 처리 (post-processing) 를 수행하거나, 새로운 모델을 처음부터 훈련시킵니다. 그러나 단순히 출력을 변환하는 것은 확률 분포를 올바르게 전파하지 못합니다. 특정 변환된 문자열의 확률을 계산하거나, 변환된 출력을 조건으로 (conditioning) 생성하는 것은 계산적으로 불가능 (intractable) 하거나 비효율적입니다.

2. 방법론 (Methodology)

저자들은 **결정론적 문자열 - 문자열 변환 (Deterministic String-to-String Transformation)**을 언어 모델 파이프라인의 1 순위 구성 요소로 간주하고, 이를 **유한 상태 변환기 (Finite-State Transducer, FST)**를 사용하여 모델링합니다.

핵심 개념: 변환된 언어 모델 (Transduced Language Models)

정의: 소스 언어 모델 $p_X$ 와 FST $f$ 를 결합하여 새로운 타겟 언어 모델 $p_Y$ 를 생성합니다. $p_Y(y)$ 는 $f(x)=y$ 가 되는 모든 소스 문자열 $x$ 의 확률 합으로 정의됩니다.
$p_Y(y) = \sum_{x \in f^{-1}(y)} p_X(x)$
문제: 역상 (preimage) $f^{-1}(y)$ 이 매우 크거나 무한할 수 있어 정확한 확률 계산이 어렵습니다.

해결 알고리즘: 전치 (Precover) 분해

저자들은 타겟 문자열 $y$ 에 대한 **전치 (Precover, $P(y)$ )**를 **몫 (Quotient, $Q(y)$ )**과 **나머지 (Remainder, $R(y)$ )**로 분해하는 알고리즘을 개발했습니다.

몫 ( $Q(y)$ ): 소스 문자열 $x$ 의 모든 확장이 타겟 $y$ 를 덮는 (cover) 경우. 이는 **원통 집합 (Cylinder set)**으로 표현되며, 소스 모델의 **접두사 확률 (Prefix Probability)**만 계산하면 됩니다.
나머지 ( $R(y)$ ): $x$ 자체는 타겟을 덮지만, 일부 확장은 덮지 않는 경우. 이는 **문자열 확률 (String Probability)**을 계산해야 합니다.
알고리즘: FST 의 구조를 활용하여 BFS(너비 우선 탐색) 기반 알고리즘으로 $Q(y)$ $Q (y)$ 와 $R(y)$ $R (y)$ 를 효율적으로 식별합니다.
- 정확한 알고리즘: 분해가 유한한 경우 (예: strict-prefix monotone 변환) 정확한 확률을 계산합니다.
- 근사 알고리즘 (Pruning): 분해가 너무 크거나 무한한 경우, 확률 질량 (probability mass) 이 낮은 후보를 제거하여 근사값을 계산합니다.

최적화 기법

Lazy Determinization: 전체 FST 를 결정론적으로 변환하는 대신, 필요한 상태만 동적으로 생성합니다.
Frontier-based Checks: FST 의 상태와 출력 버퍼를 추적하여 'Cylinder', 'Member', 'Live' 조건을 효율적으로 검사합니다.
IP-Universality Shortcut: 입력 투영 (Input Projection) 이 보편적인 (Universal) 상태는 즉시 몫으로 분류하여 계산을 단축합니다.

3. 주요 기여 (Key Contributions)

일반화된 프레임워크: 문자열 변환을 FST 로 표현하고, 이를 언어 모델과 결합하여 새로운 언어 모델을 만드는 이론적, 알고리즘적 프레임워크를 제시했습니다.
효율적인 추론 알고리즘: 모델 파라미터를 변경하지 않고, 기존 사전 훈련된 모델을 변환된 단위 (바이트, 단어, 아미노산 등) 에 맞게 추론할 수 있는 정확한 및 근사 알고리즘을 개발했습니다.
조건부 생성 지원: 변환된 출력을 조건으로 하여 다음 토큰을 예측하는 autoregressive 인터페이스를 구현했습니다.
이론적 분석: 변환이 유한한 분해를 보장하는 충분 조건 (Strict-prefix monotonicity, Safety 조건 등) 을 수학적으로 증명했습니다.

4. 실험 결과 (Results)

저자들은 세 가지 주요 도메인에서 실험을 수행하여 프레임워크의 유효성을 입증했습니다.

토큰 $\to$ 바이트 (Tokens to Bytes): GPT-2, LLaMA, Phi-4 등 다양한 모델을 바이트 단위 모델로 변환했습니다. Vieira et al. (2025a) 의 기존 방법과 비교했을 때, 유사한 정확도 (JSD) 를 유지하면서 더 넓은 변환 범위를 지원했습니다.
토큰 $\to$ Penn Treebank 단어 (Tokens to Words): 문맥에 따라 구두점 처리가 달라지는 복잡한 PTB 토큰화 규칙을 FST 로 구현하여, 토큰 기반 모델을 단어 기반 모델로 변환했습니다.
DNA $\to$ 아미노산 (DNA to Amino Acids): 3 개의 뉴클레오타이드가 1 개의 아미노산으로 매핑되는 유전적 변환을 수행했습니다. 이 경우 조합의 폭발 (combinatorial blow-up) 이 발생하지만, 프루닝 (pruning) 전략을 통해 효율적으로 처리할 수 있음을 보였습니다.

성능:

정확도: 프루닝 임계값 ( $\tau$ ) 을 낮출수록 참조 분포와의 Jensen-Shannon Divergence (JSD) 가 감소하여 정확한 분포에 수렴했습니다.
속도: 엄격한 임계값에서는 속도가 느려지지만, 실용적인 임계값 (예: $\tau = 10^{-3}$ ) 에서도 높은 정확도를 유지하며 실시간 추론이 가능했습니다.

5. 의의 및 결론 (Significance)

재사용성: 기존에 훈련된 대규모 언어 모델을 재학습 (retraining) 하지 않고도, 특정 응용 분야에 맞는 단위 (단어, 바이트, 생체 분자 등) 로 즉시 적응시킬 수 있습니다.
유연성: FST 는 매우 강력한 표현력을 가지므로, 단순한 매핑부터 문맥 의존적인 규칙 (예: 구두점 처리) 까지 다양한 변환을 지원합니다.
미래 전망: 이 프레임워크는 언어 모델의 확률적 해석을 개선하고, 심리언어학, 계산 생물학 등 다양한 분야에서 언어 모델의 적용 범위를 확장하는 기반이 될 것입니다. 또한, 추론 시 여러 가능한 표현을 통합 (marginalization) 하여 더 견고한 예측을 가능하게 합니다.

요약하자면, 이 논문은 **FST 를 활용한 언어 모델의 변환 (Transduction)**을 체계화하여, 모델의 출력 형식과 응용 요구사항 간의 격차를 해결하는 효율적이고 이론적으로 엄밀한 방법을 제시했습니다.