Transducing Language Models

이 논문은 유한 상태 전이기 (FST) 를 활용한 결정적 문자열 변환을 통해 사전 학습된 언어 모델의 출력 형식을 변경하면서도 모델 파라미터를 수정하지 않고 확률을 전파하여 새로운 언어 모델을 구성하는 프레임워크와 알고리즘을 제안하고 실험을 통해 검증합니다.

Vésteinn Snæbjarnarson, Samuel Kiegeland, Tianyu Liu, Reda Boumasmoud, Ryan Cotterell, Tim Vieira

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"언어 모델 (AI) 의 말투를 바꾸는 마법"**에 대한 이야기입니다.

현대 AI(언어 모델) 는 보통 '토큰'이라는 작은 조각으로 글을 씁니다. 하지만 우리가 실제로 원하는 것은 '단어', '문자', 혹은 '아미노산 (유전자)' 같은 다른 형태일 때가 많습니다. 이 논문은 AI 를 다시 훈련시키지 않고도, 그 AI 가 내뱉는 말의 형태를 원하는 대로 변환할 수 있는 새로운 방법을 제안합니다.

이 복잡한 개념을 이해하기 쉽게 세 가지 비유로 설명해 드릴게요.


1. 문제 상황: "레시피는 있는데, 요리가 안 맞아요" 🍳

상상해 보세요. 아주 훌륭한 요리사 (AI 모델) 가 있습니다. 이 요리사는 **특정 재료를 잘게 썬 것 (토큰)**으로만 요리를 할 수 있습니다.

  • 예: "안녕하세요"라는 말을 "안 | 녕 | 하 | 세 | 요"처럼 잘게 썰어서 요리합니다.

하지만 손님은 완전한 단어로 요리를 원하거나, 한 글자씩으로 요리를 원할 수도 있습니다.

  • 손님이 원하는 것: "안녕하세요" (단어) 또는 "안녕하세요" (글자)

기존 방식은 요리사에게 "너는 이제부터 단어로만 요리해!"라고 다시 가르치는 것 (재훈련) 이었습니다. 하지만 이는 시간이 너무 오래 걸리고 비쌉니다.

이 논문은 **"요리사 (AI) 는 그대로 두고, 그 요리가 나오는 접시 (출력) 를 바꿔주는 기계"**를 만들었습니다.

2. 해결책: "자동 변환기 (트랜스듀서)" 🔄

저희가 만든 기계는 **자동 변환기 (Finite-State Transducer, FST)**라고 부릅니다. 이 기계는 요리사가 썬 재료를 받아서, 손님이 원하는 형태로 바로 바꿔줍니다.

  • 상황 A (문자 변환): 요리사가 "안 | 녕"을 내보내면, 이 기계는 이를 받아 "안녕"으로 합쳐서 내보냅니다.
  • 상황 B (유전자 변환): 요리사가 DNA 서열 (A, T, G, C) 을 내보내면, 이 기계는 이를 받아 단백질 (아미노산) 서열로 바꿔줍니다.

핵심 아이디어:
이 변환기는 단순히 텍스트를 바꾸는 게 아니라, 확률까지 정확히 계산합니다.

"요리사가 '안'을 낼 확률이 50% 이고, '녕'을 낼 확률이 50% 라면, 합쳐진 '안녕'이 나올 확률은 얼마일까?"

이걸 계산하는 게 보통은 매우 어렵습니다. 왜냐하면 "안녕"이라는 단어가 나올 수 있는 조합이 무수히 많기 때문입니다 (예: "안 | 녕", "안 | 녕 | ", "안 | 녕 | (공백)" 등).

3. 어떻게 해결했나? "수학적인 마법 (분해와 합치기)" 🧮

이 논문은 이 어려운 계산을 해결하기 위해 **두 가지 상자 (Quotient 와 Remainder)**를 사용했습니다.

  • 상자 1 (Quotient - 확실한 것들): "이 조합은 무조건 '안녕'으로 이어진다"는 것들. (예: 요리사가 '안'을 내면, 그 뒤가 뭐가 오든 '안녕'이 될 가능성이 확실한 경우)
  • 상자 2 (Remainder - 나머지 것들): "이 조합은 '안녕'이 될 수도 있고, 안 될 수도 있는 애매한 것들."

이 논문의 알고리즘은 이 두 상자를 효율적으로 나누고, 확률의 무게를 계산해서 최종적으로 "안녕"이 나올 확률을 정확히 구해냅니다. 마치 복잡한 퍼즐을 조각내어 가장 중요한 조각들만 골라내는 것과 같습니다.

4. 실제 실험 결과: "실제로 작동합니다!" 🧪

저희는 이 방법을 세 가지 다른 분야에서 테스트했습니다.

  1. 단어에서 글자로: AI 가 만든 단어를 하나하나의 글자로 분해해서, 글자 단위로 예측하는 모델을 만들었습니다.
  2. 단어에서 문장 구조로: 문법적으로 올바른 단어 단위로 AI 의 출력을 정리했습니다.
  3. DNA 에서 단백질로: 유전자 (DNA) 를 읽는 AI 를 단백질 (아미노산) 을 만드는 AI 로 변환했습니다.

결과:

  • AI 를 다시 훈련시키지 않아도, 원하는 형태로 정확히 변환되었습니다.
  • 계산 속도는 빠르고, 정확도도 매우 높았습니다.
  • 특히, DNA 나 단백질처럼 복잡한 생물학적 데이터를 다룰 때도 유용하게 쓰였습니다.

5. 결론: 왜 이 연구가 중요한가요? 🌟

이 연구는 **"기존의 AI 를 버리지 않고, 새로운 일에 쓰게 하는 방법"**을 제시합니다.

  • 비용 절감: AI 를 처음부터 다시 학습시킬 필요가 없습니다.
  • 유연성: AI 가 배운 지식을 유지하면서, 의학, 생물학, 언어학 등 다양한 분야에 맞춰 출력을 바꿀 수 있습니다.
  • 정확성: 단순히 텍스트를 자르고 붙이는 게 아니라, 확률의 원리를 지켜서 AI 의 '생각'을 왜곡하지 않습니다.

한 줄 요약:

"AI 가 입는 옷 (출력 형식) 을 바꾸고 싶다면, AI 를 다시 키우지 말고 옷을 갈아입히는 기계 (변환기) 를 달아주세요!"

이 논문은 그 '옷 갈아입는 기계'를 어떻게 만들고, 어떻게 효율적으로 작동하게 하는지에 대한 완벽한 설계도를 제시합니다.