Conditioning LLMs to Generate Code-Switched Text

이 논문은 영어-스페인어 병렬 코퍼스 구축을 위한 역번역 기반 미세조정 방법론을 제안하여 LLM 이 유창한 코드스위칭 텍스트를 생성하도록 하고, 기존 자동 평가 지표보다 LLM 기반 판단이 인간 선호도와 더 잘 일치함을 입증했습니다.

Maite Heredia, Gorka Labaka, Jeremy Barnes, Aitor Soroa

게시일 2026-03-09
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"두 가지 언어를 섞어 쓰는 말 (코드스위칭) 을 인공지능 (AI) 이 자연스럽게 만들어내는 방법"**에 대한 연구입니다.

비유하자면, 이 연구는 **"영어를 완벽하게 아는 AI 에게, 영어와 스페인어를 섞어서 자연스럽게 대화하는 법을 가르치는 과정"**을 보여줍니다.

핵심 내용을 일상적인 비유로 설명해 드릴게요.

1. 문제점: AI 는 '혼합 요리'를 못 합니다

지금까지의 AI 는 주로 한 가지 언어 (예: 영어만, 혹은 스페인어만) 로만 학습되었습니다. 그래서 AI 에게 "영어로 된 문장을 스페인어와 섞어서 써줘"라고 하면, AI 는 당황합니다.

  • 비유: 마치 "한국어와 영어를 섞어서 노래를 불러줘"라고 시켰는데, AI 가 "네, 알겠습니다!" 하고는 완전히 한국어로만 부르거나, 완전히 영어로만 부르는 경우입니다. 중간에 섞는 법을 모릅니다.
  • 이유: AI 가 배울 수 있는 '두 언어가 섞인 자연스러운 대화 자료'가 너무 적기 때문입니다.

2. 해결책: 거꾸로 뒤집는 '역변환' 마법 (Back-Translation)

연구팀은 AI 가 '혼합 문장'을 만드는 건 어렵지만, '혼합 문장을 영어로만 정리하는 것'은 잘할 수 있다는 점을 이용했습니다.

  • 단계 1 (재료 준비): 사람들이 실제로 쓰는 영어와 스페인어가 섞인 문장 (예: "Why make everybody sentarse atrás?") 을 모았습니다.
  • 단계 2 (거꾸로 번역): 이 섞인 문장들을 AI 에게 "이걸 영어로만 정리해줘"라고 시켰습니다. AI 는 잘해서 "Why make everybody sit at the back?"이라는 순수 영어 문장을 만들어냈습니다.
  • 단계 3 (새로운 교재 만들기): 이제 우리는 **[순수 영어 문장] ↔ [원래 섞인 문장]**이라는 짝을 갖게 되었습니다. 마치 요리 레시피와 완성된 요리의 관계를 만든 셈입니다.
  • 단계 4 (AI 훈련): 이 새로운 교재로 AI 를 다시 훈련시켰습니다. "이 영어 문장을 다시 섞어서 만들어봐"라고 시키니, AI 는 이제 섞는 법을 배웠습니다.

3. 실험 결과: 훈련받은 AI 가 더 낫다

연구팀은 훈련시킨 AI 와 훈련받지 않은 AI 를 비교했습니다.

  • 훈련받지 않은 AI (초보 요리사): "영어로만 말해"라고 시켰는데, 섞어서 말해야 할 때 여전히 영어로만 말하거나, 섞는 위치가 어색했습니다.
  • 훈련받은 AI (숙련된 요리사): 영어 문장을 받아서 자연스럽게 스페인어 단어를 섞어 넣었습니다. 마치 현지인이 대화하듯 자연스럽게 들렸습니다.
  • 결론: AI 에게 '혼합 언어'를 가르치려면, 단순히 큰 모델을 쓰는 것보다 적절한 자료로 훈련 (Fine-tuning) 시키는 것이 훨씬 중요하다는 것이 증명되었습니다.

4. 평가의 함정: 점수표는 거짓말을 합니다

연구팀은 AI 가 만든 문장이 좋은지 나쁜지 평가하는 방법도 문제 삼았습니다.

  • 기존 점수표 (자동 평가): 컴퓨터가 문장을 비교해서 점수를 줍니다. 하지만 이 점수표는 "영어가 얼마나 잘 맞는지"만 봅니다. 그래서 아예 영어로만 쓴 문장도 점수가 높게 나옵니다. (비유: "혼합 요리를 만들어라"고 시켰는데, "한국 음식만 만들어"라고 해서 점수를 높게 주는 꼴입니다.)
  • 새로운 평가 (AI 심판): 최신 AI 를 심판으로 세웠더니 기존 점수표보다는 나았지만, 여전히 인간이 느끼는 '자연스러움'과는 거리가 있었습니다.
  • 결론: 아직까지 AI 가 만든 '혼합 언어'의 자연스러움을 완벽하게 측정할 수 있는 자동 도구는 없습니다. 결국 사람이 직접 눈으로 확인하고 평가해야 합니다.

요약

이 연구는 **"AI 가 두 언어를 섞어 쓰는 법을 배우게 하려면, 거꾸로 영어로 정리한 자료를 만들어 훈련시키는 것이 핵심"**임을 보여주었습니다. 또한, **"컴퓨터 점수표만 믿지 말고, 사람의 느낌을 중요하게 여겨야 한다"**는 교훈을 남겼습니다.

이 기술이 발전하면, AI 가 다국어 사용자의 일상적인 대화나 SNS 글을 훨씬 더 자연스럽게 이해하고 생성할 수 있게 될 것입니다.