Advancing Polish Language Modeling through Tokenizer Optimization in the Bielik v3 7B and 11B Series

이 논문은 보편적 토크나이저의 비효율성을 해결하기 위해 폴란드어에 최적화된 어휘와 FOCUS 기반 임베딩, 다단계 사전 학습 커리큘럼, 그리고 강화 학습 기반 정렬 기법을 도입하여 Bielik v3 7B 및 11B 모델의 성능을 획기적으로 개선했음을 보고합니다.

원저자: Krzysztof Ociepa, Łukasz Flis, Remigiusz Kinas, Krzysztof Wróbel, Adrian Gwozdziej

게시일 2026-04-14
📖 3 분 읽기☕ 가벼운 읽기

이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

Each language version is independently generated for its own context, not a direct translation.

🏗️ 핵심 이야기: "폴란드어 전용 도로를 닦다"

기존의 대형 인공지능 모델들은 전 세계 모든 언어를 한 번에 배우려고 하다 보니, 특정 언어 (여기서는 폴란드어) 를 다룰 때 비효율적인 문제가 있었습니다. 마치 전 세계 모든 차종 (자전거, 트럭, 스포츠카) 을 한 도로에서 다 다룰 수 있게 설계된 도로를 생각해보세요. 폴란드어라는 '스포츠카'가 이 도로를 달릴 때, 너무 많은 신호등 (불필요한 토큰) 을 만나고, 차선이 좁아져서 속도가 느려지는 것입니다.

이 연구팀은 **"폴란드어 전용 고속도로"**를 새로 건설하여 문제를 해결했습니다.

1. 문제: "너무 많은 조각으로 쪼개진 단어"

기존 모델은 폴란드어를 처리할 때, 하나의 단어를 너무 작은 조각 (토큰) 으로 잘게 나누었습니다.

  • 비유: "사랑 (Love)"이라는 단어를 처리할 때, AI 가 "라", "브", "ㄹ", "ㅂ"처럼 글자 하나하나를 따로따로 읽는 것처럼 느리게 처리하는 것입니다.
  • 결과: 메모리 (도로 공간) 를 많이 차지하고, 생각할 시간 (계산 비용) 이 늘어나며, 한 번에 읽을 수 있는 문장 길이 (컨텍스트) 가 짧아집니다.

2. 해결책: "APT4 토크나이저 (새로운 도로 설계도)"

연구팀은 폴란드어의 복잡한 문법과 어미 변화에 맞춰 **새로운 분할 규칙 (APT4 토크나이저)**을 만들었습니다.

  • 비유: 이제 "사랑"이라는 단어를 "라", "브"로 나누지 않고, "사랑"이라는 덩어리 하나로 통째로 인식합니다.
  • 효과: 같은 길이의 문장을 처리할 때 필요한 '조각'의 수가 절반 가까이 줄었습니다. 이는 도로의 효율이 두 배가 된 것과 같습니다. 같은 공간에 더 많은 정보를 담을 수 있게 된 것입니다.

3. 위험 관리: "기억 잃지 않는 방법 (FOCUS)"

갑자기 새로운 도로 규칙을 적용하면, AI 가 이전에 배운 지식을 다 잊어버릴 수 있습니다 (이를 '파괴적 망각'이라고 합니다).

  • 비유: 운전자가 갑자기 새로운 도로 표지판을 보고 당황해서 길을 잃는 상황입니다.
  • 해결책 (FOCUS): 연구팀은 FOCUS라는 기술을 썼습니다. 이는 "새로운 도로 표지판 (새 토큰) 을, 이미 알고 있는 옛날 표지판 (옛 토큰) 들의 조합으로 설명해 주는" 방법입니다.
    • 예를 들어, 새로운 표지판이 없다면 "이건 'A'와 'B' 표지판이 합쳐진 거야"라고 설명해 주면서 AI 가 자연스럽게 적응하도록 돕습니다. 덕분에 AI 는 새로운 폴란드어 규칙을 배우면서도 예전 지식을 잃지 않았습니다.

4. 훈련 과정: "단계별 적응 훈련"

모델을 바로 완성된 상태로 돌리는 대신, 두 단계로 나누어 훈련시켰습니다.

  1. 1 단계 (부분 동결): AI 의 두뇌 대부분은 고정해두고, 오직 '입구 (단어 인식부)'와 '출구 (답변 생성부)'만 새로운 규칙에 맞춰 살짝 조정했습니다. (도로 입구만 먼저 고쳐보기)
  2. 2 단계 (전체 적응): 이제 AI 전체를 풀어서 새로운 규칙에 완전히 익숙해질 때까지 더 많은 데이터를 학습시켰습니다. (도로 전체를 다 고쳐서 달리기 시작하기)

5. 결과: "더 똑똑하고 빠른 폴란드어 AI"

이 새로운 모델 (Bielik v3 PL) 은 기존 모델과 비교했을 때 어떤 차이가 있을까요?

  • 폴란드어 능력: 폴란드어 퀴즈, 의료 시험, 감정 이해 테스트 등에서 기존 모델과 비슷하거나 더 좋은 점수를 받았습니다. 특히 복잡한 문맥을 이해하는 능력이 뛰어났습니다.
  • 영어 능력: 폴란드어에 최적화했다고 해서 영어 실력이 떨어지지는 않았습니다. 여전히 영어로도 잘 대화합니다.
  • 효율성: 같은 성능을 내는데도 더 적은 계산 자원으로 처리할 수 있게 되어, 속도가 빨라지고 비용이 절감되었습니다.

🎁 결론: 왜 이 연구가 중요할까요?

이 연구는 "모든 언어를 다 잘하는 AI"를 만드는 것보다, "특정 언어를 아주 잘하고 효율적으로 만드는 AI"를 만드는 것이 더 중요할 수 있다는 것을 보여줍니다.

마치 모든 차를 다 태울 수 있는 대형 버스를 만드는 것보다, 폴란드어라는 특정 지역을 빠르게 달릴 수 있는 전용 스포츠카를 만드는 것이 그 지역 사람들에게 더 큰 혜택을 주는 것과 같습니다.

이 모델은 오픈 소스 (Apache 2.0 라이선스) 로 공개되어, 누구나 무료로 폴란드어를 더 잘 이해하고 처리할 수 있는 AI 를 사용할 수 있게 되었습니다.

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →