Tucano 2 Cool: Better Open Source LLMs for Portuguese

이 논문은 포르투갈어 오픈소스 LLM 의 격차를 해소하기 위해 0.5~37 억 파라미터 규모의 'Tucano 2'모델 시리즈와 고품질 데이터셋, 학습 레시피, 그리고 포괄적인 평가 체계를 공개하여 포르투갈어 NLP 커뮤니티의 재현성과 확장을 지원한다고 요약할 수 있습니다.

Nicholas Kluge Corrêa, Aniket Sen, Shiza Fatimah, Sophia Falk, Lennard Landgraf, Julia Kastner, Lucie Flek

게시일 2026-03-05
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🇵🇹 "투카노 2 (Tucano 2)": 포르투갈어를 위한 '똑똑한 친구'를 키운 이야기

이 논문은 포르투갈어 (브라질 및 유럽 포르투갈어) 로만 대화할 수 있는 인공지능 (AI) 모델을 만드는 과정을 다룹니다. 기존에 영어 중심의 AI 가 너무 많고, 포르투갈어 전용 AI 는 부족하거나 비밀리에 만들어져서 누구나 사용할 수 없었던 문제를 해결하기 위해, 연구팀이 완전히 공개된 (오픈소스) 방식으로 새로운 AI 가족을 키운 이야기입니다.

이 복잡한 기술 이야기를 마치 정원사새로운 나무를 키우는 과정에 비유해서 설명해 드릴게요.


1. 문제: 왜 새로운 나무가 필요할까요? 🌳

지금까지 AI 세상은 영어라는 거대한 숲에서 자란 나무들 (Qwen, Llama 등) 이 지배했습니다. 이 나무들은 영어는 정말 잘하지만, 포르투갈어라는 작은 가지에는 잎이 적거나, 아예 열매가 잘 맺히지 않았습니다.

또한, 기존에 포르투갈어 AI 를 만든 회사들은 "우리가 어떻게 만들었는지" 비밀로 하거나, 데이터가 어디에서 왔는지 알려주지 않았습니다. 마치 요리 레시피를 알려주지 않고 요리만 팔아먹는 식당 같죠. 연구팀은 "아니야, 우리는 완전한 레시피와 재료를 모두 공개해서 누구나 포르투갈어 AI 를 키울 수 있게 하겠다"고 결심했습니다.

2. 재료 준비: "기거베르보 (GigaVerbo)"라는 거대한 도서관 📚

AI 를 가르치려면 엄청난 양의 **책 (데이터)**이 필요합니다. 연구팀은 포르투갈어로 쓰인 인터넷 글, 위키백과, 뉴스, 교육 자료 등을 모았습니다.

  • 정제 과정 (필터링): 인터넷에는 쓰레기 같은 글도 많습니다. 연구팀은 **AI 심판 (LLM Judge)**을 세워, "이 글은 교육적으로 좋은가?", "이 글은 독이 있는가?"를 평가하게 했습니다. 마치 선생님이 학생들의 에세이를 골라내듯 품질 좋은 글만 남겼습니다.
  • 인공 지능의 상상력 (Synthetic Data): 인터넷에 없는 주제 (예: 복잡한 수학 문제 풀이, 법률 조언) 를 채우기 위해, 이미 잘 훈련된 AI 를 시켜 새로운 글을 직접 쓰게 했습니다. 마치 전문가가 학생들에게 연습 문제를 만들어주는 것과 같습니다.

3. 훈련 과정: 세 단계로 성장시키는 요리법 🍳

이제 이 재료를 어떻게 요리할지 (학습시킬지) 정했습니다.

  1. 기초 다지기 (Pretraining):

    • 0.6B 모델 (작은 나무): 처음부터 포르투갈어 데이터만 모아 0.6B(6 억) 파라미터 크기의 모델을 처음부터 키웠습니다.
    • 효율적인 토크나이저: 영어와 포르투갈어를 섞어 쓰는 AI 는 비효율적일 수 있습니다. 연구팀은 **포르투갈어에 최적화된 새로운 알파벳 시스템 (토크나이저)**을 만들었습니다. 덕분에 같은 내용을 표현하는 데 필요한 '단어 조각'이 줄어들어, 연료 (컴퓨팅 비용) 를 30% 아끼고 더 빠르게 학습시켰습니다.
  2. 전문가 양성 (Continual Pretraining):

    • 기존 거인 활용: 처음부터 30 억, 40 억 파라미터 크기의 큰 나무를 키우는 건 너무 비쌉니다. 대신, 이미 영어와 여러 언어를 잘 아는 **거인 AI (Qwen3)**를 가져와서 포르투갈어만 집중적으로 가르쳤습니다.
    • 효율성: 거인의 지능을 유지하면서 포르투갈어에 특화되도록 토크나이저 (알파벳 시스템) 만 갈아끼우는 기술을 써서, 거의 비용 없이 포르투갈어 전문가로 변신시켰습니다.
  3. 실전 훈련 (Post-Training):

    • 명령어 따르기 (Instruct): "이것을 요약해줘", "이 코드를 짜줘" 같은 명령을 잘 따르도록 훈련했습니다.
    • 생각하기 (Think): 단순히 답만 주는 게 아니라, **생각의 과정 (Chain-of-Thought)**을 포르투갈어로 직접 말하며 문제를 풀도록 훈련했습니다. "왜 이렇게 답이 나왔는지" 설명하는 능력을 기른 것이죠.

4. 결과: 어떻게 잘할까요? 🏆

이렇게 키워낸 투카노 2 (Tucano 2) 가족은 놀라운 성과를 냈습니다.

  • 작은 모델 (0.5B~1.5B): 영어 기반의 거대 모델들보다 포르투갈어 이해도가 더 높습니다. 마치 영어를 잘하는 외국인보다 현지인이 더 자연스러운 말투를 쓰는 것과 같습니다.
  • 큰 모델 (3.7B): 37 억 파라미터 크기의 모델은 40 억 파라미터의 최신 거대 모델 (Qwen3-4B) 을 능가하는 성능을 보였습니다. 특히 수학 문제 풀이논리적 추론에서 포르투갈어로 완벽하게 답변했습니다.
  • 생각하는 AI: "생각 모드 (Think)"를 켜면, 포르투갈어로 단계별로 사고하는 과정을 보여줍니다. 이는 이전까지 포르투갈어 AI 에서 거의 볼 수 없었던 기능입니다.

5. 환경 보호: 친환경적인 키우기 🌱

AI 를 키우는 건 전기를 많이 먹습니다. 연구팀은 에너지 소비와 탄소 배출량을 꼼꼼히 계산했습니다.

  • 합리적인 비용: 거대 모델을 처음부터 만드는 대신, 기존 모델을 다듬는 방식을 써서 에너지를 90% 이상 아꼈습니다.
  • 투명한 공개: 모든 데이터, 학습 코드, 평가 방법을 누구나 볼 수 있게 공개했습니다. 이는 "우리가 어떻게 만들었는지 숨기지 않겠다"는 약속입니다.

🎯 한 줄 요약

"영어 중심의 AI 세상에, 포르투갈어를 완벽하게 이해하고 '생각'까지 할 수 있는, 누구나 무료로 키울 수 있는 똑똑한 AI 가족 (투카노 2) 을 탄생시킨 혁신적인 프로젝트!"

이 프로젝트는 포르투갈어를 사용하는 수억 명의 사람들이 자신의 언어로 AI 와 소통할 수 있는 기회를 열었으며, 다른 소수 언어를 위한 AI 개발에도 귀감이 되는 완전한 공개 (오픈소스) 의 모범 사례가 되었습니다.