Each language version is independently generated for its own context, not a direct translation.

🇵🇹 "투카노 2 (Tucano 2)": 포르투갈어를 위한 '똑똑한 친구'를 키운 이야기

이 논문은 포르투갈어 (브라질 및 유럽 포르투갈어) 로만 대화할 수 있는 인공지능 (AI) 모델을 만드는 과정을 다룹니다. 기존에 영어 중심의 AI 가 너무 많고, 포르투갈어 전용 AI 는 부족하거나 비밀리에 만들어져서 누구나 사용할 수 없었던 문제를 해결하기 위해, 연구팀이 완전히 공개된 (오픈소스) 방식으로 새로운 AI 가족을 키운 이야기입니다.

이 복잡한 기술 이야기를 마치 정원사가 새로운 나무를 키우는 과정에 비유해서 설명해 드릴게요.

1. 문제: 왜 새로운 나무가 필요할까요? 🌳

지금까지 AI 세상은 영어라는 거대한 숲에서 자란 나무들 (Qwen, Llama 등) 이 지배했습니다. 이 나무들은 영어는 정말 잘하지만, 포르투갈어라는 작은 가지에는 잎이 적거나, 아예 열매가 잘 맺히지 않았습니다.

또한, 기존에 포르투갈어 AI 를 만든 회사들은 "우리가 어떻게 만들었는지" 비밀로 하거나, 데이터가 어디에서 왔는지 알려주지 않았습니다. 마치 요리 레시피를 알려주지 않고 요리만 팔아먹는 식당 같죠. 연구팀은 "아니야, 우리는 완전한 레시피와 재료를 모두 공개해서 누구나 포르투갈어 AI 를 키울 수 있게 하겠다"고 결심했습니다.

2. 재료 준비: "기거베르보 (GigaVerbo)"라는 거대한 도서관 📚

AI 를 가르치려면 엄청난 양의 **책 (데이터)**이 필요합니다. 연구팀은 포르투갈어로 쓰인 인터넷 글, 위키백과, 뉴스, 교육 자료 등을 모았습니다.

정제 과정 (필터링): 인터넷에는 쓰레기 같은 글도 많습니다. 연구팀은 **AI 심판 (LLM Judge)**을 세워, "이 글은 교육적으로 좋은가?", "이 글은 독이 있는가?"를 평가하게 했습니다. 마치 선생님이 학생들의 에세이를 골라내듯 품질 좋은 글만 남겼습니다.
인공 지능의 상상력 (Synthetic Data): 인터넷에 없는 주제 (예: 복잡한 수학 문제 풀이, 법률 조언) 를 채우기 위해, 이미 잘 훈련된 AI 를 시켜 새로운 글을 직접 쓰게 했습니다. 마치 전문가가 학생들에게 연습 문제를 만들어주는 것과 같습니다.

3. 훈련 과정: 세 단계로 성장시키는 요리법 🍳

이제 이 재료를 어떻게 요리할지 (학습시킬지) 정했습니다.

기초 다지기 (Pretraining):
- 0.6B 모델 (작은 나무): 처음부터 포르투갈어 데이터만 모아 0.6B(6 억) 파라미터 크기의 모델을 처음부터 키웠습니다.
- 효율적인 토크나이저: 영어와 포르투갈어를 섞어 쓰는 AI 는 비효율적일 수 있습니다. 연구팀은 **포르투갈어에 최적화된 새로운 알파벳 시스템 (토크나이저)**을 만들었습니다. 덕분에 같은 내용을 표현하는 데 필요한 '단어 조각'이 줄어들어, 연료 (컴퓨팅 비용) 를 30% 아끼고 더 빠르게 학습시켰습니다.
전문가 양성 (Continual Pretraining):
- 기존 거인 활용: 처음부터 30 억, 40 억 파라미터 크기의 큰 나무를 키우는 건 너무 비쌉니다. 대신, 이미 영어와 여러 언어를 잘 아는 **거인 AI (Qwen3)**를 가져와서 포르투갈어만 집중적으로 가르쳤습니다.
- 효율성: 거인의 지능을 유지하면서 포르투갈어에 특화되도록 토크나이저 (알파벳 시스템) 만 갈아끼우는 기술을 써서, 거의 비용 없이 포르투갈어 전문가로 변신시켰습니다.
실전 훈련 (Post-Training):
- 명령어 따르기 (Instruct): "이것을 요약해줘", "이 코드를 짜줘" 같은 명령을 잘 따르도록 훈련했습니다.
- 생각하기 (Think): 단순히 답만 주는 게 아니라, **생각의 과정 (Chain-of-Thought)**을 포르투갈어로 직접 말하며 문제를 풀도록 훈련했습니다. "왜 이렇게 답이 나왔는지" 설명하는 능력을 기른 것이죠.

4. 결과: 어떻게 잘할까요? 🏆

이렇게 키워낸 투카노 2 (Tucano 2) 가족은 놀라운 성과를 냈습니다.

작은 모델 (0.5B~1.5B): 영어 기반의 거대 모델들보다 포르투갈어 이해도가 더 높습니다. 마치 영어를 잘하는 외국인보다 현지인이 더 자연스러운 말투를 쓰는 것과 같습니다.
큰 모델 (3.7B): 37 억 파라미터 크기의 모델은 40 억 파라미터의 최신 거대 모델 (Qwen3-4B) 을 능가하는 성능을 보였습니다. 특히 수학 문제 풀이와 논리적 추론에서 포르투갈어로 완벽하게 답변했습니다.
생각하는 AI: "생각 모드 (Think)"를 켜면, 포르투갈어로 단계별로 사고하는 과정을 보여줍니다. 이는 이전까지 포르투갈어 AI 에서 거의 볼 수 없었던 기능입니다.

5. 환경 보호: 친환경적인 키우기 🌱

AI 를 키우는 건 전기를 많이 먹습니다. 연구팀은 에너지 소비와 탄소 배출량을 꼼꼼히 계산했습니다.

합리적인 비용: 거대 모델을 처음부터 만드는 대신, 기존 모델을 다듬는 방식을 써서 에너지를 90% 이상 아꼈습니다.
투명한 공개: 모든 데이터, 학습 코드, 평가 방법을 누구나 볼 수 있게 공개했습니다. 이는 "우리가 어떻게 만들었는지 숨기지 않겠다"는 약속입니다.

🎯 한 줄 요약

"영어 중심의 AI 세상에, 포르투갈어를 완벽하게 이해하고 '생각'까지 할 수 있는, 누구나 무료로 키울 수 있는 똑똑한 AI 가족 (투카노 2) 을 탄생시킨 혁신적인 프로젝트!"

이 프로젝트는 포르투갈어를 사용하는 수억 명의 사람들이 자신의 언어로 AI 와 소통할 수 있는 기회를 열었으며, 다른 소수 언어를 위한 AI 개발에도 귀감이 되는 완전한 공개 (오픈소스) 의 모범 사례가 되었습니다.

Tucano 2 Cool: Better Open Source LLMs for Portuguese

🇵🇹 "투카노 2 (Tucano 2)": 포르투갈어를 위한 '똑똑한 친구'를 키운 이야기

1. 문제: 왜 새로운 나무가 필요할까요? 🌳

2. 재료 준비: "기거베르보 (GigaVerbo)"라는 거대한 도서관 📚

3. 훈련 과정: 세 단계로 성장시키는 요리법 🍳

4. 결과: 어떻게 잘할까요? 🏆

5. 환경 보호: 친환경적인 키우기 🌱

🎯 한 줄 요약

1. 문제 정의 (Problem)

2. 방법론 (Methodology)

2.1 데이터 구축 (GigaVerbo-v2 및 Synth)

2.2 토크나이저 최적화

2.3 학습 전략

2.4 평가 프레임워크

3. 주요 기여 (Key Contributions)

4. 결과 (Results)

5. 의의 및 결론 (Significance)

Tucano 2 Cool: Better Open Source LLMs for Portuguese

🇵🇹 "투카노 2 (Tucano 2)": 포르투갈어를 위한 '똑똑한 친구'를 키운 이야기

1. 문제: 왜 새로운 나무가 필요할까요? 🌳

2. 재료 준비: "기거베르보 (GigaVerbo)"라는 거대한 도서관 📚

3. 훈련 과정: 세 단계로 성장시키는 요리법 🍳

4. 결과: 어떻게 잘할까요? 🏆

5. 환경 보호: 친환경적인 키우기 🌱

🎯 한 줄 요약

1. 문제 정의 (Problem)

2. 방법론 (Methodology)

2.1 데이터 구축 (GigaVerbo-v2 및 Synth)

2.2 토크나이저 최적화

2.3 학습 전략

2.4 평가 프레임워크

3. 주요 기여 (Key Contributions)

4. 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

Rethinking and Red-Teaming Protective Perturbation in Personalized Diffusion Models

A Survey of Mamba

A Guide to Bayesian Networks Software Packages for Structure and Parameter Learning -- 2025 Edition

AI Literacy for Legal AI Systems: A practical approach

Parallel BiLSTM-Transformer networks for forecasting chaotic dynamics