Each language version is independently generated for its own context, not a direct translation.
这篇论文介绍了一个名为 Tucano 2(巨嘴鸟 2 号)的项目,它的核心目标是:让葡萄牙语(巴西和葡萄牙的官方语言)也能拥有像英语那样强大、免费且透明的“大脑”。
想象一下,目前的互联网世界就像一座巨大的图书馆。英语的书架上堆满了最顶尖的书籍(数据)和最聪明的图书管理员(AI 模型),而葡萄牙语的书架虽然也有书,但要么书很少,要么书的质量参差不齐,要么只有少数人知道怎么借书(闭源模型)。
Tucano 2 团队就像是一群热心的“图书管理员”,他们做了几件大事来改变这种局面:
1. 重新整理图书馆:打造超级教材 (GigaVerbo-v2)
以前的葡萄牙语模型就像是用“网上随便抓来的垃圾信息”训练的,里面混杂着广告、乱码和无聊的废话。
- Tucano 2 的做法:他们建立了一个巨大的过滤器,就像请了一位超级挑剔的“美食评论家”(用更强大的 AI 来打分),把 3200 亿个单词的素材里,只留下那些像教科书一样高质量、有教育意义的内容。
- 填补空白:他们还发现有些领域(比如数学推理、编程)的素材不够,于是用 AI 自己“写”了 93 亿个单词的合成教材(GigaVerbo-v2 Synth),专门用来填补这些知识盲区。
- 比喻:这就像是从一堆乱糟糟的旧报纸里,精挑细选出了最精华的报纸,又请作家专门写了一些高质量的科普文章,最后装订成了一套完美的“葡萄牙语百科全书”。
2. 定制专属的“速记员”:优化分词器 (Tokenizer)
大模型阅读文字时,是把句子切成一个个小碎片(Token)来理解的。通用的模型(比如 Qwen 或 Llama)就像是用“英语分词规则”来切葡萄牙语,效率很低,切得碎碎的,读起来慢吞吞。
- Tucano 2 的做法:他们专门为葡萄牙语设计了一个**“速记员”**。这个速记员非常懂葡萄牙语,能把一个长单词完整地作为一个“词块”记住,而不是切成七八个碎片。
- 效果:这让模型读同样的内容,只需要原来 70% 的力气,既省电费又跑得快。
- 比喻:就像以前读葡萄牙语要像读拼音一样一个个字母拼,现在可以直接读整句成语,效率提升了 30%。
3. 两种训练策略:从零开始 vs. 借鸡生蛋
团队用了两种方法来训练模型:
- 从零开始 (Base Models):像教一个婴儿一样,用上面整理好的“超级教材”从头教起。虽然规模不大(0.5 亿到 3.7 亿参数),但在这个尺寸下,它比很多大得多的多语言模型都要聪明。
- 借鸡生蛋 (Continual Pretraining):这是更聪明的做法。他们直接拿了一个已经非常聪明的“英语天才”(Qwen3 模型),然后只给它“换”了一个葡萄牙语的脑子(分词器),再喂给它大量的葡萄牙语教材进行“进修”。
- 比喻:这就好比一个已经精通微积分的数学家,只需要花很少的时间学习葡萄牙语语法和词汇,就能立刻成为顶级的葡萄牙语数学家。这种方法既省钱又高效。
4. 两种性格的模型:指令型 vs. 思考型
为了让模型更实用,他们训练了两种性格的模型:
- Tucano 2 Instruct (指令型):像是一个听话的助手。你让它写代码、总结文章、回答问题,它立刻就能给出结果。
- Tucano 2 Think (思考型):像是一个爱动脑筋的学者。在回答问题前,它会先在心里打草稿(Chain-of-Thought),一步步推理,把思考过程展示出来。这是为了解决葡萄牙语模型以前“只会死记硬背,不会逻辑推理”的痛点。
- 亮点:这是目前开源界少有的能全程用葡萄牙语进行深度逻辑推理的模型。
5. 完全透明:把“菜谱”都公开了
很多公司训练好模型就卖,不告诉你怎么做的。Tucano 2 团队则像是一个开源的“米其林餐厅”:
- 他们不仅发布了模型(做好的菜),还公开了所有数据(食材)、训练代码(菜谱)、筛选标准(挑选食材的方法)以及测试报告(试吃评价)。
- 这意味着任何懂技术的人都可以复现他们的成果,或者在此基础上继续改进,而不是只能干瞪眼。
总结
Tucano 2 就像是给葡萄牙语世界送了一套“开源的超级大脑”。
它证明了:你不需要花几亿美元去训练一个巨大的模型,只要数据质量高、方法科学、工具优化得当,小模型也能在特定语言上打败那些庞大但粗糙的多语言模型。
这对我们意味着什么?
对于说葡萄牙语的人来说,以后可以用上更便宜、更聪明、更懂自己文化的 AI 助手;对于全球 AI 社区来说,这是一个很好的榜样,展示了如何公平、透明地发展低资源语言的人工智能。
Each language version is independently generated for its own context, not a direct translation.
论文技术总结:Tucano 2 —— 面向葡萄牙语的全开源大语言模型套件
1. 研究背景与问题 (Problem)
尽管大语言模型(LLM)在自然语言处理领域取得了巨大进展,但资源分布极不均衡。英语等高分资源语言拥有海量数据和顶尖模型,而包括葡萄牙语在内的许多低资源语言则严重滞后。
- 现有差距:现有的葡萄牙语模型要么闭源(缺乏透明度),要么性能远不及同等规模的多语言模型(如 Qwen3、Gemma 3)。
- 可复现性缺失:大多数高性能系统未公开完整的数据集、训练配方、超参数和评估协议,阻碍了独立研究和社区驱动的改进。
- 数据与评估挑战:缺乏高质量、经过严格筛选的葡萄牙语预训练语料,且现有的葡萄牙语评估基准往往噪声大、信号弱,难以有效指导模型训练。
2. 方法论 (Methodology)
Tucano 2 项目构建了一个完全开源的葡萄牙语 LLM 开发全栈,涵盖从数据构建、模型训练到评估的各个环节。
2.1 数据构建 (Pretraining Data)
- GigaVerbo-v2:构建了一个约 3200 亿 Token 的葡萄牙语清洗语料库(3.72 亿文档)。
- 质量过滤:采用启发式过滤(重复性、结构完整性)结合LLM-as-a-Judge(使用 Qwen2.5-32B 作为裁判)进行教育质量和毒性评分。
- 分类器蒸馏:将 LLM 的标注蒸馏为轻量级分类器(基于 BERTimbau 等),用于全库规模过滤。
- 合成数据增强 (GigaVerbo-v2 Synth):生成 93 亿 Token 的合成数据,填补教育、科学、法律、数学推理等 Web 数据稀缺领域的空白。
- 后训练数据:
- GigaVerbo-v2 SFT:约 410 万样本(21 亿 Token),涵盖代码、工具调用、数学推理、思维链(CoT)等 12 种任务类型。
- GigaVerbo-v2 Preferences:约 2.8 万对偏好数据,用于对齐模型的安全性和推理质量。
2.2 分词器优化 (Tokenization)
- 训练了一个自定义的 SentencePiece 分词器,基于葡萄牙语、英语和代码的 40-40-20 混合数据。
- 效果:词表大小为 49,152。在葡萄牙语文本上,其子词生育率 (Subword Fertility) 仅为 1.51(优于 Qwen3 的 1.93),压缩效率达到 2.88 字符/Token,相比 Qwen3 分词器可节省约 30% 的计算成本。
2.3 模型训练策略
- Tucano2-0.6B-Base (从头预训练):
- 基于 Llama 架构(6.7 亿参数)。
- 采用 AdamW + Muon 混合优化器,训练过程更稳定。
- 三阶段课程学习:
- 预热 + 稳定阶段:侧重高质量教育数据。
- 稳定阶段:引入合成数据和推理数据。
- 衰减阶段:增加高质量葡萄牙语数据和合成数据比例,强化推理能力。
- Tucano2-qwen 系列 (持续预训练):
- Tokenizer 移植 (OMP):利用正交匹配追踪 (OMP) 算法,将 Qwen3 基座模型的词表从 15 万替换为 4.9 万的葡萄牙语优化词表,减少约 68% 的嵌入参数,同时保留预训练知识。
- 持续预训练:在 0.5B、1.5B、3.7B 三个规模上,仅使用葡萄牙语数据(Web 文本 + 合成数据)进行持续预训练,计算成本极低(<0.3% 原始预训练量)。
- 后训练 (Post-Training):
- 分为 Instruct(指令微调)和 Think(思维链推理)两个变体。
- 采用 SFT 后接 Anchored Preference Optimization (APO) 进行对齐。
2.4 评估框架 (Evaluation Framework)
- 构建了两层评估套件:
- Easy Set:在早期训练阶段(<200B Token)即可提供可靠信号(如 ARC Challenge, HellaSwag)。
- Hard Set:需要更多训练数据(>660B Token)才能体现性能提升(如 ENEM, OAB, MMLU)。
- 针对后训练模型,适配了 IFEval-PT(指令遵循)、GSM8K-PT(数学)、RULER-PT(长上下文)和 HumanEval(代码)等基准。
3. 关键贡献 (Key Contributions)
- 大规模葡萄牙语语料库:发布了 GigaVerbo-v2(320B Token)及其合成增强版,包含丰富的教育和毒性标注。
- 全栈开源资源:公开了所有数据集、训练配方、日志、代码以及用于质量过滤的辅助模型。
- 高效的 Tokenizer:专为葡萄牙语优化的分词器,显著降低了训练和推理成本。
- Tucano 2 模型家族:
- 0.5B - 3.7B 参数的 Base、Instruct 和 Think 变体。
- Think 变体:实现了完全用葡萄牙语进行思维链推理的能力,填补了开源葡萄牙语模型的空白。
- 统一评估套件:提供了涵盖预训练早期和后期、包括长上下文评估的综合基准。
4. 实验结果 (Results)
- 预训练性能:
- Tucano2-0.6B-Base:在 Easy Set 基准上得分为 40.28,显著优于同规模或更大规模的多语言基线(如 Qwen3-0.6B: 26.41, Curió-1.1B: 39.16),且能耗降低了 92%。
- Tucano2-qwen-3.7B-Base:通过持续预训练,在总平均 NPM 分数上达到 59.21,超越了参数量近两倍的 Qwen2.5-7B (57.97) 和 Qwen3-4B (57.86)。
- 后训练性能:
- Instruct 变体:Tucano2-qwen-3.7B-Instruct 在知识推理(Knowledge & Reasoning)方面得分为 56.22,超越 Qwen3-4B (42.33) 和 Gemma-3-Gaia-PT-BR-4b-it (45.00)。
- Think 变体:Tucano2-qwen-3.7B-Think 在推理基准上得分 54.07,优于 Qwen3-4B (40.97),且全程使用葡萄牙语进行推理。
- 效率与成本:
- 持续预训练策略极具成本效益,仅消耗了极少的额外计算资源(<0.13% 总 FLOPs)即实现了性能的大幅跃升。
- 整个项目的碳足迹约为 7,929 kg CO2e,远低于前沿大模型的训练成本。
5. 意义与影响 (Significance)
- 填补低资源语言空白:Tucano 2 证明了通过精心策划的特定语言数据管道和高效的分词策略,可以在有限的计算预算下,构建出性能媲美甚至超越大型多语言模型的专用语言模型。
- 推动可复现研究:该项目树立了“完全开源”的标杆,不仅公开模型权重,还公开了从数据清洗、标注、训练到评估的完整技术栈,极大地降低了葡萄牙语 NLP 研究的门槛。
- 推理能力的突破:成功训练出能够进行全葡萄牙语思维链(CoT)推理的模型,为低资源语言的复杂逻辑任务处理提供了新的解决方案。
- 可持续性:通过合成数据生成和持续预训练策略,展示了如何在保证性能的同时显著降低能源消耗和碳足迹,为绿色 AI 发展提供了参考。
综上所述,Tucano 2 不仅是一组高性能的葡萄牙语模型,更是一套可复现、可扩展的低资源语言大模型开发范式,对促进全球语言多样性在 AI 领域的公平发展具有重要意义。