Tucano 2 Cool: Better Open Source LLMs for Portuguese

本文介绍了 Tucano 2,这是一套专为葡萄牙语优化的全开源大语言模型系列(0.5 至 37 亿参数),通过构建高质量及合成数据集、优化训练配方并扩展评估体系,在多项葡萄牙语基准测试中实现了最先进的性能,并全面开源了所有训练资源以确保可复现性。

Nicholas Kluge Corrêa, Aniket Sen, Shiza Fatimah, Sophia Falk, Lennard Landgraf, Julia Kastner, Lucie Flek

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 Tucano 2(巨嘴鸟 2 号)的项目,它的核心目标是:让葡萄牙语(巴西和葡萄牙的官方语言)也能拥有像英语那样强大、免费且透明的“大脑”

想象一下,目前的互联网世界就像一座巨大的图书馆。英语的书架上堆满了最顶尖的书籍(数据)和最聪明的图书管理员(AI 模型),而葡萄牙语的书架虽然也有书,但要么书很少,要么书的质量参差不齐,要么只有少数人知道怎么借书(闭源模型)。

Tucano 2 团队就像是一群热心的“图书管理员”,他们做了几件大事来改变这种局面:

1. 重新整理图书馆:打造超级教材 (GigaVerbo-v2)

以前的葡萄牙语模型就像是用“网上随便抓来的垃圾信息”训练的,里面混杂着广告、乱码和无聊的废话。

  • Tucano 2 的做法:他们建立了一个巨大的过滤器,就像请了一位超级挑剔的“美食评论家”(用更强大的 AI 来打分),把 3200 亿个单词的素材里,只留下那些像教科书一样高质量、有教育意义的内容。
  • 填补空白:他们还发现有些领域(比如数学推理、编程)的素材不够,于是用 AI 自己“写”了 93 亿个单词的合成教材(GigaVerbo-v2 Synth),专门用来填补这些知识盲区。
  • 比喻:这就像是从一堆乱糟糟的旧报纸里,精挑细选出了最精华的报纸,又请作家专门写了一些高质量的科普文章,最后装订成了一套完美的“葡萄牙语百科全书”。

2. 定制专属的“速记员”:优化分词器 (Tokenizer)

大模型阅读文字时,是把句子切成一个个小碎片(Token)来理解的。通用的模型(比如 Qwen 或 Llama)就像是用“英语分词规则”来切葡萄牙语,效率很低,切得碎碎的,读起来慢吞吞。

  • Tucano 2 的做法:他们专门为葡萄牙语设计了一个**“速记员”**。这个速记员非常懂葡萄牙语,能把一个长单词完整地作为一个“词块”记住,而不是切成七八个碎片。
  • 效果:这让模型读同样的内容,只需要原来 70% 的力气,既省电费又跑得快。
  • 比喻:就像以前读葡萄牙语要像读拼音一样一个个字母拼,现在可以直接读整句成语,效率提升了 30%。

3. 两种训练策略:从零开始 vs. 借鸡生蛋

团队用了两种方法来训练模型:

  • 从零开始 (Base Models):像教一个婴儿一样,用上面整理好的“超级教材”从头教起。虽然规模不大(0.5 亿到 3.7 亿参数),但在这个尺寸下,它比很多大得多的多语言模型都要聪明。
  • 借鸡生蛋 (Continual Pretraining):这是更聪明的做法。他们直接拿了一个已经非常聪明的“英语天才”(Qwen3 模型),然后只给它“换”了一个葡萄牙语的脑子(分词器),再喂给它大量的葡萄牙语教材进行“进修”。
  • 比喻:这就好比一个已经精通微积分的数学家,只需要花很少的时间学习葡萄牙语语法和词汇,就能立刻成为顶级的葡萄牙语数学家。这种方法既省钱又高效。

4. 两种性格的模型:指令型 vs. 思考型

为了让模型更实用,他们训练了两种性格的模型:

  • Tucano 2 Instruct (指令型):像是一个听话的助手。你让它写代码、总结文章、回答问题,它立刻就能给出结果。
  • Tucano 2 Think (思考型):像是一个爱动脑筋的学者。在回答问题前,它会先在心里打草稿(Chain-of-Thought),一步步推理,把思考过程展示出来。这是为了解决葡萄牙语模型以前“只会死记硬背,不会逻辑推理”的痛点。
  • 亮点:这是目前开源界少有的能全程用葡萄牙语进行深度逻辑推理的模型。

5. 完全透明:把“菜谱”都公开了

很多公司训练好模型就卖,不告诉你怎么做的。Tucano 2 团队则像是一个开源的“米其林餐厅”

  • 他们不仅发布了模型(做好的菜),还公开了所有数据(食材)、训练代码(菜谱)、筛选标准(挑选食材的方法)以及测试报告(试吃评价)。
  • 这意味着任何懂技术的人都可以复现他们的成果,或者在此基础上继续改进,而不是只能干瞪眼。

总结

Tucano 2 就像是给葡萄牙语世界送了一套“开源的超级大脑”。
它证明了:你不需要花几亿美元去训练一个巨大的模型,只要数据质量高、方法科学、工具优化得当,小模型也能在特定语言上打败那些庞大但粗糙的多语言模型。

这对我们意味着什么?
对于说葡萄牙语的人来说,以后可以用上更便宜、更聪明、更懂自己文化的 AI 助手;对于全球 AI 社区来说,这是一个很好的榜样,展示了如何公平、透明地发展低资源语言的人工智能。