Sabiá-4 Technical Report

该报告介绍了专注于巴西葡萄牙语的新一代模型 Sabi'a-4 和 Sabiazinho-4,它们通过包含法律语料持续预训练、128K 长上下文扩展及多任务微调的四阶段训练流程,在法律文档撰写、多轮对话及智能体任务等方面展现出优异表现,并实现了成本与性能的最佳平衡。

Thiago Laitz, Thales Sales Almeida, Hugo Abonizio, Roseval Malaquias Junior, Giovana Kerche Bonás, Marcos Piau, Celio Larcher, Ramon Pires, Rodrigo Nogueira

发布于 2026-03-12
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这份技术报告介绍了一款名为 Sabiá-4(及其小版本 Sabiazinho-4)的新一代人工智能模型。你可以把它想象成巴西的“超级智能助手”,它特别擅长说巴西葡萄牙语,并且是法律领域的专家

为了让你更容易理解,我们可以把开发这个模型的过程比作培养一位顶尖的巴西律师,而把它的性能比作性价比极高的“超级工具”

以下是用生活中的比喻对这份报告的通俗解读:

1. 核心目标:既聪明又省钱

想象一下,你正在装修房子。

  • 其他大模型(如 GPT-5 或 Gemini 的高级版)就像是从国外进口的顶级定制家具,功能强大但价格昂贵,可能只有大富豪用得起。
  • Sabiá-4 则像是由巴西本土顶尖工匠打造的家具。它同样坚固、美观、功能齐全,但价格只有进口家具的一小部分
  • 报告中的图表(图 1)显示,Sabiá-4 处于“左上角”的最佳位置:既便宜,又好用

2. 它是如何“练”出来的?(四步训练法)

开发团队没有从零开始造一个大脑,而是给一个通用的“大学生”模型进行了四阶段的特训

  • 第一阶段:恶补巴西语和法律(持续预训练)
    • 比喻:就像让这位大学生去巴西的图书馆和法院实习。他不仅读了所有的巴西日常书籍,还啃完了厚厚的法律条文和判决书。这让他对巴西的文化、俚语和复杂的法律逻辑了如指掌。
  • 第二阶段:锻炼“超级记忆力”(长上下文扩展)
    • 比喻:以前的模型可能只能记住一本小册子的内容,读长篇小说就忘了开头。现在,我们给它的记忆库扩容到了128K 个 token(相当于能一次性读完好几本厚书)。
    • 效果:它能一口气读完几百页的法律卷宗,还能记得住第一页提到的细节,不会“读着读着就忘”。
  • 第三阶段:实战演练(监督微调)
    • 比喻:让它在模拟法庭上练习。
      • 聊天:学会像真人一样自然对话,而不是像机器人。
      • 写代码:学会编程。
      • 法律任务:练习起草合同、写判决书。
      • 调用工具:学会像特工一样使用外部工具(比如上网搜索、查银行转账)。
  • 第四阶段:情商与规范训练(偏好对齐)
    • 比喻:这是最后的“礼仪课”。教它不仅要回答对,还要回答得得体。比如,法官说话要严肃,律师说话要专业,还要严格遵守格式要求(比如“不要使用逗号”这种奇怪的指令也能听懂)。

3. 它有多厉害?(六大考试)

为了证明它的实力,团队给它安排了六场“期末考试”:

  1. 日常聊天考试 (BRACEval):看它能不能像巴西本地人一样聊天,会不会因为用户挑衅而生气,或者只会说“是是是”的废话。
    • 结果:它赢了 GPT-4o 很多,聊天很自然。
  2. 法律写作考试 (OAB & Magis Bench)
    • OAB 考试:模拟巴西律师资格考试,让它写辩护词。
    • Magis 考试:模拟法官选拔考试,让它写判决书。
    • 结果:在写法律文书方面,它比很多昂贵的国际模型都要强,甚至接近顶尖水平。
  3. 法律常识考试 (巴西联邦法律)
    • 比喻:就像考“巴西法律百科”。题目涉及 5 万多部法律。
    • 结果:它记得非常牢,准确率极高。
  4. 长文理解考试 (MRCR)
    • 比喻:在一本 1000 页的书中,让你找出第 800 页提到的一个名字,并把它和第 200 页的另一个名字联系起来。
    • 结果:随着文章变长,它的表现依然很稳,没有“断片”。
  5. 指令遵循考试 (Multi-IF)
    • 比喻:用户说:“写个故事,不要逗号。”然后又说:“把故事改成诗歌。”最后说:“把诗歌里的‘猫’改成‘狗’,并且用六颗星隔开。”
    • 结果:它能记住所有层层叠加的要求,不遗漏任何一个细节。
  6. 特工任务考试 (Agentic Capabilities)
    • 比喻:让它当你的“数字助理”。
      • 买球票:查赛程、比价格、下单。
      • 银行转账:查余额、确认收款人、转账。
      • 上网搜索:像侦探一样,通过多次搜索拼凑出复杂问题的答案。
    • 结果:它能独立完成任务,成功率很高。

4. 总结与未来

Sabiá-4 就像是一个懂巴西法律、记忆力超群、说话得体且价格亲民的“全能管家”

  • 它的优势:在巴西法律领域特别强,处理长文档很稳,而且性价比极高(花小钱办大事)。
  • 未来计划:团队打算让它变得更聪明(加入推理能力),记忆容量更大(256K),并推出更稳定的版本。

一句话总结:如果你需要在巴西处理法律文件、写长文章,或者需要一个懂本地文化的智能助手,Sabiá-4 就是一个既省钱又靠谱的顶级选择。