Sabi\'a-4 Technical Report

Each language version is independently generated for its own context, not a direct translation.

这份技术报告介绍了一款名为 Sabiá-4（及其小版本 Sabiazinho-4）的新一代人工智能模型。你可以把它想象成巴西的“超级智能助手”，它特别擅长说巴西葡萄牙语，并且是法律领域的专家。

为了让你更容易理解，我们可以把开发这个模型的过程比作培养一位顶尖的巴西律师，而把它的性能比作性价比极高的“超级工具”。

以下是用生活中的比喻对这份报告的通俗解读：

1. 核心目标：既聪明又省钱

想象一下，你正在装修房子。

其他大模型（如 GPT-5 或 Gemini 的高级版）就像是从国外进口的顶级定制家具，功能强大但价格昂贵，可能只有大富豪用得起。
Sabiá-4 则像是由巴西本土顶尖工匠打造的家具。它同样坚固、美观、功能齐全，但价格只有进口家具的一小部分。
报告中的图表（图 1）显示，Sabiá-4 处于“左上角”的最佳位置：既便宜，又好用。

2. 它是如何“练”出来的？（四步训练法）

开发团队没有从零开始造一个大脑，而是给一个通用的“大学生”模型进行了四阶段的特训：

第一阶段：恶补巴西语和法律（持续预训练）
- 比喻：就像让这位大学生去巴西的图书馆和法院实习。他不仅读了所有的巴西日常书籍，还啃完了厚厚的法律条文和判决书。这让他对巴西的文化、俚语和复杂的法律逻辑了如指掌。
第二阶段：锻炼“超级记忆力”（长上下文扩展）
- 比喻：以前的模型可能只能记住一本小册子的内容，读长篇小说就忘了开头。现在，我们给它的记忆库扩容到了128K 个 token（相当于能一次性读完好几本厚书）。
- 效果：它能一口气读完几百页的法律卷宗，还能记得住第一页提到的细节，不会“读着读着就忘”。
第三阶段：实战演练（监督微调）
- 比喻：让它在模拟法庭上练习。
  - 聊天：学会像真人一样自然对话，而不是像机器人。
  - 写代码：学会编程。
  - 法律任务：练习起草合同、写判决书。
  - 调用工具：学会像特工一样使用外部工具（比如上网搜索、查银行转账）。
第四阶段：情商与规范训练（偏好对齐）
- 比喻：这是最后的“礼仪课”。教它不仅要回答对，还要回答得得体。比如，法官说话要严肃，律师说话要专业，还要严格遵守格式要求（比如“不要使用逗号”这种奇怪的指令也能听懂）。

3. 它有多厉害？（六大考试）

为了证明它的实力，团队给它安排了六场“期末考试”：

日常聊天考试 (BRACEval)：看它能不能像巴西本地人一样聊天，会不会因为用户挑衅而生气，或者只会说“是是是”的废话。
- 结果：它赢了 GPT-4o 很多，聊天很自然。
法律写作考试 (OAB & Magis Bench)：
- OAB 考试：模拟巴西律师资格考试，让它写辩护词。
- Magis 考试：模拟法官选拔考试，让它写判决书。
- 结果：在写法律文书方面，它比很多昂贵的国际模型都要强，甚至接近顶尖水平。
法律常识考试 (巴西联邦法律)：
- 比喻：就像考“巴西法律百科”。题目涉及 5 万多部法律。
- 结果：它记得非常牢，准确率极高。
长文理解考试 (MRCR)：
- 比喻：在一本 1000 页的书中，让你找出第 800 页提到的一个名字，并把它和第 200 页的另一个名字联系起来。
- 结果：随着文章变长，它的表现依然很稳，没有“断片”。
指令遵循考试 (Multi-IF)：
- 比喻：用户说：“写个故事，不要逗号。”然后又说：“把故事改成诗歌。”最后说：“把诗歌里的‘猫’改成‘狗’，并且用六颗星隔开。”
- 结果：它能记住所有层层叠加的要求，不遗漏任何一个细节。
特工任务考试 (Agentic Capabilities)：
- 比喻：让它当你的“数字助理”。
  - 买球票：查赛程、比价格、下单。
  - 银行转账：查余额、确认收款人、转账。
  - 上网搜索：像侦探一样，通过多次搜索拼凑出复杂问题的答案。
- 结果：它能独立完成任务，成功率很高。

4. 总结与未来

Sabiá-4 就像是一个懂巴西法律、记忆力超群、说话得体且价格亲民的“全能管家”。

它的优势：在巴西法律领域特别强，处理长文档很稳，而且性价比极高（花小钱办大事）。
未来计划：团队打算让它变得更聪明（加入推理能力），记忆容量更大（256K），并推出更稳定的版本。

一句话总结：如果你需要在巴西处理法律文件、写长文章，或者需要一个懂本地文化的智能助手，Sabiá-4 就是一个既省钱又靠谱的顶级选择。

Sabiá-4 Technical Report

1. 核心目标：既聪明又省钱

2. 它是如何“练”出来的？（四步训练法）

3. 它有多厉害？（六大考试）

4. 总结与未来

论文技术总结：Sabiá-4 与 Sabiazinho-4

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

3. 关键贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与影响 (Significance)

Sabiá-4 Technical Report

1. 核心目标：既聪明又省钱

2. 它是如何“练”出来的？（四步训练法）

3. 它有多厉害？（六大考试）

4. 总结与未来

论文技术总结：Sabiá-4 与 Sabiazinho-4

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

3. 关键贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与影响 (Significance)

类似论文

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models