Each language version is independently generated for its own context, not a direct translation.
这份技术报告介绍了一款名为 Sabiá-4(及其小版本 Sabiazinho-4)的新一代人工智能模型。你可以把它想象成巴西的“超级智能助手”,它特别擅长说巴西葡萄牙语,并且是法律领域的专家。
为了让你更容易理解,我们可以把开发这个模型的过程比作培养一位顶尖的巴西律师,而把它的性能比作性价比极高的“超级工具”。
以下是用生活中的比喻对这份报告的通俗解读:
1. 核心目标:既聪明又省钱
想象一下,你正在装修房子。
- 其他大模型(如 GPT-5 或 Gemini 的高级版)就像是从国外进口的顶级定制家具,功能强大但价格昂贵,可能只有大富豪用得起。
- Sabiá-4 则像是由巴西本土顶尖工匠打造的家具。它同样坚固、美观、功能齐全,但价格只有进口家具的一小部分。
- 报告中的图表(图 1)显示,Sabiá-4 处于“左上角”的最佳位置:既便宜,又好用。
2. 它是如何“练”出来的?(四步训练法)
开发团队没有从零开始造一个大脑,而是给一个通用的“大学生”模型进行了四阶段的特训:
- 第一阶段:恶补巴西语和法律(持续预训练)
- 比喻:就像让这位大学生去巴西的图书馆和法院实习。他不仅读了所有的巴西日常书籍,还啃完了厚厚的法律条文和判决书。这让他对巴西的文化、俚语和复杂的法律逻辑了如指掌。
- 第二阶段:锻炼“超级记忆力”(长上下文扩展)
- 比喻:以前的模型可能只能记住一本小册子的内容,读长篇小说就忘了开头。现在,我们给它的记忆库扩容到了128K 个 token(相当于能一次性读完好几本厚书)。
- 效果:它能一口气读完几百页的法律卷宗,还能记得住第一页提到的细节,不会“读着读着就忘”。
- 第三阶段:实战演练(监督微调)
- 比喻:让它在模拟法庭上练习。
- 聊天:学会像真人一样自然对话,而不是像机器人。
- 写代码:学会编程。
- 法律任务:练习起草合同、写判决书。
- 调用工具:学会像特工一样使用外部工具(比如上网搜索、查银行转账)。
- 第四阶段:情商与规范训练(偏好对齐)
- 比喻:这是最后的“礼仪课”。教它不仅要回答对,还要回答得得体。比如,法官说话要严肃,律师说话要专业,还要严格遵守格式要求(比如“不要使用逗号”这种奇怪的指令也能听懂)。
3. 它有多厉害?(六大考试)
为了证明它的实力,团队给它安排了六场“期末考试”:
- 日常聊天考试 (BRACEval):看它能不能像巴西本地人一样聊天,会不会因为用户挑衅而生气,或者只会说“是是是”的废话。
- 法律写作考试 (OAB & Magis Bench):
- OAB 考试:模拟巴西律师资格考试,让它写辩护词。
- Magis 考试:模拟法官选拔考试,让它写判决书。
- 结果:在写法律文书方面,它比很多昂贵的国际模型都要强,甚至接近顶尖水平。
- 法律常识考试 (巴西联邦法律):
- 比喻:就像考“巴西法律百科”。题目涉及 5 万多部法律。
- 结果:它记得非常牢,准确率极高。
- 长文理解考试 (MRCR):
- 比喻:在一本 1000 页的书中,让你找出第 800 页提到的一个名字,并把它和第 200 页的另一个名字联系起来。
- 结果:随着文章变长,它的表现依然很稳,没有“断片”。
- 指令遵循考试 (Multi-IF):
- 比喻:用户说:“写个故事,不要逗号。”然后又说:“把故事改成诗歌。”最后说:“把诗歌里的‘猫’改成‘狗’,并且用六颗星隔开。”
- 结果:它能记住所有层层叠加的要求,不遗漏任何一个细节。
- 特工任务考试 (Agentic Capabilities):
- 比喻:让它当你的“数字助理”。
- 买球票:查赛程、比价格、下单。
- 银行转账:查余额、确认收款人、转账。
- 上网搜索:像侦探一样,通过多次搜索拼凑出复杂问题的答案。
- 结果:它能独立完成任务,成功率很高。
4. 总结与未来
Sabiá-4 就像是一个懂巴西法律、记忆力超群、说话得体且价格亲民的“全能管家”。
- 它的优势:在巴西法律领域特别强,处理长文档很稳,而且性价比极高(花小钱办大事)。
- 未来计划:团队打算让它变得更聪明(加入推理能力),记忆容量更大(256K),并推出更稳定的版本。
一句话总结:如果你需要在巴西处理法律文件、写长文章,或者需要一个懂本地文化的智能助手,Sabiá-4 就是一个既省钱又靠谱的顶级选择。
Each language version is independently generated for its own context, not a direct translation.
以下是基于《Sabiá-4 Technical Report》的技术总结:
论文技术总结:Sabiá-4 与 Sabiazinho-4
1. 研究背景与问题 (Problem)
尽管大型语言模型(LLM)在通用领域取得了显著进展,但在巴西葡萄牙语(Brazilian Portuguese)的特定应用场景,尤其是法律领域,仍存在以下挑战:
- 语言与文化特异性:通用模型在巴西法律术语、司法程序及本地化语境下的理解与生成能力不足。
- 长上下文处理:处理长篇法律文档(如判决书、法规汇编)时,模型往往难以保持信息的连贯性和准确性。
- 指令遵循与智能体能力:在复杂的多轮对话、代码生成、函数调用及工具使用(如网页导航、API 调用)方面,现有模型表现不稳定。
- 成本与性能的平衡:高性能模型通常价格昂贵,难以在大规模生产环境中部署,缺乏高性价比的专用模型。
2. 方法论 (Methodology)
研究团队提出了一种四阶段训练管道,旨在构建专注于巴西葡萄牙语及法律领域的新一代模型(Sabiá-4 和 Sabiazinho-4):
- 持续预训练 (Continued Pre-training):
- 基于通用基础模型,利用大规模葡萄牙语语料库和巴西法律语料库进行持续学习。
- 通过数据清洗、相关性评分和文档重写,确保训练数据的高质量,使模型深入理解巴西法律体系。
- 长上下文扩展 (Long-Context Extension):
- 专门针对长文档进行训练,将模型的上下文窗口扩展至 128K tokens。
- 使用包含自然长文档的数据源,提升模型在长文本中的信息检索与理解能力。
- 监督微调 (Supervised Fine-Tuning, SFT):
- 使用涵盖多领域(聊天、代码、法律任务、指令遵循、函数调用/智能体任务)的指令数据集进行微调。
- 针对多轮对话质量、零样本场景及函数调用能力进行了专门的数据增强(包括合成数据生成)。
- 偏好对齐 (Preference Alignment):
- 通过人类反馈或偏好数据,优化模型的输出风格,使其更符合人类偏好。
- 重点提升对细微语言差别的理解,并严格遵循特定的格式要求(如法律文书格式)。
基础设施:使用 Google Cloud TPUs v5p 和 v6e,基于 JAX 框架进行分布式训练。
3. 关键贡献 (Key Contributions)
- 专用法律模型:发布了 Sabiá-4 和 Sabiazinho-4,这是目前针对巴西葡萄牙语法律领域最先进(SOTA)的模型系列,显著提升了法律文书起草和司法决策的准确性。
- 128K 长上下文能力:成功将上下文窗口扩展至 128K,并通过 MRCR(多轮共指消解)等基准测试验证了其在长文档中的推理能力。
- 智能体与工具使用:增强了模型在函数调用、网页导航及多步任务(如购票、转账)中的执行能力,使其适用于检索增强生成(RAG)等结构化工作流。
- 高性价比:通过领域专用化训练,实现了在保持高性能的同时大幅降低推理成本,填补了低成本与高性能之间的市场空白。
4. 实验结果 (Results)
研究在六个主要类别的基准测试中进行了评估,结果显示:
- 成本 - 性能优势:在“价格 - 性能”图表中,Sabiá-4 系列位于左上象限(即成本低、准确率高),优于许多昂贵的闭源模型(如 GPT-5, Gemini-3 Pro 等)。
- 法律领域表现:
- OAB Bench (律师风格):Sabiá-4 得分 7.49,优于 Qwen3-235B (6.33) 和 GPT-4.1 (7.30),接近 GPT-5.2 (instant) 的水平。
- Magis Bench (法官风格):Sabiá-4 得分 5.08,在同类成本模型中表现优异。
- 巴西法律知识点:在巴西联邦法律的多项选择题测试中,Sabiá-4 准确率达到 97.4%,远超其他模型。
- 长上下文理解:在 MRCR 基准测试中,Sabiá-4 在 128K 上下文长度下保持了较高的准确率,显著优于前代模型。
- 智能体能力:在 Ticket-Bench 和 Pix-Bench 等工具使用测试中,Sabiá-4 展现了强大的任务完成能力(Pass@3 指标)。
- 指令遵循与对话:在多轮指令遵循(Multi-IF)和巴西语对话(BRACEval)测试中,Sabiá-4 均取得了具有竞争力的分数,特别是在多轮对话的连贯性上有所提升。
5. 意义与影响 (Significance)
- 推动巴西法律科技 (LegalTech):该模型为巴西法律行业提供了一个高精度、低成本的自动化工具,能够辅助律师起草文件、法官撰写判决书以及进行法律研究。
- 开源与本地化范式:证明了通过“持续预训练 + 领域微调”的策略,可以在不从头训练超大模型的情况下,构建出在特定领域(如法律)超越通用大模型的专用模型。
- 生产级部署:其优异的成本效益比使得在资源受限的生产环境中部署高性能 AI 成为可能,特别是在需要处理长文档和复杂法律逻辑的场景中。
- 未来方向:该工作为后续开发支持更长上下文(256K tokens)及具备更强推理能力的模型奠定了基础。
总结:Sabiá-4 系列模型通过针对性的四阶段训练,成功解决了巴西葡萄牙语在法律和长文本处理上的痛点,以极具竞争力的成本提供了接近甚至超越顶级闭源模型的性能,是区域化大模型发展的一个重要里程碑。