MiroThinker-1.7 & H1: Towards Heavy-Duty Research Agents via Verification

本文介绍了专为复杂长程推理任务设计的 MiroThinker-1.7 及其具备强验证能力的扩展版本 H1,通过引入结构化规划、工具交互及多层次验证机制,在开放网络研究、科学推理和金融分析等基准测试中实现了最先进的性能,并开源了相关模型以提升研究代理的效率与可靠性。

MiroMind Team, S. Bai, L. Bing, L. Lei, R. Li, X. Li, X. Lin, E. Min, L. Su, B. Wang, L. Wang, L. Wang, S. Wang, X. Wang, Y. Zhang, Z. Zhang, G. Chen, L. Chen, Z. Cheng, Y. Deng, Z. Huang, D. Ng, J. Ni, Q. Ren, X. Tang, B. L. Wang, H. Wang, N. Wang, C. Wei, Q. Wu, J. Xia, Y. Xiao, H. Xu, X. Xu, C. Xue, Z. Yang, Z. Yang, F. Ye, H. Ye, J. Yu, C. Zhang, W. Zhang, H. Zhao, P. Zhu

发布于 Wed, 18 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 MiroThinker 的超级智能助手团队,特别是他们的两个新成员:MiroThinker-1.7 和更强大的 MiroThinker-H1

为了让你轻松理解,我们可以把做复杂的“深度研究”(比如写一份关于全球气候变化的深度报告,或者分析一家公司的财务风险)想象成在一个巨大的迷宫里寻找宝藏

1. 以前的困境:盲目乱撞 vs. 聪明规划

以前的 AI 助手(就像刚进迷宫的新手)虽然很聪明,但面对复杂任务时,它们往往喜欢**“盲目乱撞”**。

  • 问题:它们可能会走很多弯路,或者在一条死胡同里钻牛角尖,甚至因为走错了一步,后面就跟着错了一连串(就像在迷宫里走错了路口,后面所有的路都白走了)。
  • 旧观念:人们曾以为,只要让 AI 多走几步、多问几次(增加交互次数),它就能找到答案。
  • 新发现:MiroThinker 团队发现,“走得快”不如“走得对”。如果每一步都走错了,走一万步也是徒劳。

2. MiroThinker-1.7:训练有素的“探路者”

MiroThinker-1.7 就像是一个经过严格特训的探路者

  • 核心技能:它不再盲目乱跑,而是学会了**“三步走”**:
    1. 先画地图(规划):在出发前,先想好大致的路线。
    2. 边走边看(推理):每走一步,都仔细思考这一步对不对,需不需要调整。
    3. 定期总结(工具使用):每收集一点信息,就整理一下,而不是把一堆杂乱无章的纸条塞进脑子里。
  • 效果:它不需要走很多步就能找到宝藏,而且每一步都踩在点子上。这就好比它手里有一张精准的指南针,而不是靠运气蒙。

3. MiroThinker-H1:自带“纠错员”和“质检官”的超级特工

如果说 1.7 是探路者,那 MiroThinker-H1 就是带了两名超级保镖的精英特工。它引入了一个核心概念:“验证”(Verification)

想象一下,你在做一道超级难的数学题:

  • 本地验证(Local Verifier)—— 随身纠错员
    • 当你算到第 3 步时,这个“纠错员”会立刻跳出来检查:“嘿,你刚才这一步好像有点不对劲,要不要换个思路?”
    • 作用:它能在错误刚发生时就立刻修正,防止你沿着错误的方向越走越远。这让 H1 在遇到难题时,能迅速掉头,而不是死磕。
  • 全局验证(Global Verifier)—— 最终质检官
    • 当你终于找到了宝藏(答案),这个“质检官”会站在高处审视整个旅程:“你找到的这个宝藏,真的是我们要找的吗?你走过的所有路,证据链完整吗?”
    • 作用:如果证据不足,它会拒绝提交答案,并命令特工重新去搜集证据,直到万无一失。

4. 为什么它们这么厉害?(实战成绩)

论文里展示了很多“考试”成绩(比如 BrowseComp、科学竞赛、金融分析等):

  • MiroThinker-H1 在这些考试中几乎拿遍了第一,甚至超过了像 GPT-5、Claude 4.6 这样世界顶级的商业模型。
  • 特别是在科学推理金融分析这种需要极高准确率的领域,H1 表现得像个老练的专家,而不是只会背书的机器。
  • 更有趣的是,他们还有一个**“迷你版”(MiroThinker-1.7-mini),虽然个头小(参数少),但因为训练得特别好,也能打败很多大个子模型。这就像是一个身材瘦小但身怀绝技的武林高手**,比那些笨重的大块头更灵活、更精准。

5. 总结:从“堆时间”到“拼质量”

这篇论文的核心思想可以总结为一句话:
做复杂的事情,靠的不是“死磕”和“堆时间”,而是“每一步都要走对”和“随时自我检查”。

  • 以前的 AI:像是一个勤奋但有点迷糊的学生,为了做对题,疯狂刷题,但经常因为粗心做错。
  • MiroThinker:像是一个聪明的侦探,它懂得规划路线,每走一步都自我反省,每到一个关键节点都有人帮它把关。

一句话概括:MiroThinker 让 AI 从“盲目努力”变成了“聪明地努力”,不仅能自己查资料、写报告,还能像人类专家一样,在犯错时及时回头,确保最终给出的答案是经过千锤百炼的真理。