MiniAppBench: Evaluating the Shift from Text to Interactive HTML Responses in LLM-Powered Assistants

本文提出了首个专注于评估大语言模型生成原则驱动型交互式应用(MiniApps)能力的基准测试 MiniAppBench,并配套开发了基于智能体自动化探索的评估框架 MiniAppEval,以解决现有基准无法有效衡量动态交互逻辑及缺乏单一标准答案的难题。

Zuhao Zhang, Chengyue Yu, Yuante Li, Chenyi Zhuang, Linjian Mo, Shuai Li

发布于 Wed, 11 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于人工智能(AI)如何从“只会说话”进化到“能动手干活”的重要转变。为了让你更轻松地理解,我们可以把这篇论文的核心内容想象成从“写菜谱”到“直接开餐厅”的跨越

1. 核心概念:什么是 MINIAPP?

以前的 AI(Text-based):
想象一下,你问 AI:“我想记录饮食,怎么吃才健康?”
以前的 AI 会给你写一大段文字,像一本菜谱说明书,告诉你:“你应该吃蔬菜,少吃肉,这是卡路里计算公式……"

  • 缺点:你只能看,不能动。如果你真的想记录,还得自己打开 Excel 或笔记本去抄写。

现在的 AI(MINIAPP):
现在的 AI 不仅能说话,还能直接给你变出一个小程序(MiniApp)
当你问同样的问题时,AI 直接生成一个互动网页:上面有一个漂亮的界面,你可以点击按钮添加食物,它会自动计算卡路里,甚至画出你一周的饮食图表。

  • 比喻:以前 AI 是给你菜谱,现在 AI 直接给你开了一家现成的餐厅,你进去就能点菜、吃饭、结账。

2. 为什么要搞这个新测试(MINIAPPBENCH)?

问题出在哪?
以前的测试题(Benchmark)就像是在考 AI 的数学题(代码能不能跑通)或者画画题(网页长得像不像)。
但这就像是在考一个厨师:

  • 旧考题:给你一张照片,让你照着画出来(静态网页);或者让你背出做菜的步骤(算法逻辑)。
  • 新需求:顾客说“我要做一道符合牛顿定律的分子料理”。如果厨师只是把菜端上来,但菜是冷的、或者违背了物理常识(比如水往高处流),那就算菜谱背得再熟,这顿饭也是失败的。

现有的测试不够用
现在的 AI 生成的程序,可能代码写得没错(语法正确),界面也好看,但逻辑是瞎的

  • 例子:用户让 AI 做一个“模拟一周天气”的小程序。AI 生成了一个程序,但程序里显示“一周有 10 天”,或者“水往天上流”。这在旧测试里可能算“通过”,但在现实世界里是完全不可用的。

MINIAPPBENCH 是什么?
这是世界上第一个专门用来考 AI 能不能做出“符合现实逻辑”的互动小程序的考试。

  • 题库来源:他们从真实用户的几百万个需求里,挑出了 500 个最典型的题目(比如:模拟物理实验、设计一个逻辑游戏、制作健康追踪工具)。
  • 考点:不仅要看代码能不能跑,还要看它懂不懂常识(比如一周只有 7 天)、懂不懂科学原理(比如重力会让苹果掉下来)。

3. 怎么给 AI 打分?(MINIAPPEVAL)

难点
以前考代码,答案只有一个(对或错)。但现在考“做小程序”,同一个问题可以有无数种解法。

  • 比如“做一个计算器”,你可以做成红色的,也可以做成蓝色的;可以用按钮,也可以用滑块。没有标准答案,怎么评分?

解决方案:派一个“机器人考官”
作者设计了一个叫 MINIAPPEVAL 的自动评分系统,它像一个拥有超能力的机器人考官

  1. 像人一样操作:它不是只看代码,而是真的打开浏览器,像人一样去点击、拖动、输入
  2. 三个维度的考核
    • 意图(Intention):它是不是真的听懂了用户想干什么?(比如用户要算卡路里,它是不是真在算?)
    • 静态(Static):界面搭得规不规范?(有没有乱码,按钮是不是都在该在的位置)。
    • 动态(Dynamic):这是最关键的!它会在程序里“捣乱”(比如输入错误的日期、疯狂点击按钮),看程序会不会崩溃,或者会不会出现违背常识的结果(比如苹果飞上天)。

比喻
以前的考官是拿着答案纸对答案(静态检查);
现在的考官是直接去餐厅试吃,甚至故意把菜打翻,看厨师(AI)能不能处理得漂亮,做出来的菜是不是真的能吃。

4. 实验结果:AI 现在水平如何?

作者测试了目前最厉害的 16 个大模型(包括 GPT-5, Claude, Gemini 等)。

  • 结果很扎心:即使是目前最强的 AI,在生成这种“符合现实逻辑”的小程序时,通过率也不到 50%(最好的模型 GPT-5.2 也只有 45% 左右)。
  • 主要问题
    • 很多 AI 生成的程序,界面很漂亮,但逻辑是乱的。比如让它模拟“自由落体”,它可能算错了重力,导致物体飘在空中。
    • 遇到复杂情况(比如输入错误数据),程序容易崩溃
  • 结论:AI 从“聊天机器人”进化成“全能软件工程师”还有很长的路要走,它们现在还很擅长“写诗”,但还不擅长“干实事”。

5. 总结

这篇论文就像是在给 AI 行业敲响警钟并指明方向:

  • 过去:我们只关心 AI 能不能写出正确的代码
  • 未来:我们要关心 AI 能不能写出符合人类常识、能真正解决实际问题的互动应用。
  • 贡献:他们建立了一套新的“考卷”(MINIAPPBENCH)和一套新的“阅卷机器”(MINIAPPEVAL),让未来的 AI 不再只是“纸上谈兵”,而是能真正“落地干活”。

一句话总结
这篇论文告诉我们,AI 已经学会了“写菜谱”,但离真正能“开餐厅”还有差距;作者发明了一套新方法来测试 AI 到底能不能做出既好看又符合科学常识的互动小程序,并发现现在的 AI 在这方面还需要大练基本功。