WARC-Bench: Web Archive Based Benchmark for GUI Subtask Executions
本文介绍了 WARC-Bench,这是一个利用网络归档文件来评估多模态人工智能代理在复杂图形用户界面子任务上表现的新颖基准,结果表明,尽管当前前沿模型面临困难,但开源模型通过监督微调以及结合可验证奖励的强化学习显著改进,从而实现了具有竞争力的性能。
原作者已查阅我们通俗解释的论文。
本页收录的每篇论文,都有至少一位原作者阅读并参与了我们的通俗解释——或是确认其准确无误,或是提出修正意见并由我们随后采纳。作者的确认并不等同于对每一句话的正式背书,但说明该解释已经过论文作者的审视。
571 篇论文已由作者审阅 · 221–230 / 571
本文介绍了 WARC-Bench,这是一个利用网络归档文件来评估多模态人工智能代理在复杂图形用户界面子任务上表现的新颖基准,结果表明,尽管当前前沿模型面临困难,但开源模型通过监督微调以及结合可验证奖励的强化学习显著改进,从而实现了具有竞争力的性能。
本文提出了一个关于 2026 年 MV Hondius 号上安第斯病毒爆发的多尺度常微分方程模型,该模型识别出一个关键的免疫病理反馈回路作为致死性细胞因子风暴的驱动因素,并提出基于 Wasserstein 距离的早期预警评分和外源性 IL-10 补充作为预防血管通透性衰竭的最有效干预措施。
本文利用马蒂萨巴格林函数建立了一个系统的量子场论框架,用于描述二次谐波产生和双线性磁电效应中的非线性欧姆响应,揭示了一种此前未被认识的、由能带几何驱动的固有电导率,该效应在具有高费米速度和窄带隙的材料中是可观测的。
本文提出并在囚禁离子系统中实验演示了一种“压缩诱导随机共振”方法,该方法通过将压缩相位噪声转换为振幅涨落来放大微弱电场信号,在不需辅助噪声源的情况下,实现了比传统噪声诱导随机共振高 4.28 dB 的信噪比提升。
本文表明,自博弈强化学习智能体仅在消除所有具有正向可达性的偶然决策时,才会发生急剧且可逆的崩溃,导致损失接近最大值,从而确立了一个结构性阈值:只要保留哪怕一个此类决策,即可防止在约束条件下由协同适应驱动的灾难性收敛。
SKG-Eval 是一个新颖且可解释的框架,它通过增量构建语义知识图谱,利用结构化状态追踪来检测多轮对话系统中的长程不一致性与矛盾,从而在评估多轮对话系统时,比现有的扁平化或单轮隔离式指标与人类判断具有更高的相关性。
本文严格证明,对于具有内层排斥芯和外层吸引尾的有限程势,当散射长度超过势程时,有效范围始终保持严格正值,从而为利用有效范围的符号来区分奇特强子组态提供了基本约束。
本研究采用密度泛函理论证明,动力学稳定的二维同质双层 NbOX2(X=Cl、Br、I)材料展现出可调控的带隙、高各向异性载流子迁移率以及强可见光至紫外光吸收能力,使其成为高效光催化水分解的有前景候选材料。
本文表明,尽管两极分化的新闻内容能可靠地提升用户参与度,却无法推动订阅,并可能在政治高关注度时期主动损害用户留存率,从而揭示出数字出版商面临的一项关键经济权衡:关注度并不等同于忠诚度。
本文复现并扩展了 Spracklen 等人 2025 年关于大语言模型包幻觉的研究,采用五个 2026 年前沿模型,揭示出尽管幻觉率显著下降且模型间差异缩小,但一种由新识别的 127 个模型无关的幻觉包名称以及独特的跨生态系统和跨模型行为模式所构成的持续威胁依然存在。