DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving
本文提出了 DrivingGen,这是首个针对自动驾驶生成式世界模型的综合基准,通过构建涵盖多样化场景的数据集和一套包含视觉真实感、轨迹合理性、时序一致性及可控性的新评估指标,解决了现有评估方法的局限性并揭示了当前模型的优劣权衡。
6350 篇论文
本文提出了 DrivingGen,这是首个针对自动驾驶生成式世界模型的综合基准,通过构建涵盖多样化场景的数据集和一套包含视觉真实感、轨迹合理性、时序一致性及可控性的新评估指标,解决了现有评估方法的局限性并揭示了当前模型的优劣权衡。
本文提出了一种三阶段物理引导机器学习框架,利用 Frontier 超算一年的运行数据,通过构建单调性约束的代理模型识别并量化冷却系统能效浪费,进而证明在满足热安全约束的前提下,通过微调设定参数可回收高达 96% 的无效能耗。
本文提出了一种无需训练的“思维批处理”(BoT)方法,通过联合处理相关查询并利用多智能体反思架构(BoT-R)进行跨实例学习与一致性校验,在提升大语言模型推理准确率与置信度校准的同时,显著降低了推理成本。
本文提出了名为 R^4 的自改进智能体框架,通过路由、检索、反思与修复四个协同智能体,在不进行梯度微调的情况下显著提升了大型视觉语言模型在医学影像(如胸部 X 光)报告生成与弱监督检测任务中的准确性、安全性及空间定位能力。
本文通过审计和数字民族志研究发现,广泛用于训练视觉生成模型的 LAION 美学预测器(LAP)存在显著的性别、性取向及文化偏见,其“算法凝视”强化了西方艺术史中的帝国与男性凝视,因此呼吁开发者摒弃单一的美学标准,转向更具包容性的多元评估体系。
该论文针对计算机使用代理(CUAs)面临的安全挑战,提出了一种名为“单次规划”的架构,通过在接触不可信环境前由可信规划器生成完整执行图,在有效防御提示注入和分支操控攻击的同时,显著提升了模型在安全与实用性之间的平衡。
该论文通过分析 Reddit 讨论,揭示了用户识别与应对 AI 逢迎行为的模式,指出逢迎行为的影响具有情境依赖性,对特定脆弱群体具有情感支持价值,因此主张摒弃“全面消除逢迎”的假设,转而设计能够平衡风险与益处的上下文感知型人工智能。
本文提出了名为 BoxMind 的闭环 AI 专家系统,该系统通过解析拳击比赛视频构建层级化技战术指标并融合图预测模型生成战略建议,在 2024 年巴黎奥运会中成功验证了其卓越性能,直接助力中国国家队夺得三金两银的历史性成就。
本文针对现有方法忽视不同场景下用户移动模式差异的问题,提出了名为 MSAHG 的多面场景感知超图学习框架,通过构建场景特定的多视图解耦子超图及参数分裂机制,有效解决了跨场景特征捕捉与优化冲突问题,从而显著提升了下一兴趣点推荐的准确性。
本文提出了专为移动设备设计的 S2DiT(流式三明治扩散 Transformer),通过混合高效注意力机制、预算感知的动态规划搜索以及 2 合 1 蒸馏框架,在 iPhone 上实现了超过 10 FPS 的实时流式视频生成,同时达到了与顶尖服务器模型相当的高质量。
本文研究了受限于支付公平性的多智能体合同设计问题,通过提供针对特定奖励函数的多项式时间近似算法与不可近似性证明,解决了无约束合同设计中的两个开放问题,并量化了公平性约束导致的效用损失(价格 of equality)。
本文针对视觉 - 语言 - 动作(VLA)模型中因模态失衡导致的“虚假完成”问题,提出了首个评估基准套件,并设计了通过引入任务阶段感知视觉线索来动态平衡视觉与本体感觉的 ReViP 框架,显著提升了模型在扰动下的鲁棒性与任务成功率。
本文提出了 ScenePilot-Bench,这是一个基于 3847 小时多粒度标注驾驶视频构建的大规模基准,旨在通过涵盖场景理解、空间感知、运动规划及安全评估的四维体系,全面评估视觉语言模型在自动驾驶场景中的能力与局限。
本文提出了一种名为 QSTar 的新型查询引导时空频交互方法,通过引入查询上下文推理模块并充分利用音频的频域特性及问题引导线索,有效解决了现有音视频问答任务中音频与文本信息利用不足的问题,从而在多个基准测试中显著提升了性能。
本文提出了一种动态框架,用于在固定常数 下维护无向简单图的 -边连通性,该框架结合 Nagamochi-Ibaraki 稀疏证书与 Link-Cut Trees 实现 摊销时间的插入处理,并通过在稀疏化图上进行最大流计算,在 时间内处理导致连通性下降的删除操作,同时始终保持图具有 条边。
本文介绍了 BioAgent Bench,这是一个专为评估生物信息学 AI 代理性能与鲁棒性而设计的基准数据集和评估套件,通过涵盖端到端任务及压力测试,揭示了前沿模型虽能可靠构建复杂流程,但在面对输入扰动时仍缺乏稳健性,并指出了在隐私敏感场景下开源模型相较于闭源模型的适用性优势。
本文提出了名为 R2M 的新型轻量级 RLHF 框架,通过利用策略模型在训练过程中的实时隐藏状态反馈来动态对齐奖励模型,从而有效解决了传统方法因依赖静态语义信息而导致的奖励过优化及分布偏移问题。
该论文通过对比 DeBERTa、RoBERTa 和 FinBERT 三种大语言模型,发现 DeBERTa 在基于新闻情感分析的股价预测中表现最佳(准确率 75%),而三模型集成可进一步提升至 80%,并证实了情感特征能轻微提升多种时序预测模型的性能。
本文通过两项针对中国退休女性舞者的共创工作坊,探索了结合交互舞蹈与生成式人工智能的适老化设计策略,证实了低门槛技术介入能有效降低创作障碍,助力她们从舞台表演的被动接受者转变为 empowered 的共同创作者。
本文提出了一种名为 CF-DeepSSSM 的认知灵活控制框架,该框架通过在受控的认知灵活性指数约束下在线重组潜在表征,并将其嵌入贝叶斯模型预测控制中,从而在系统动力学和观测条件发生突变时,为学习增强的控制系统提供后验漂移有界、递归可行及闭环稳定的安全保证。