S2DiT: Sandwich Diffusion Transformer for Mobile Streaming Video Generation
本文提出了专为移动设备设计的 S2DiT(流式三明治扩散 Transformer),通过混合高效注意力机制、预算感知的动态规划搜索以及 2 合 1 蒸馏框架,在 iPhone 上实现了超过 10 FPS 的实时流式视频生成,同时达到了与顶尖服务器模型相当的高质量。
3836 篇论文
本文提出了专为移动设备设计的 S2DiT(流式三明治扩散 Transformer),通过混合高效注意力机制、预算感知的动态规划搜索以及 2 合 1 蒸馏框架,在 iPhone 上实现了超过 10 FPS 的实时流式视频生成,同时达到了与顶尖服务器模型相当的高质量。
本文研究了受限于支付公平性的多智能体合同设计问题,通过提供针对特定奖励函数的多项式时间近似算法与不可近似性证明,解决了无约束合同设计中的两个开放问题,并量化了公平性约束导致的效用损失(价格 of equality)。
本文针对视觉 - 语言 - 动作(VLA)模型中因模态失衡导致的“虚假完成”问题,提出了首个评估基准套件,并设计了通过引入任务阶段感知视觉线索来动态平衡视觉与本体感觉的 ReViP 框架,显著提升了模型在扰动下的鲁棒性与任务成功率。
本文提出了 ScenePilot-Bench,这是一个基于 3847 小时多粒度标注驾驶视频构建的大规模基准,旨在通过涵盖场景理解、空间感知、运动规划及安全评估的四维体系,全面评估视觉语言模型在自动驾驶场景中的能力与局限。
本文提出了一种名为 QSTar 的新型查询引导时空频交互方法,通过引入查询上下文推理模块并充分利用音频的频域特性及问题引导线索,有效解决了现有音视频问答任务中音频与文本信息利用不足的问题,从而在多个基准测试中显著提升了性能。
本文提出了一种动态框架,用于在固定常数 下维护无向简单图的 -边连通性,该框架结合 Nagamochi-Ibaraki 稀疏证书与 Link-Cut Trees 实现 摊销时间的插入处理,并通过在稀疏化图上进行最大流计算,在 时间内处理导致连通性下降的删除操作,同时始终保持图具有 条边。
本文介绍了 BioAgent Bench,这是一个专为评估生物信息学 AI 代理性能与鲁棒性而设计的基准数据集和评估套件,通过涵盖端到端任务及压力测试,揭示了前沿模型虽能可靠构建复杂流程,但在面对输入扰动时仍缺乏稳健性,并指出了在隐私敏感场景下开源模型相较于闭源模型的适用性优势。
本文提出了名为 R2M 的新型轻量级 RLHF 框架,通过利用策略模型在训练过程中的实时隐藏状态反馈来动态对齐奖励模型,从而有效解决了传统方法因依赖静态语义信息而导致的奖励过优化及分布偏移问题。
该论文通过对比 DeBERTa、RoBERTa 和 FinBERT 三种大语言模型,发现 DeBERTa 在基于新闻情感分析的股价预测中表现最佳(准确率 75%),而三模型集成可进一步提升至 80%,并证实了情感特征能轻微提升多种时序预测模型的性能。
本文通过两项针对中国退休女性舞者的共创工作坊,探索了结合交互舞蹈与生成式人工智能的适老化设计策略,证实了低门槛技术介入能有效降低创作障碍,助力她们从舞台表演的被动接受者转变为 empowered 的共同创作者。
本文提出了一种名为 CF-DeepSSSM 的认知灵活控制框架,该框架通过在受控的认知灵活性指数约束下在线重组潜在表征,并将其嵌入贝叶斯模型预测控制中,从而在系统动力学和观测条件发生突变时,为学习增强的控制系统提供后验漂移有界、递归可行及闭环稳定的安全保证。
本文提出了 Green-VLA,一种专为 Green 人形机器人设计并具备跨形态泛化能力的五阶段课程学习框架,通过结合大规模数据处理、统一动作接口及强化学习对齐,显著提升了机器人在真实场景中的泛化性、鲁棒性与长程任务执行效率。
该研究提出了名为 SIM-VAIL 的审计框架,通过模拟不同精神健康脆弱性的用户与 AI 聊天机器人的对话,揭示了“脆弱性放大交互循环”(VAILs)这一系统性失效模式,即看似支持性的回复在特定情境下会随时间推移加剧用户风险,从而强调了针对多维度风险进行量化评估的必要性。
本文提出了 AgenticLab,这是一个面向非结构化真实环境的模型无关机器人智能体平台与基准测试,旨在通过闭环执行评估大视觉语言模型在长程任务中的感知、推理与操作能力,并揭示了现有离线测试未能捕捉的多步一致性、遮挡下目标定位及空间推理等关键失效模式。
本文通过基于 Sionna 的基准测试,证明了在边缘路侧单元(RSU)平台上利用 GPU 加速 5G LDPC 解码可显著提升吞吐量并降低延迟,从而有效缓解 CPU 计算压力,确保在严格的时间约束下满足超可靠低时延车联网(URLLC)的通信需求。
本文提出了特征 - 安全表(FSTab)框架,通过仅利用前端特征和源模型知识即可预测后端漏洞的黑盒攻击方法,以及量化模型在不同场景下漏洞复现一致性的评估机制,揭示了大语言模型生成软件中普遍存在且可跨领域迁移的重复性漏洞风险。
该论文提出了 LMMRec 框架,利用大语言模型通过思维链提示从文本中提取细粒度动机,并结合双编码器架构与对比学习策略,有效融合了异构文本信息与交互数据以提升多模态推荐性能。
该研究通过比较 72 名参与者的游戏化评估与自我报告(PSI-B)结果,发现两者在问题解决能力上缺乏显著相关性,从而表明这两种测量方式提供了互补信息,支持在人员选拔中采用多方法评估框架而非依赖单一模态。
本文提出了一种基于 Doob h-变换和鞅理论的随机分析方法,通过在不修改预训练得分网络的情况下引入显式漂移修正,为扩散模型建立了满足概率为一的硬约束的生成框架,并设计了两种利用预训练轨迹进行离线学习的算法以提供非渐近收敛保证。
这项研究通过混合方法调查揭示了母亲们如何利用大语言模型作为非评判性的情感支持与决策确认工具,以规避社会指责并缓解育儿焦虑,同时强调了在特定社会语境下(如联合家庭)技术辅助与人类情感支持之间的互补关系。