Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance

该论文针对现有指令驱动视频编辑方法在视觉控制精度上的不足,提出了一种利用图像生成模型构建大规模参考数据集(RefVIE)的可扩展数据生成流程,并设计了结合可学习查询与潜在视觉特征的统一架构 Kiwi-Edit,通过多阶段训练显著提升了视频编辑的指令遵循能力与参考保真度,确立了新的最先进水平。

Yiqi Lin, Guoqiang Liang, Ziyun Zeng + 3 more2026-03-06💻 cs

AOI: Turning Failed Trajectories into Training Signals for Autonomous Cloud Diagnosis

本文提出了 AOI(自主运维智能)框架,通过结合基于 GRPO 的本地化诊断系统、读写分离的安全执行架构以及失败轨迹闭环演化机制,在保障数据安全与执行权限的前提下,将失败轨迹转化为训练信号,显著提升了大模型代理在自动运维任务中的诊断成功率与泛化能力。

Pei Yang, Wanyi Chen, Asuka Yuxi Zheng + 11 more2026-03-06💻 cs

Baseline Performance of AI Tools in Classifying Cognitive Demand of Mathematical Tasks

该研究评估了 11 种通用及教育专用 AI 工具对数学任务认知需求的分类能力,发现其平均准确率仅为 63%,且普遍存在倾向于中间类别、过度依赖表面文本特征而忽视深层认知过程的系统性偏差,表明当前 AI 工具尚不足以直接替代教师进行此类专业判断。

Danielle S. Fox, Brenda L. Robles, Elizabeth DiPietro Brovey + 1 more2026-03-06💻 cs

CTRL-RAG: Contrastive Likelihood Reward Based Reinforcement Learning for Context-Faithful RAG Models

本文提出了一种名为 CTRL-RAG 的新框架,通过引入基于对比似然奖励(CLR)的“内外混合”奖励机制,直接优化模型在有证和无证条件下的对数似然差距,从而有效解决了现有 RAG 强化学习方法在文档忠实度评估和自奖励机制方面的不足,显著提升了模型在不同场景下的上下文忠实推理能力。

Zhehao Tan, Yihan Jiao, Dan Yang + 8 more2026-03-06💻 cs

Unpacking Human Preference for LLMs: Demographically Aware Evaluation with the HUMAINE Framework

本文提出了名为 HUMAINE 的框架,通过收集来自 23,404 名跨越 22 个不同人口统计群体的参与者所进行的自然对话,利用分层贝叶斯模型对 28 个先进大语言模型进行了多维度、人口统计感知的评估,揭示了模型性能的整体层级、年龄等人口因素导致的显著偏好差异以及不同评估维度间判别力的巨大悬殊。

Nora Petrova, Andrew Gordon, Enzo Blindow2026-03-06💻 cs