VidGuard-R1: AI-Generated Video Detection and Explanation via Reasoning MLLMs and RL
本文提出了 VidGuard-R1,这是首个利用组相对策略优化(GRPO)强化学习框架,通过激励模型探索推理路径并引入物理一致性奖励,从而在零样本设置下实现高精度检测与可解释性归因的 AI 生成视频检测系统。
11749 篇论文
本文提出了 VidGuard-R1,这是首个利用组相对策略优化(GRPO)强化学习框架,通过激励模型探索推理路径并引入物理一致性奖励,从而在零样本设置下实现高精度检测与可解释性归因的 AI 生成视频检测系统。
本文针对基于 SGD 训练的共形化分位数和中位数回归,在温和假设下建立了预测集长度与最优区间长度偏差的非渐近界,揭示了效率对训练集大小、校准集大小及误覆盖率的联合依赖关系,并识别了不同覆盖率区间下的收敛率相变现象,从而为数据分配提供了理论指导。
本文通过引入层指数加权连通性(LEWC)理论并配合 softmax 温度校准,首次实证表明无需参数重排,仅通过增加模型宽度即可显著实现线性模式连通性(LMC)。
本文提出了首个无需 3D 归纳偏置或显式多视图几何概念的自监督新视角合成模型 XFactor,通过结合成对姿态估计与简单的输入输出增强方案,成功实现了姿态表示在不同场景间的可迁移性,从而确立了可迁移性作为衡量真正新视角合成能力的关键标准。
本文提出了 CBF-RL 框架,通过在训练阶段将控制障碍函数(CBF)安全过滤机制内化到强化学习策略中,使智能体在无需运行时安全过滤器的情况下即可实现安全探索、快速收敛及在真实机器人上的鲁棒安全部署。
本文提出了一种名为 B-ODIL 的贝叶斯框架,通过将离散损失优化(ODIL)中的偏微分方程损失作为先验知识并结合数据似然,实现了对 PDE 基逆问题的求解及不确定性量化,并在多维合成基准及脑肿瘤 MRI 成像等实际应用中验证了其有效性。
本文提出了将薛定谔桥训练范式与 Mamba 架构相结合的 Schrödinger Bridge Mamba(SBM)模型,该模型仅需单步推理即可在联合去噪和去混响任务中超越现有强基线方法,同时保持适合流式处理的实时性。
该论文揭示了现有针对多智能体系统控制流劫持的防御机制存在根本性缺陷,并提出并评估了受控制流完整性与最小权限原则启发的新防御方案 ControlValve,通过生成许可控制流图并强制执行上下文规则来有效阻断此类攻击。
本文通过理论分析揭示了数据几何在过参数化 ReLU 神经网络泛化中的核心作用,证明了当数据难以被 ReLU 激活阈值“打散”时,梯度下降倾向于学习共享模式从而实现良好泛化,而数据若易被打散(如集中在球面上)则会导致过拟合。
该论文针对线性最小二乘模型提出了一种严谨的统计推断框架,通过推导精确的影响力公式并识别最大影响力的极值分布(弗雷歇分布或甘贝尔分布),实现了对异常高影响力数据子集的假设检验,从而取代了以往依赖启发式方法的做法。
本文提出了 LLEMA 框架,通过结合大语言模型的领域知识、化学约束进化规则及基于记忆的优化机制,在满足多目标性能要求的同时高效发现化学合理且热力学稳定的新材料,显著提升了材料发现的命中率与帕累托前沿质量。
本文提出了一种基于任意问题启发式(可依赖网络及其梯度)的自适应采样方法,用于训练物理信息神经网络,并在 Allen-Cahn 方程的相变问题中成功实现了对界面区域的精确解析,其效果优于传统的残差自适应框架。
本文提出了名为 FMint-SDE 的多模态基础模型,该模型基于解码器 Transformer 架构,通过利用数值和文本模态学习通用误差校正方案,仅需训练一次即可实现对随机微分方程(SDE)的高效、高精度模拟,从而在分子动力学、金融等多个领域超越了传统求解器在精度与效率上的权衡。
MotionStream 通过自强制分布匹配蒸馏将双向教师模型转化为因果学生模型,并结合滑动窗口因果注意力与 KV 缓存滚动机制,实现了在单 GPU 上以亚秒级延迟和高达 29 FPS 的速度进行无限时长的实时交互式视频生成。
本文提出了 CytoNet,这是一种基于 4000 多张组织切片中 10 个死后人脑的 100 万个无标签图像块训练的基础模型,能够通过自监督学习将复杂的细胞模式编码为具有解剖学意义的特征表示,从而实现对人脑皮层微结构的可扩展分析,并建立细胞架构与宏观功能组织之间的联系。
该论文提出了一种名为 CoRPO 的新方法,通过引入正确性阈值截断基线来修正 GRPO 中因平均基线导致的错误优势高估问题,从而显著提升了大语言模型在强化学习中的泛化能力和跨领域推理表现。
本文提出了一种基于端到端深度学习的 SPOT 方案,通过联合优化相移器和真时延系数来生成任务导向的彩虹波束,仅需单次下行传输即可实现高精度的用户二维定位,显著降低了系统开销并提升了定位精度。
ReCast 提出了一种基于可靠性感知码本辅助的轻量级时间序列预测框架,通过局部形状编码、双路径架构及分布鲁棒优化策略,在资源受限环境下实现了对非平稳序列的高效、鲁棒且准确的预测。
本文提出了 FlashCache,一种通过频域分析识别并保留关键异常键值对(Outlier KVs)的多模态 KV 缓存压缩框架,在显著降低显存占用并加速推理的同时保持了模型性能。
本文提出了名为 Observer-Actor (ObAct) 的新框架,该框架利用稀疏视角高斯泼溅(3DGS)技术,使双机械臂系统中的“观察者”臂主动移动至最佳视角以构建清晰场景并指导“执行者”臂,从而显著提升了在遮挡环境下基于轨迹迁移和行为克隆的模仿学习策略的鲁棒性与成功率。