Gradient Flow Drifting: Generative Modeling via Wasserstein Gradient Flows of KDE-Approximated Divergences
该论文提出了“梯度流漂移”(Gradient Flow Drifting)这一生成建模新框架,从理论上证明了漂移模型等价于基于核密度估计(KDE)近似的前向 KL 散度的 Wasserstein 梯度流,并进一步通过混合散度策略与流形扩展,有效解决了模式坍塌与模糊问题。
2385 篇论文
该论文提出了“梯度流漂移”(Gradient Flow Drifting)这一生成建模新框架,从理论上证明了漂移模型等价于基于核密度估计(KDE)近似的前向 KL 散度的 Wasserstein 梯度流,并进一步通过混合散度策略与流形扩展,有效解决了模式坍塌与模糊问题。
该论文提出了一种名为 PRF 的渐进式回溯学习框架,通过级联的回溯单元逐步对齐不完整观测与完整观测的特征,并结合滚动起始训练策略,有效解决了自动驾驶中变长轨迹预测因信息缺失导致的难题。
该论文提出了一种名为“轨迹感知记忆生成”的新框架,通过从智能体执行轨迹中提取策略、恢复和优化等结构化经验,并利用自适应检索将其注入提示,从而显著提升智能体在复杂任务中的自我改进能力与目标完成率。
该论文提出了一种名为条件期望奖励(CER)的新方法,利用大语言模型自身作为隐式验证器,通过计算生成答案对参考答案的条件似然期望来提供软性奖励信号,从而克服了传统基于规则验证器在自由形式答案领域应用受限的问题,显著提升了大模型在数学及通用推理任务中的表现。
本文提出了一种基于神经网络“活跃路径”的新型可解释方法,用于检测并消除机器学习中难以察觉的恶意后门,并通过在入侵检测模型中注入后门进行了实验验证。
本文提出了一种将任务调度与运动规划相结合的新框架,通过增量学习循环中调度器与运动规划器的交互反馈,有效解决了共享工作空间中多对象在时空约束下的协同规划问题。
该论文提出了名为 ROVA 的训练框架及 PVRBench 基准,通过引入抗扰动一致性奖励和难度感知在线训练策略,显著提升了视频推理模型在天气、遮挡等真实世界干扰下的鲁棒性与推理能力,并验证了其在标准基准上的泛化收益。
本文提出了基于抽象解释的 FAME 方法,通过设计专用扰动域和结合 LiRPA 界限,首次实现了在大型神经网络中生成规模更小且无需遍历顺序的形式化抽象最小解释,并引入结合对抗攻击与 VERIX+ 的评估流程验证了其质量与效率。
本文提出了名为 DxEvolve 的自我演进诊断智能体,通过模拟临床医生的动态认知过程与交互式深度研究工作流,实现了可审计的持续学习,在 MIMIC-CDM 基准及外部独立队列中显著提升了诊断准确率并达到了与临床专家相当的水平。
本文提出了一种平台无关的多模态数字人体建模框架,通过集成 OpenBCI Galea 头显的多源生理传感数据与基于 SuperTux 的可复现游戏交互环境,将生理信号抽象为结构化可观测对象,从而支持在无需修改架构的情况下开展符合伦理规范的 AI 驱动数字人体与无障碍交互研究。
本文提出了名为“收缩与征服”(CAC)的黑盒对抗攻击方法,该方法通过知识蒸馏和搜索空间精确收缩,在理论上证明了能在固定迭代次数内生成对抗样本,并在 ImageNet 数据集上超越了现有最先进方法。
该论文提出了一种名为“瞬时内在证明”的轻量级架构,通过巧妙利用后门注入和灾难性遗忘机制,在跨机构联邦学习中实现了无需可信第三方且计算开销极低(比传统密码学基线快 1000 倍以上)的聚合完整性验证。
该论文提出了一种名为 RandMark 的视觉基础模型所有权验证方法,通过在内部表示中嵌入随机数字水印,实现了对功能复制模型的高效检测,同时保证了极低的误报率和漏报率。
本文提出了 EvoSchema 基准,通过引入涵盖十种列级和表级扰动的新颖模式演化分类法,系统评估并提升了文本转 SQL 模型在真实世界数据库模式动态变化下的鲁棒性。
该论文通过跨领域实验证明,将 Schema.org 结构化链接数据(特别是包含 LLM 指令和丰富导航功能的增强型实体页面)作为记忆层,能显著提升标准及代理式检索增强生成(RAG)系统的检索准确率与回答质量。
本文提出了 AlphaFlowTSE,一种基于条件 AlphaFlow 的单步生成式目标说话人提取模型,它通过混合到目标的均值速度传输和区间一致性师生目标,在消除辅助混合比预测的同时降低了延迟并提升了真实场景下的泛化能力。
本文提出了 PV-VASM,一种模型无关的概率框架,用于在文本转语音、语音克隆及参数信号变换等场景下验证语音反欺骗模型的鲁棒性,并推导了误分类概率的理论上限以应对未见过的生成技术。
该论文提出了一种名为 CTCNet 的新型跨光谱交通认知网络,通过原型引导知识嵌入和质量感知光谱补偿模块,结合首个大规模光热红外基准数据集 Traffic-VQA,显著提升了无人机在复杂光照条件下对交通场景的鲁棒感知与复杂违规行为认知能力。
本文提出了 HIR-SDD 框架,通过结合大型音频语言模型与基于新标注数据集的链式思维推理,实现了具有可解释性且泛化能力更强的语音深度伪造检测。
本文提出了 CUPID 框架,这是一种无需修改或重新训练基础模型即可灵活插入任意层、同时估计偶然性和认知性不确定性的通用插件模块,旨在提升高风险领域 AI 决策的透明度与可信度。