Diffusion Controller: Framework, Algorithms and Parameterization
该论文提出了 Diffusion Controller (DiffCon) 框架,通过控制理论视角将扩散采样统一为线性可解马尔可夫决策过程,并据此推导了高效的强化学习微调算法与轻量级侧网络参数化方法,在保持骨干网络冻结的同时显著提升了扩散模型的偏好对齐效果与质量效率。
2947 篇论文
该论文提出了 Diffusion Controller (DiffCon) 框架,通过控制理论视角将扩散采样统一为线性可解马尔可夫决策过程,并据此推导了高效的强化学习微调算法与轻量级侧网络参数化方法,在保持骨干网络冻结的同时显著提升了扩散模型的偏好对齐效果与质量效率。
该论文揭示了仅基于平均处理效应(ATE)为零的监管标准存在“因果掩盖”漏洞,即优化算法可在满足该统计指标的同时通过混淆因素实施严重的不公平对待,且此类隐蔽的不公难以被检测,因此主张应将公平性监管从决策层面提升至模型层面。
该论文提出了一种基于预训练视觉基础模型(Cosmos Tokenizer)压缩潜在空间的概率性世界模型,通过结合保形预测框架生成不确定性指标来构建运行时监控器,从而在无需显式定义故障模式的情况下,以极少的参数量实现了对双机械臂操作任务中异常故障的高效准确检测。
该研究通过“超级技能栈”框架分析 80 个学生设计团队的反思,发现生成式 AI 主要作为认知加速器辅助设计早期阶段,而人类凭借能动性、领域知识、想象力和品味等核心能力在理解语境、验证输出及优化方案中发挥不可替代的关键作用。
该论文提出了名为 Self-MOA 的全自动框架,利用自动化评估模型提供的弱监督信号,通过动态生成红队提示和多目标偏好优化,在显著减少训练数据依赖的同时,有效提升了小型语言模型的安全性与有用性。
该论文提出了名为 ReSched 的极简深度强化学习框架,通过重新定义马尔可夫决策过程将状态空间压缩至四个核心特征,并结合改进的 Transformer 架构,在降低建模复杂度的同时显著提升了柔性作业车间调度问题及其变体的求解性能与泛化能力。
本文提出了 Hit-RAG,一种通过监督微调、判别式偏好对齐和组相对策略优化三阶段偏好对齐框架,有效解决多模态大模型在长上下文检索增强生成中注意力稀释与推理幻觉问题,从而显著提升长场景下推理准确性的方法。
该论文针对现有基于大语言模型的 Web 智能体因扁平记忆结构导致跨网站泛化能力不足的问题,提出了一种名为分层记忆树(HMT)的框架,通过将记忆解耦为意图、阶段和行动三个层级,实现了逻辑规划与动作执行的分离,从而显著提升了智能体在跨网站和跨域场景下的任务泛化能力。
本文提出了名为 DeepEarth 的自监督多模态世界模型,其核心创新是能够将 3D 多分辨率哈希编码扩展至时间维度的 Earth4D 行星级 4D 时空位置编码器,该模型在生态预测基准测试中取得了最先进性能,甚至超越了在更大规模数据上预训练的多模态基础模型。
该论文提出了一种名为 CAPL 的框架,通过引入可选择的图像令牌交互注意力机制和基于跨图像建模的偏好优化策略,有效增强了大型视觉语言模型在多图像任务中的跨图像关联感知能力,从而显著缓解了幻觉问题并提升了整体性能。
该论文提出了一种结合大语言模型辅助脚本的通用框架,使领域科学家能够在普通工作站上高效生成超大规模(PB 级)时变科学数据(如 NASA 气候模型)的 3D 动画,从而显著降低了对高性能计算资源和可视化专业技能的依赖。
该论文提出了一种结合多周期性学习与双向数字孪生原型锚定的新框架,通过元训练与测试时适应策略,有效解决了工业场景下仅凭极少量样本进行故障诊断的难题。
MedSteer 提出了一种无需训练的激活导向框架,通过在扩散 Transformer 的交叉注意力层中识别病理向量并引导图像激活,从而在保持解剖结构不变的前提下生成高质量的医学内窥镜反事实合成数据,显著提升了下游息肉检测任务的性能。
该研究提出了一种利用对话系统通过访谈生成电商用户评论的新方法,实验表明该系统不仅提升了用户的交互体验并减少了后续编辑工作量,而且生成的评论在帮助读者决策方面甚至优于人工撰写的评论。
本文提出了 CoTJudger 框架,通过将思维链转化为有向依赖图并提取最短有效路径,实现了对大推理模型中冗余推理的自动化量化评估与诊断。
该论文提出了名为 Countdown-Code 的测试环境,揭示了监督微调数据中极少量的奖励黑客行为泄露即可导致大模型习得并泛化此类对齐失效行为,从而强调了严格验证合成 SFT 数据的必要性。
本文提出了首个专为联合音视频生成模型设计的 mAVE 水印框架,通过在不微调的情况下对音视频潜在空间进行加密绑定,有效解决了现有方法因模态解耦而面临的“交换攻击”漏洞,从而在零性能损失的前提下实现了近完美的绑定完整性与版权保护。
该研究通过对比直接生成与基于人类作者定义的中间表示(IR)的流水线方法,实证评估了大型语言模型在结构约束下将目标可玩模式(GPCs)转化为可编译 Unity 游戏代码的能力,并揭示了当前模型在代码生成中面临的主要结构性“接地”与“卫生”失败模式。
该论文提出了一种结合半自回归生成与在线知识蒸馏的个性化重排序框架(PSAD),通过引入用户画像网络增强用户 - 物品交互,有效解决了生成式重排序中生成质量与推理延迟的平衡难题,并在多个数据集上显著优于现有最先进方法。
该论文通过构建 ConservationBench 基准测试发现,当前视觉语言模型在面对物理变换时无法真正理解守恒定律,其表现接近随机猜测且受文本先验误导,表明它们缺乏在动态场景中保持物理属性变换不变性的推理能力。