Graph-GRPO: Training Graph Flow Models with Reinforcement Learning
本文提出了 Graph-GRPO,一种针对图流模型(GFM)的在线强化学习框架,其通过推导转移概率的解析表达式以支持完全可微的 RL 训练,并引入局部扰动重生成策略以实现自我改进,从而在分子优化等任务中显著提升了生成质量并取得了最先进性能。
2316 篇论文
本文提出了 Graph-GRPO,一种针对图流模型(GFM)的在线强化学习框架,其通过推导转移概率的解析表达式以支持完全可微的 RL 训练,并引入局部扰动重生成策略以实现自我改进,从而在分子优化等任务中显著提升了生成质量并取得了最先进性能。
该论文通过理论分析与实验验证,揭示了标签噪声 SGD 在两层过参数化线性网络中通过驱动模型从“懒惰”区域向“丰富”区域转变并增强权重与真实插值器的对齐,从而解释了其提升泛化能力的内在机制,并将该发现推广至锐度感知最小化(SAM)等更广泛的优化算法。
该论文针对服务系统配置优化中 LLM 自动评分存在偏差而人工审核成本高昂的问题,提出了一种名为 PP-LUCB 的序贯决策算法,通过结合代理分数与逆倾向加权残差估计,在显著降低人工审计成本的同时,以高置信度准确识别出最优服务配置。
本文提出了首个专门针对时空时间序列预测的数据集蒸馏方法 STemDist,通过平衡压缩时空维度并结合粗粒度聚类与细粒度子集蒸馏技术,在显著降低训练时间和内存消耗的同时,实现了比现有方法更低的预测误差。
该论文提出了一种结合退化阶段同步采样(DSSBS)与跨域对齐融合大自编码器(CAFLAE)的领域自适应框架,通过解决退化阶段失配和长程时序依赖捕捉难题,显著提升了变工况下健康指标的学习性能。
本文提出了一种名为加权改进贪婪采样(WiGS)的新方法,通过强化学习动态调整探索与利用的平衡,从而在回归主动学习中克服了传统静态乘积规则的局限性,显著提升了在数据分布不规则场景下的采样效率与预测精度。
本文提出了一种名为广义高斯混合过程(GGMP)的新方法,通过结合局部高斯混合拟合、跨输入分量对齐及分量异方差高斯过程训练,在保持计算可行性的同时实现了针对多模态、异方差及强非高斯数据的条件密度估计。
该论文指出大语言模型低比特训练中的数值不稳定性主要由秩一均值偏差驱动,并提出通过简单的均值减法消除该偏差,从而在无需复杂 SVD 分解的情况下显著提升了 FP4 量化训练的稳定性与性能。
该论文提出了一种基于代理的无提示实例遗忘方法,利用图像编辑、时间步感知加权和梯度手术技术,使扩散模型能够精准遗忘无法通过文本提示指定的特定实例(如人脸或文化误读),同时保持模型其余功能的完整性。
该论文提出了一种名为“布伦尼尔等距回归”的新型多输出回归方法,它利用最优传输理论将循环单调性约束转化为凸势函数优化问题,从而在概率校准等任务中展现出优于现有基线的性能。
该研究提出了一种多分辨率 ConvLSTM 集成框架,通过融合不同时间尺度的输入数据,有效缓解了误差累积问题,显著提升了基坑开挖过程中挡土墙变形的长时序预测精度与稳定性。
该论文通过建立基于 Vlasov-Poisson 系统的动力学场论框架推导了强流带电粒子束的朗缪尔波色散关系,并利用 Prometheus 无监督学习模型验证了等离子体频率、异常束展宽及弗里德尔振荡等集体振荡特征。
该研究提出了一种将肌肉协同先验嵌入强化学习的生理信息框架,通过低维协同基约束控制,显著提升了预测性肌骨步态模拟在不同速度、坡度和地形下的生物力学保真度与泛化能力。
该论文研究了过参数化线性模型中双空间预条件梯度下降(涵盖归一化梯度下降、梯度裁剪和 Adam 等优化器)的收敛性,证明了其迭代序列总能收敛至完美拟合数据的解,并揭示了各向同性预条件器下的隐式偏差特性及其与标准梯度下降解的等价关系。
本文提出了名为 JEDI 的层次化模型,该模型通过在循环神经网络权重上学习共享嵌入空间,实现了从有限且嘈杂的神经记录中跨任务、跨情境地联合推断和统一建模神经动力学,从而成功揭示了大脑灵活性的潜在机制。
本文提出了一种基于最近邻距离比率的通用内在维度估计器,该方法不仅计算简单且无需分布假设,还从理论上证明了其收敛性,并在基准流形和真实数据集上取得了最先进的性能。
本文提出了 VERI-DPO 框架,通过利用声明验证器从检索增强证据中挖掘偏好数据并结合直接偏好优化(DPO)技术,显著提升了临床摘要的忠实度,将不支持的声明率从 10.7% 大幅降低至 1.9%。
本文提出了一种结合 t-积代数与张量列车低阶核心结构的新型张量网络分解——管状张量列车(TTT),并介绍了其两种计算策略、误差界以及在图像和视频压缩、张量补全和高光谱成像等任务中的实际应用。
该论文提出了一种将图注意力自编码器与大型语言模型(GPT-4o-mini)相结合的轻量级混合框架,通过利用结构推理对 LLM 生成数据进行去噪并优化蒙特卡洛树搜索,在资源受限条件下实现了在亚马逊棋游戏中超越基线及教师模型的高性能决策。
该论文提出了名为 IH-Challenge 的强化学习训练数据集,旨在解决大语言模型指令层级冲突的鲁棒性难题,通过微调显著提升了模型在对抗攻击下的安全性与指令遵循能力,并开源了该数据集以推动相关研究。