Adaptive Active Learning for Regression via Reinforcement Learning
本文提出了一种名为加权改进贪婪采样(WiGS)的新方法,通过强化学习动态调整探索与利用的平衡,从而在回归主动学习中克服了传统静态乘积规则的局限性,显著提升了在数据分布不规则场景下的采样效率与预测精度。
8019 篇论文
本文提出了一种名为加权改进贪婪采样(WiGS)的新方法,通过强化学习动态调整探索与利用的平衡,从而在回归主动学习中克服了传统静态乘积规则的局限性,显著提升了在数据分布不规则场景下的采样效率与预测精度。
本文提出了一种名为广义高斯混合过程(GGMP)的新方法,通过结合局部高斯混合拟合、跨输入分量对齐及分量异方差高斯过程训练,在保持计算可行性的同时实现了针对多模态、异方差及强非高斯数据的条件密度估计。
该论文指出大语言模型低比特训练中的数值不稳定性主要由秩一均值偏差驱动,并提出通过简单的均值减法消除该偏差,从而在无需复杂 SVD 分解的情况下显著提升了 FP4 量化训练的稳定性与性能。
该论文提出了一种基于代理的无提示实例遗忘方法,利用图像编辑、时间步感知加权和梯度手术技术,使扩散模型能够精准遗忘无法通过文本提示指定的特定实例(如人脸或文化误读),同时保持模型其余功能的完整性。
该论文提出了一种名为“布伦尼尔等距回归”的新型多输出回归方法,它利用最优传输理论将循环单调性约束转化为凸势函数优化问题,从而在概率校准等任务中展现出优于现有基线的性能。
该研究提出了一种多分辨率 ConvLSTM 集成框架,通过融合不同时间尺度的输入数据,有效缓解了误差累积问题,显著提升了基坑开挖过程中挡土墙变形的长时序预测精度与稳定性。
该论文通过建立基于 Vlasov-Poisson 系统的动力学场论框架推导了强流带电粒子束的朗缪尔波色散关系,并利用 Prometheus 无监督学习模型验证了等离子体频率、异常束展宽及弗里德尔振荡等集体振荡特征。
该研究提出了一种将肌肉协同先验嵌入强化学习的生理信息框架,通过低维协同基约束控制,显著提升了预测性肌骨步态模拟在不同速度、坡度和地形下的生物力学保真度与泛化能力。
该论文研究了过参数化线性模型中双空间预条件梯度下降(涵盖归一化梯度下降、梯度裁剪和 Adam 等优化器)的收敛性,证明了其迭代序列总能收敛至完美拟合数据的解,并揭示了各向同性预条件器下的隐式偏差特性及其与标准梯度下降解的等价关系。
本文提出了名为 JEDI 的层次化模型,该模型通过在循环神经网络权重上学习共享嵌入空间,实现了从有限且嘈杂的神经记录中跨任务、跨情境地联合推断和统一建模神经动力学,从而成功揭示了大脑灵活性的潜在机制。
本文提出了一种基于最近邻距离比率的通用内在维度估计器,该方法不仅计算简单且无需分布假设,还从理论上证明了其收敛性,并在基准流形和真实数据集上取得了最先进的性能。
本文提出了 VERI-DPO 框架,通过利用声明验证器从检索增强证据中挖掘偏好数据并结合直接偏好优化(DPO)技术,显著提升了临床摘要的忠实度,将不支持的声明率从 10.7% 大幅降低至 1.9%。
本文提出了一种结合 t-积代数与张量列车低阶核心结构的新型张量网络分解——管状张量列车(TTT),并介绍了其两种计算策略、误差界以及在图像和视频压缩、张量补全和高光谱成像等任务中的实际应用。
该论文提出了一种将图注意力自编码器与大型语言模型(GPT-4o-mini)相结合的轻量级混合框架,通过利用结构推理对 LLM 生成数据进行去噪并优化蒙特卡洛树搜索,在资源受限条件下实现了在亚马逊棋游戏中超越基线及教师模型的高性能决策。
该论文提出了名为 IH-Challenge 的强化学习训练数据集,旨在解决大语言模型指令层级冲突的鲁棒性难题,通过微调显著提升了模型在对抗攻击下的安全性与指令遵循能力,并开源了该数据集以推动相关研究。
本文提出了一种基于世界模型的锂离子电池退化预测框架,通过将循环数据编码为潜在状态并学习动态演化来生成未来轨迹,且引入单粒子模型约束显著提升了退化拐点处的预测精度。
本文提出了一种基于多智能体强化学习(MARL)的框架,利用近端策略优化(PPO)算法在部分可观测环境下协调无人机群,以应对医疗物资配送中需求紧急性、位置分布及时间截止期等动态不确定性挑战,并通过真实地理数据验证了其在实时任务优先级排序与资源动态分配方面的优越性能。
该论文提出了组相对奖励重缩放(GR³)方法,通过将长度控制重构为乘性重缩放范式并结合组相对正则化与优势感知校准,在无需牺牲优化效果的前提下有效解决了强化学习中大语言模型的长度膨胀问题。
该论文提出了名为 SCORE 的新型深度神经网络架构,它通过 ODE 启发的收缩性循环更新机制替代传统的层堆叠,在共享权重减少参数量的同时,利用离散迭代显著提升了多种模型(如图神经网络、MLP 和 Transformer)的收敛速度与训练效率。
该论文提出了一种基于强化学习的方法,通过引入百分比改进奖励、帧堆叠和限制领域信息等策略,自动学习集群调度器评分函数的权重,从而在无需专家干预的情况下显著提升作业端到端性能。