Cost-Driven Representation Learning for Linear Quadratic Gaussian Control: Part I
该论文研究了通过直接预测多步成本而非观测或动作来学习潜在状态表示的方法,并针对有限时变线性二次高斯(LQG)控制问题,首次建立了该成本驱动方法能够找到近优状态表示函数和近优控制器的有限样本理论保证。
322 篇论文
该论文研究了通过直接预测多步成本而非观测或动作来学习潜在状态表示的方法,并针对有限时变线性二次高斯(LQG)控制问题,首次建立了该成本驱动方法能够找到近优状态表示函数和近优控制器的有限样本理论保证。
该论文通过结合样本分割策略与对 nuisance 函数估计器的特定平滑调整(欠平滑或过平滑),证明了在低正则性条件下,传统的 plug-in 估计量和一阶偏差修正估计量均能实现双重鲁棒泛函的极小极大收敛速率。
本文提出了一种结合可信区间的新型统计学习方法,通过非参数密度估计和两项创新策略,在确保拍卖机制公平性、激励相容性及个体理性高概率成立的前提下,有效降低了多物品拍卖的实施成本并实现了收益最大化。
本文提出了一种名为 OTAD 的新型两阶段最优传输诱导防御模型,通过结合最优传输正则化与凸积分问题求解,在确保局部 Lipschitz 连续性的同时实现对训练数据的精确拟合,从而在多种架构和数据集上展现出优于现有方法的鲁棒性。
该论文建立了基于小批量随机梯度下降优化的深度 Cox 模型中“小批量最大偏似然估计量”(mb-MPLE)的统计理论框架,证明了其一致性、最优收敛速率及渐近正态性,并提供了关于学习率与批量比等超参数调优的实用指导,从而解决了大规模数据下标准估计量难以计算的问题。
本文提出了一种结合退火重要性采样与变分推断的算法,通过重参数化证据下界并构建中间分布序列,有效解决了高维复杂数据下高斯过程潜在变量模型中提案分布难以生成的问题,从而实现了更紧的变分界、更高的对数似然及更稳健的收敛。
本文提出了一种基于自举去噪能量匹配(BNEM)的新型玻尔兹曼采样器,该方法通过直接学习能量函数并结合自举技术平衡偏差与方差,在二维高斯混合模型和双势阱势等任务中展现了比现有方法更优越的性能和鲁棒性。
本文提出了一种名为自适应迁移聚类(ATC)的统一框架,该算法通过优化偏差 - 方差分解,能够在主数据集与辅助数据集存在未知差异的情况下自动利用共性,从而在包括高斯混合模型在内的多种统计模型中实现最优的聚类效果并量化迁移收益。
本文针对深度学习框架下的噪声标签分类问题,通过独立块构造处理统计依赖并推广至向量值设定,在低维流形假设下推导了包含统计误差与逼近误差的超额风险误差界。
该论文提出了 A3RL 方法,通过引入一种新颖的置信度感知主动优势对齐(A3)采样策略,动态优先选择与策略演进需求相匹配的在线和离线数据,从而有效解决了结合在线与离线强化学习时面临的灾难性遗忘、数据质量鲁棒性及样本效率低等挑战,并实现了优于现有技术的策略优化效果。
该论文提出了一种结合高斯过程信任域框架与自适应复制策略的随机模拟优化方法,通过动态分配重复评估以应对高方差噪声,显著提升了求解精度与计算效率。
本文提出了一种针对异质时间平稳马尔可夫决策过程的个性化离线策略优化框架,通过引入个体潜变量构建异质模型并设计惩罚性悲观个性化策略学习(P4L)算法,在弱覆盖假设下实现了平均遗憾的快速收敛,并在模拟与真实数据中展现出优于现有方法的性能。
本文针对动态环境中决策导向学习(DFL)面临的梯度缺失与非凸性挑战,提出了两种结合正则化与扰动技术的在线算法,并首次为该问题建立了静态与动态 regret 理论保证,且在背包实验中的表现优于现有基准。
该论文通过对比实验发现,基于多重插补(MICE)的方法在生成用于保险费率厘定的高质量合成数据方面,不仅能有效保留原始数据的分布特征和变量间关系,且相比变分自编码器和生成对抗网络等深度生成模型具有更低的实现复杂度。
本文针对非凸强凸随机双层优化问题,提出了一种利用阶有限差分近似超梯度的 FSA-算法,将的复杂度上界提升至,并证明了在高度光滑条件下该上界接近的理论下界。
该论文提出了一种结合深度学习与动态输入电导(DICs)框架的新方法,能够仅从尖峰时间数据中快速、鲁棒地重建具有简并性的电导基神经元模型种群,从而在毫秒级时间内实现从实验观测到机制模型的可靠推断。
本文提出了一种针对马尔可夫链的全新 PAC-Bayes 界,通过在有穷状态空间下对伪谱间隙提供经验上界,实现了首个完全经验化的 PAC-Bayes 泛化界。
本文提出了一类名为 GDR-learners 的通用生成式 Neyman 正交(双重稳健)学习器,该框架可灵活结合条件归一化流、生成对抗网络、变分自编码器及扩散模型等多种先进深度生成模型,以实现对潜在结果条件分布的估计,并具备准 Oracle 效率、速率双重稳健性及渐近最优性等理论优势。
本文提出了一种名为重叠自适应正则化(OAR)的新方法,通过根据重叠权重动态调整正则化强度,显著提升了现有元学习器在低重叠区域估计条件平均处理效应(CATE)的性能,并提供了保持 Neyman 正交性的去偏版本以确保推断的稳健性。
本文提出了一种名为 DRQ-learner 的新型元学习器,用于在马尔可夫决策过程中基于观测数据估计个体化潜在结果,该学习器具备双重稳健性、Neyman 正交性及拟 Oracle 效率等理论优势,且能灵活结合任意机器学习模型处理离散或连续状态空间,并在实验中表现优于现有基线方法。