Offline Dynamic Inventory and Pricing Strategy: Addressing Censored and Dependent Demand
本文提出了一种基于离线数据的创新算法,通过构建高阶马尔可夫决策过程并结合生存分析技术,有效解决了在需求具有依赖性和 censoring(截断)特性的动态库存与定价问题,从而估计出最大化长期利润的最优策略。
3821 篇论文
本文提出了一种基于离线数据的创新算法,通过构建高阶马尔可夫决策过程并结合生存分析技术,有效解决了在需求具有依赖性和 censoring(截断)特性的动态库存与定价问题,从而估计出最大化长期利润的最优策略。
本文提出了一种基于得分匹配扩散的非线性系统确定性反馈控制框架,通过前向扩散探索状态空间并设计反向去噪律来驱动系统概率密度收敛至目标分布,从而为漂移自由及线性时不变系统提供了可靠的密度控制与规划方法。
本文提出了一种名为 SwitchMT 的新方法,通过结合具有主动树突和决斗结构的深度脉冲 Q 网络以及基于奖励与网络内部动力学的自适应任务切换策略,有效解决了资源受限自主代理在多任务强化学习中的任务干扰问题,实现了无需增加网络复杂度的可扩展高效多任务学习。
本文介绍了名为 Panda 的预训练模型,该模型通过在进化算法发现的 2 万个混沌系统合成数据上进行训练,展现出零样本预测未见混沌系统、跨维度泛化(从常微分方程到偏微分方程)以及有效预测真实世界实验时间序列的涌现能力。
该论文通过对 2022 年至 2025 年初的 25,000 篇论文进行数据驱动的半自动审查,系统梳理了大语言模型局限性(LLLMs)的研究趋势,发现相关研究占比显著增长,其中推理能力仍是核心关注点,而 arXiv 数据集的研究热点正逐渐向安全风险、对齐、幻觉、知识编辑及多模态方向转移。
该论文提出了一种基于一致性的测试时溯因推理框架,通过逻辑编程将多个预训练模型的预测及其错误检测规则编码,利用整数规划或启发式搜索算法在满足逻辑一致性约束的前提下最大化预测覆盖率,从而在分布偏移的新环境中有效缓解单一模型性能下降并提升整体精度与召回率。
本文提出了一种名为 CARTGen-IR 的基于分类回归树(CART)的合成采样方法,旨在通过无需阈值设定的相关性与密度引导采样机制,高效、透明地解决表格数据中回归任务的目标分布不平衡问题。
该研究通过对比统计基线、树集成与深度学习模型在具有间歇性需求和数据缺失的零售销售数据上的表现,发现基于树的集成方法(如 XGBoost)在预测精度上优于复杂的深度学习架构,表明在特定约束下应优先考虑模型与问题特征的匹配度而非架构的复杂性。
该论文提出了 ReLIFT 方法,通过交替进行强化学习与在线监督微调,利用高质量演示数据弥补纯强化学习在获取新知识方面的不足,从而显著提升大语言模型在解决高难度问题上的推理能力。
该论文提出了“前缀可扫描模型”(PSMs)这一通用类,通过放宽状态聚合算子的限制,将 Mamba 和线性 Transformer 等架构统一起来,实现了兼具并行训练高效性与线性时间、常数空间顺序推理能力的新型序列模型。
这篇综述论文系统梳理了差分隐私从基础定义到在机器学习(涵盖符号人工智能至大语言模型)中的演进与集成方法,并探讨了其实践评估方案,旨在推动安全可信人工智能系统的发展。
本文提出了一种名为 K-Sil 的轮廓驱动 -means 变体,通过利用轮廓分数的质心边缘代理对实例进行自适应加权,在迭代中强调高置信度样本并降低边界或噪声点的影响,从而在多种真实世界数据集上实现了优于传统 -means 及现有加权基线的聚类性能。
本文针对零样本协调(ZSC)任务中现有基准 Hanabi 因算法表现趋近完美而难以区分进展的局限,提出了一个要求智能体在模糊线索下动态跟踪信念并推断共享知识的开源多智能体基准“妖怪学习环境”(YLE),并证明在该环境中主流 ZSC 方法存在显著的跨种子性能差距,表明单一基准的评估结果可能无法泛化。
本文针对高斯奖励下的随机多臂老虎机环境,提出了基于汤普森采样(TS)的夏普比率优化算法 SRTS,通过构建新颖的遗憾分解理论,证明了该算法在分布依赖下具有对数级遗憾上界且与下界匹配,从而确立了其阶最优性,并通过实验验证了其显著优于现有算法的性能。
该论文建立了全局脉冲控制下模拟量子模拟器实现通用量子计算的充要条件,提出了结合硬件约束的“直接量子最优控制”框架,并在里德堡原子阵列上成功实验验证了该框架在合成多体相互作用及实现拓扑动力学方面的可行性。
该论文提出了一种仅利用标准线性代数运算、针对沿单一模式纤维观测的张量进行快速且确定性恢复的张量列车补全方法,该方法在满足合理确定性观测条件下无需随机性假设即可保证有效重建。
该论文提出了一种基于函数编码器的零-shot 迁移求解方法,通过离线学习可复用的神经基函数集,实现了对不同目标的最优控制问题的高效在线自适应,从而在无需重新求解的情况下以极小开销获得近优性能。
该论文从理论层面解释了 SigLIP 模型中可训练逆温度与偏置项的优势,通过引入-星座这一新型组合对象刻画了损失函数为零的全局最优解,从而阐明了其在检索任务中的成功、模态间隙的成因及高质量表示所需的维度,并提出了一种改进的训练重参数化方法。
该研究针对 MethaneSAT 和 MethaneAIR 任务的高空间分辨率数据,通过对比传统机器学习与深度学习模型,证实了 U-Net 和 SCAN 等深度学习方法在云及云阴影分割任务中显著优于传统方法,能有效提升甲烷反演的准确性。
该论文通过对 23 个视觉问答基准的大规模实证研究,量化分析了多模态数据中模态内与模态间依赖关系的复杂分布,揭示了当前许多旨在消除文本偏见的基准反而加剧了图像依赖,从而为多模态基准的设计与评估提供了定量依据。