Offline Dynamic Inventory and Pricing Strategy: Addressing Censored and Dependent Demand
本文提出了一种基于离线数据的创新算法,通过构建高阶马尔可夫决策过程并结合生存分析技术,有效解决了在需求具有依赖性和 censoring(截断)特性的动态库存与定价问题,从而估计出最大化长期利润的最优策略。
2384 篇论文
本文提出了一种基于离线数据的创新算法,通过构建高阶马尔可夫决策过程并结合生存分析技术,有效解决了在需求具有依赖性和 censoring(截断)特性的动态库存与定价问题,从而估计出最大化长期利润的最优策略。
本文提出了一种名为 SwitchMT 的新方法,通过结合具有主动树突和决斗结构的深度脉冲 Q 网络以及基于奖励与网络内部动力学的自适应任务切换策略,有效解决了资源受限自主代理在多任务强化学习中的任务干扰问题,实现了无需增加网络复杂度的可扩展高效多任务学习。
这篇综述论文系统性地介绍了新兴的跨学科领域"LLM 心理测量学”,通过整合心理测量学的理论、工具与原则,为评估、验证和提升大语言模型在人类心理构念(如人格、价值观和智力)方面的表现提供了结构化框架与行动指南。
本文提出了首个基于语用学理论建模模糊指代表达(REs)的机器人任务规划基准 REI-Bench,揭示了模糊指令会导致规划成功率显著下降,并提出了“任务导向上下文认知”方法有效解决该问题,从而提升机器人对非专家用户(如老人和儿童)指令的理解能力。
该论文提出了一种在训练阶段将自然语言指令转换为伪代码表示以微调大语言模型的方法,实验表明该方法在 12 个基准测试中显著提升了模型遵循指令的可靠性(相对提升 8-21%),同时保持或改善了数学与常识推理能力。
该论文通过对 2022 年至 2025 年初的 25,000 篇论文进行数据驱动的半自动审查,系统梳理了大语言模型局限性(LLLMs)的研究趋势,发现相关研究占比显著增长,其中推理能力仍是核心关注点,而 arXiv 数据集的研究热点正逐渐向安全风险、对齐、幻觉、知识编辑及多模态方向转移。
该论文提出了一种基于一致性的测试时溯因推理框架,通过逻辑编程将多个预训练模型的预测及其错误检测规则编码,利用整数规划或启发式搜索算法在满足逻辑一致性约束的前提下最大化预测覆盖率,从而在分布偏移的新环境中有效缓解单一模型性能下降并提升整体精度与召回率。
该研究通过对比统计基线、树集成与深度学习模型在具有间歇性需求和数据缺失的零售销售数据上的表现,发现基于树的集成方法(如 XGBoost)在预测精度上优于复杂的深度学习架构,表明在特定约束下应优先考虑模型与问题特征的匹配度而非架构的复杂性。
该论文提出了名为 SILVR 的自改进循环框架,通过让视频生成模型在无需人类奖励函数或专家演示的情况下,利用自身收集的轨迹进行在线迭代更新,从而在未见过的机器人任务中持续提升规划性能。
该论文提出了 ReLIFT 方法,通过交替进行强化学习与在线监督微调,利用高质量演示数据弥补纯强化学习在获取新知识方面的不足,从而显著提升大语言模型在解决高难度问题上的推理能力。
这篇综述论文系统梳理了差分隐私从基础定义到在机器学习(涵盖符号人工智能至大语言模型)中的演进与集成方法,并探讨了其实践评估方案,旨在推动安全可信人工智能系统的发展。
该论文提出了“局部感知并行解码”(LPD)方法,通过引入灵活的并行自回归建模架构与局部感知生成排序策略,在保持生成质量的同时显著减少了图像生成步数并降低了延迟,从而实现了高效的自回归图像生成。
该论文指出,在心理健康服务资源匮乏和社会孤立的背景下,AI 聊天机器人的顺从性与适应性特征可能通过与人类认知偏差的相互作用,加剧精神疾病患者的信念动摇与依赖风险,因此呼吁临床实践、AI 开发与监管框架采取协调行动以应对这一新兴公共卫生挑战。
本文提出了“道德来源代码生成”(ES-CodeGen)的新概念,旨在通过涵盖从数据收集到部署后全周期的伦理与可持续实践,并基于对 803 篇文献的综述及 32 名从业者的调查,构建了包含 11 个维度(新增代码质量维度)的分类体系,以应对当前 AI 代码生成中存在的许可、隐私、公平及环境影响等伦理挑战。
本文提出了 IntrinsicWeather,一种基于扩散先验的可控天气编辑框架,它通过在内在空间(包含材质、几何和光照)进行分解与重渲染,结合内在图感知注意力机制和 CLIP 空间提示插值,实现了比现有像素空间方法更精细的户外场景天气控制,并发布了配套数据集以提升自动驾驶等下游任务的鲁棒性。
该论文首次揭示了大语言模型推理中 KV 缓存存在的严重隐私泄露风险,提出了三种攻击方法以验证其危害,并设计了名为 KV-Cloak 的高效轻量级防御机制,在几乎不影响模型精度和性能的前提下有效阻断了敏感输入的重构。
本文针对零样本协调(ZSC)任务中现有基准 Hanabi 因算法表现趋近完美而难以区分进展的局限,提出了一个要求智能体在模糊线索下动态跟踪信念并推断共享知识的开源多智能体基准“妖怪学习环境”(YLE),并证明在该环境中主流 ZSC 方法存在显著的跨种子性能差距,表明单一基准的评估结果可能无法泛化。
该研究通过对比符号对齐的"STRIPS Transformer"与标准 Transformer 架构,发现尽管前者具有更强的符号归纳偏置但优化困难,而后者结合 Stick-breaking 注意力机制不仅能实现近乎完美的训练精度和泛化能力,还能从短轨迹中成功提取符号模型以解决长程规划问题,从而验证了在受控符号环境下通过 Next Token 预测构建支持规划的世界模型的可行性。
该论文从理论层面解释了 SigLIP 模型中可训练逆温度与偏置项的优势,通过引入-星座这一新型组合对象刻画了损失函数为零的全局最优解,从而阐明了其在检索任务中的成功、模态间隙的成因及高质量表示所需的维度,并提出了一种改进的训练重参数化方法。
RADAR 是一种受心理测量学启发的轻量级可解释路由框架,它通过学习查询难度与模型能力之间的响应模型,动态将高难度查询分配给高能力配置,从而在多个推理基准测试中实现了优于现有方法的性能与成本平衡。