Efficient Algorithms for Logistic Contextual Slate Bandits with Bandit Feedback
该论文提出了两种高效算法(Slate-GLM-OFU 和 Slate-GLM-TS)来解决具有指数级候选集和逻辑回归奖励的上下文石板多臂老虎机问题,通过局部规划实现低计算复杂度并保证的累积遗憾,且在合成实验与大语言模型提示工程应用中均优于现有基准。
5399 篇论文
该论文提出了两种高效算法(Slate-GLM-OFU 和 Slate-GLM-TS)来解决具有指数级候选集和逻辑回归奖励的上下文石板多臂老虎机问题,通过局部规划实现低计算复杂度并保证的累积遗憾,且在合成实验与大语言模型提示工程应用中均优于现有基准。
该论文通过揭示锐度感知最小化(SAM)在机器遗忘中因拟合遗忘集而丧失去噪特性的机制,提出了将模型拆分并分别利用 SAM 学习保留信号与锐度最大化消除遗忘信号的“锐度极小极大(Sharp MinMax)”方法,从而在降低保留数据需求的同时显著提升了遗忘效果并增强了模型安全性。
本文提出了基于 Kolmogorov-Arnold 表示定理的 KAEM 模型,通过引入单变量潜在结构实现快速精确推理,并结合重要性采样与退火策略解决了传统生成模型在效率与可解释性之间的权衡问题。
该论文提出了一种名为 GLMask 的半自监督学习方法,通过最小化人工标注并专注于形状与纹理特征,成功将语义分割转化为实例分割,在小麦穗实例分割任务中达到了 98.5% 的 mAP@50 的 SOTA 性能,并在 COCO 数据集上实现了超过 12.6% 的显著提升。
本文针对直接偏好优化(DPO)中数据选择忽视模型演化状态的问题,提出了名为 SamS 的自适应批处理样本调度算法,该算法能根据模型学习反馈动态调整训练样本,从而在不修改核心算法且计算开销极小的情况下显著提升大语言模型的泛化性能。
DemoDiffusion 提出了一种无需特定任务训练或人机配对数据即可实现单样本人类模仿的机器人操作新方法,该方法通过运动学重定向将人类手势转化为粗略轨迹,并利用预训练扩散策略将其修正为符合机器人动作分布的可行轨迹,在 8 项真实世界任务中取得了 83.8% 的平均成功率。
该研究提出了一种受人类视觉发育启发的“发展性视觉饮食”(DVD)课程,通过模拟人类从婴儿期到成年的视觉成熟过程(如视力、对比度和色彩感知的发展),成功引导 AI 模型从依赖纹理特征转向依赖形状信息,从而显著提升了其在形状识别、抗干扰及对抗攻击方面的鲁棒性,实现了更类人且高效的视觉系统。
该论文通过理论推导与实验验证,揭示了在含噪数据下训练物理信息神经网络(PINN)时,若要使经验风险低于噪声方差,网络规模必须满足特定的下界约束,从而证明了单纯增加噪声样本数量无法降低误差。
本文提出了名为 TableEG 的框架,该框架利用经过微调的大语言模型和三元组表示法,在多个真实世界数据集上生成高度逼真的表格错误,从而有效弥合了合成数据与真实错误分布之间的差距,并为数据清洗技术的评估建立了稳健的基准。
本文提出了一种名为 MCULoRA 的鲁棒不完整多模态低秩适应框架,通过模态组合感知低秩适应(MCLA)模块解耦共享信息与模态特性,并利用动态参数微调(DPFT)模块基于表征空间可分性优化训练比例,从而有效解决了多模态情感识别中因模态缺失导致的梯度冲突问题并显著提升了预测性能。
该论文揭示了多模态大语言模型(MLLM)作为验证器时普遍存在的“同意偏差”问题,并提出了一种名为自我 grounded 验证(SGV)的两步生成方法,通过先独立生成行为先验再评估轨迹,显著提升了验证准确性及智能体在网页导航、计算机操作和机器人等领域的任务完成表现。
这篇论文作为首份全面综述,系统梳理了流匹配(Flow Matching)的理论基础及其在生物序列建模、分子生成与设计和蛋白质生成等生命科学领域的最新应用进展,并总结了相关数据集、工具及未来发展方向。
该论文提出了一种基于树结构的弱到强泛化方法,通过利用蒙特卡洛树搜索构建包含成功与失败轨迹的层次化表示,在复杂决策环境中有效提升了强模型的推理与决策能力。
本文揭示了恶意审计对象如何利用最优传输等数学策略,从原本不公平的数据分布中构造出既满足公平性指标又看似具有代表性的样本以制造“公平假象”,并提出了基于分布距离统计检验的防御机制来识别此类操纵攻击。
该论文提出了一种动态、自动且系统的红队测试(DAS)框架,通过实时压力测试揭示了医疗大语言模型在静态基准测试中表现优异但在动态鲁棒性、隐私、公平性和幻觉等关键安全维度上存在严重脆弱性的“基准差距”,从而为构建可信赖的医疗 AI 提供了必要的评估基础。
本文提出了 CauKer 算法,通过结合高斯过程核组合与结构因果模型生成具有因果一致性的合成时间序列数据,实现了时间序列基础模型的高效预训练,并揭示了其在数据规模与模型容量上呈现的清晰缩放规律。
本文提出了 GraphProp 方法,通过分两阶段训练(先利用图不变量预测构建结构基础模型,再将其作为位置编码融合节点属性),有效解决了图基础模型在跨域结构泛化上的不足,显著提升了其在图分类等任务中的表现,特别是在处理无节点属性图时的优势。
该论文揭示了循环神经网络中的门控机制通过状态与参数的时间尺度耦合,充当数据驱动的优化预条件器,从而产生滞后依赖和方向依赖的有效学习率,并解释了门控架构在训练鲁棒性方面的优势。
本文提出了名为 ECHO 的新型基础模型,通过融合频带分割架构与频率位置编码,实现了对任意采样率和可变长度机器信号(如声学、振动及工业传感器数据)的高效建模,并在异常检测与故障分类任务中取得了领先性能。
该论文提出了一种基于逆动态博弈的算法,通过混合整数线性规划编码局部纳什均衡的 KKT 条件,从多智能体交互演示中准确学习参数化约束(包括凸与非凸约束),并据此生成满足底层安全约束的鲁棒运动规划。