From Semantic To Instance: A Semi-Self-Supervised Learning Approach
该论文提出了一种名为 GLMask 的半自监督学习方法,通过最小化人工标注并专注于形状与纹理特征,成功将语义分割转化为实例分割,在小麦穗实例分割任务中达到了 98.5% 的 mAP@50 的 SOTA 性能,并在 COCO 数据集上实现了超过 12.6% 的显著提升。
5375 篇论文
该论文提出了一种名为 GLMask 的半自监督学习方法,通过最小化人工标注并专注于形状与纹理特征,成功将语义分割转化为实例分割,在小麦穗实例分割任务中达到了 98.5% 的 mAP@50 的 SOTA 性能,并在 COCO 数据集上实现了超过 12.6% 的显著提升。
本文针对直接偏好优化(DPO)中数据选择忽视模型演化状态的问题,提出了名为 SamS 的自适应批处理样本调度算法,该算法能根据模型学习反馈动态调整训练样本,从而在不修改核心算法且计算开销极小的情况下显著提升大语言模型的泛化性能。
DemoDiffusion 提出了一种无需特定任务训练或人机配对数据即可实现单样本人类模仿的机器人操作新方法,该方法通过运动学重定向将人类手势转化为粗略轨迹,并利用预训练扩散策略将其修正为符合机器人动作分布的可行轨迹,在 8 项真实世界任务中取得了 83.8% 的平均成功率。
该研究提出了一种受人类视觉发育启发的“发展性视觉饮食”(DVD)课程,通过模拟人类从婴儿期到成年的视觉成熟过程(如视力、对比度和色彩感知的发展),成功引导 AI 模型从依赖纹理特征转向依赖形状信息,从而显著提升了其在形状识别、抗干扰及对抗攻击方面的鲁棒性,实现了更类人且高效的视觉系统。
该论文通过理论推导与实验验证,揭示了在含噪数据下训练物理信息神经网络(PINN)时,若要使经验风险低于噪声方差,网络规模必须满足特定的下界约束,从而证明了单纯增加噪声样本数量无法降低误差。
本文提出了名为 TableEG 的框架,该框架利用经过微调的大语言模型和三元组表示法,在多个真实世界数据集上生成高度逼真的表格错误,从而有效弥合了合成数据与真实错误分布之间的差距,并为数据清洗技术的评估建立了稳健的基准。
本文提出了一种名为 MCULoRA 的鲁棒不完整多模态低秩适应框架,通过模态组合感知低秩适应(MCLA)模块解耦共享信息与模态特性,并利用动态参数微调(DPFT)模块基于表征空间可分性优化训练比例,从而有效解决了多模态情感识别中因模态缺失导致的梯度冲突问题并显著提升了预测性能。
该论文揭示了多模态大语言模型(MLLM)作为验证器时普遍存在的“同意偏差”问题,并提出了一种名为自我 grounded 验证(SGV)的两步生成方法,通过先独立生成行为先验再评估轨迹,显著提升了验证准确性及智能体在网页导航、计算机操作和机器人等领域的任务完成表现。
这篇论文作为首份全面综述,系统梳理了流匹配(Flow Matching)的理论基础及其在生物序列建模、分子生成与设计和蛋白质生成等生命科学领域的最新应用进展,并总结了相关数据集、工具及未来发展方向。
该论文提出了一种基于树结构的弱到强泛化方法,通过利用蒙特卡洛树搜索构建包含成功与失败轨迹的层次化表示,在复杂决策环境中有效提升了强模型的推理与决策能力。
本文揭示了恶意审计对象如何利用最优传输等数学策略,从原本不公平的数据分布中构造出既满足公平性指标又看似具有代表性的样本以制造“公平假象”,并提出了基于分布距离统计检验的防御机制来识别此类操纵攻击。
该论文提出了一种动态、自动且系统的红队测试(DAS)框架,通过实时压力测试揭示了医疗大语言模型在静态基准测试中表现优异但在动态鲁棒性、隐私、公平性和幻觉等关键安全维度上存在严重脆弱性的“基准差距”,从而为构建可信赖的医疗 AI 提供了必要的评估基础。
本文提出了 CauKer 算法,通过结合高斯过程核组合与结构因果模型生成具有因果一致性的合成时间序列数据,实现了时间序列基础模型的高效预训练,并揭示了其在数据规模与模型容量上呈现的清晰缩放规律。
本文提出了 GraphProp 方法,通过分两阶段训练(先利用图不变量预测构建结构基础模型,再将其作为位置编码融合节点属性),有效解决了图基础模型在跨域结构泛化上的不足,显著提升了其在图分类等任务中的表现,特别是在处理无节点属性图时的优势。
该论文揭示了循环神经网络中的门控机制通过状态与参数的时间尺度耦合,充当数据驱动的优化预条件器,从而产生滞后依赖和方向依赖的有效学习率,并解释了门控架构在训练鲁棒性方面的优势。
本文提出了名为 ECHO 的新型基础模型,通过融合频带分割架构与频率位置编码,实现了对任意采样率和可变长度机器信号(如声学、振动及工业传感器数据)的高效建模,并在异常检测与故障分类任务中取得了领先性能。
该论文提出了一种基于逆动态博弈的算法,通过混合整数线性规划编码局部纳什均衡的 KKT 条件,从多智能体交互演示中准确学习参数化约束(包括凸与非凸约束),并据此生成满足底层安全约束的鲁棒运动规划。
该论文提出了一种基于条件的潜在扩散模型(CbLDM),利用拉普拉斯矩阵和条件先验,成功解决了从原子对分布函数(PDF)反演单金属纳米颗粒三维结构的病态逆问题,生成了既符合观测数据又具有物理意义的纳米结构。
该论文提出了一种融合熵驱动课程学习与多任务学习的统一框架,通过基于 Lempel-Ziv 压缩的轨迹可预测性量化实现由简入繁的训练,并联合优化位置、距离及方向预测,从而在 HuMob 挑战赛中实现了状态最先进的人体移动预测性能与显著加速的收敛速度。
该论文通过对比实验发现,基于多重插补(MICE)的方法在生成用于保险费率厘定的高质量合成数据方面,不仅能有效保留原始数据的分布特征和变量间关系,且相比变分自编码器和生成对抗网络等深度生成模型具有更低的实现复杂度。