Kernel VICReg for Self-Supervised Learning in Reproducing Kernel Hilbert Space
本文提出了 Kernel VICReg,一种将 VICReg 自监督学习目标引入再生核希尔伯特空间(RKHS)的新框架,通过核化损失函数中的方差、不变性和协方差项,在无需显式映射的情况下实现非线性特征学习,从而在非线性结构显著或样本有限的场景下有效缓解表征坍塌并提升性能。
2172 篇论文
本文提出了 Kernel VICReg,一种将 VICReg 自监督学习目标引入再生核希尔伯特空间(RKHS)的新框架,通过核化损失函数中的方差、不变性和协方差项,在无需显式映射的情况下实现非线性特征学习,从而在非线性结构显著或样本有限的场景下有效缓解表征坍塌并提升性能。
本文针对联邦持续学习中提示通信导致的类间知识不一致问题,提出了 C²Prompt 方法,通过引入局部类分布补偿机制和类感知提示聚合方案,有效缓解了类内分布差异与类间知识混淆,从而在多个基准测试中实现了最先进的性能。
本文提出了一种面向腿式机器人的决策驱动语义对象探索方法,通过置信度校准的语义证据仲裁、受控增长的语义拓扑记忆以及语义效用驱动的亚目标选择机制,在无需稠密几何重建的情况下,将噪声语义观测转化为稳定可执行的探索决策,从而显著提升了开放世界中的探索性能。
本文提出了 DeCLIP 框架,通过解耦提示机制将多标签图像转化为单类视图以适配 CLIP 预训练范式,并引入自适应相似度调节策略,在无需回放和参数高效的前提下有效解决了多标签类增量学习中的灾难性遗忘与高误报率问题。
本文提出了 BOUND 模型,通过推断未知物体的粗粒度类别而非仅标记为单一“未知”标签,在保持已知类别检测精度的同时提升了未知物体的召回率,并实现了具有语义细粒度的分层分类,从而增强了开放世界目标检测在自动驾驶等实际场景中的决策能力。
本文提出了名为 LikePhys 的免训练评估方法,通过利用去噪目标作为似然代理来区分物理有效与无效视频,构建了涵盖四大物理领域的基准测试,证明了其指标与人类偏好高度一致,并揭示了当前视频扩散模型在物理理解能力上随模型规模与推理设置扩展而呈现的改进趋势。
本文提出了 CanvasMAR,一种通过引入作为非均匀掩码的全局模糊“画布”先验、运动感知采样课程以及组合无分类器引导,从而在极少采样步数下实现高保真视频预测的自回归模型。
本文提出了 3DThinker 框架,通过两阶段训练使视觉语言模型在无 3D 先验和标注数据的情况下,能够像人类一样利用图像中的几何信息进行 3D 空间想象与推理,从而在有限视角下显著提升了空间关系理解能力。
本文提出了 AURASeg 框架,通过引入残差辅助边界细化模块、注意力渐进上采样解码器及轻量级多尺度上下文模块,有效解决了移动机器人在边缘设备上 drivable-area 分割中边界精度不足与特征表示受限的问题,并在多个数据集及 Jetson Nano 设备上验证了其优越性能与部署可行性。
该论文提出了名为 CULTIVate 的基准测试,旨在通过涵盖 16 个国家的跨文化活动(如问候、饮食和庆典)来评估文生图模型的文化忠实度,揭示了现有模型在全球南方国家表现较差及存在特定失败模式的系统性偏差,并证明了其提出的新指标比现有指标更契合人类判断。
该论文提出了一种融合结构公平性解耦与全局分布对齐的双机制协同优化框架,在保持深伪检测整体精度的同时,有效提升了跨域场景下的组间与组内公平性。
LaxMotion 提出了一种无需精确 3D 姿态监督的框架,通过利用全局轨迹与单目 2D 运动线索的一致性来学习 3D 动作结构,从而在保持生成质量的同时显著提升了模型的泛化能力。
该论文针对生成式扩散模型中文化记忆与泛化能力交织的“多模态图标性”现象,提出了将“识别”与“实现”分离的评估框架(CRT 指标),通过大规模实验揭示了模型在文化引用下的行为差异及其受数据频率、文本独特性等多重因素的影响,从而推动了从简单图文匹配向深层语境理解的评估范式转变。
该论文提出了一种名为 Co-Layout 的新框架,通过结合大语言模型与基于网格的整数规划,采用由粗到细的优化策略,实现了对室内布局与家具摆放的联合自动优化,在提升设计质量的同时显著提高了计算效率。
本文提出了名为 SPARK 的框架,通过结合中性场景锚点、利用视听关联先验的潜在听觉触发词以及风格调节器,构建看似无害的提示词以协同诱导文本生成视频(T2V)模型绕过安全防御,从而生成语义违规的视频内容。
本文提出了 MRIQT,一种基于物理感知扩散模型的 3D 图像质量转换框架,通过结合 K 空间退化模拟、v 预测引导及信噪比加权感知损失,显著提升了便携式超低场新生儿 MRI 的图像质量与病理诊断可用性,使其在客观指标和临床评价上均优于现有方法。
本文介绍了 FunnyNodules,这是一个完全参数化的合成医学图像数据集,通过生成具有可控视觉属性的抽象肺结节形状及明确的决策规则,旨在填补缺乏诊断推理标注的空白,从而为评估和开发能够像放射科医生一样基于正确理由进行推理的可解释人工智能(xAI)模型提供灵活且全面的基准。
该论文提出了 FireScope 框架及 FireScope-Bench 基准,通过结合视觉监督与强化学习的思维链推理机制,实现了跨大陆的高分辨率野火风险预测,显著提升了模型的泛化能力与可解释性。
该论文提出了 VeilGen 生成模型与 DeVeiler 恢复网络,通过无监督学习潜在透射与眩光图来模拟并去除简化光学系统中的镜头光幕眩光,从而在无需配对数据的情况下实现了高质量的图像复原。
本文提出了一种受 Mamba 架构启发的统一注意力-Mamba(UAM)骨干网络,通过灵活融合注意力与 Mamba 模块消除了手动比例调优的需求,并构建了多模态框架,在肿瘤细胞分类和图像分割任务上均实现了超越现有基础模型的最先进性能。