Soft Equivariance Regularization for Invariant Self-Supervised Learning
该论文提出了一种名为软等变性正则化(SER)的即插即用方法,通过在中间特征层而非最终嵌入层施加等变性约束,在保持自监督学习不变性优势的同时有效提升了模型对几何扰动的鲁棒性及下游任务性能。
1874 篇论文
该论文提出了一种名为软等变性正则化(SER)的即插即用方法,通过在中间特征层而非最终嵌入层施加等变性约束,在保持自监督学习不变性优势的同时有效提升了模型对几何扰动的鲁棒性及下游任务性能。
该论文提出了一种名为 HARP 的深度学习框架,通过仅在可移动的扩散体模上进行训练,成功消除了多站点体内扩散 MRI 数据间的扫描仪差异,从而无需依赖复杂且难以获取的多站点人体受试者队列即可实现数据标准化。
该论文提出利用眼动追踪数据作为监督信号,通过引入专用的注视令牌引导医学视觉语言模型按时间顺序模拟放射科医生的视觉搜索过程,从而显著提升了模型在医学影像推理任务中的性能与泛化能力。
该论文通过实证研究揭示,在将大规模 Vision Transformer 教师模型蒸馏至容量受限的 CNN 学生模型时,会引发严重的维度坍塌现象,导致有效维度大幅降低并削弱模型的噪声鲁棒性,且这种由非对称余弦蒸馏引起的几何局限性无法通过输入增强来修复。
该论文针对农业领域缺乏通用视觉定位基准的难题,提出了首个包含负样本的农业数据集 gRef-CW,并设计了融合多标签分层相关性评分与插值回归的 Weed-VG 框架,以解决作物与杂草实例定位及目标缺失场景下的定位挑战。
该论文提出了科学图像质量评估(SIQA)框架,通过构建包含知识(科学有效性与完整性)和感知(认知清晰度与学科规范性)的双维评估体系及 SIQA 挑战基准,揭示了现有多模态大模型在科学图像评分一致性上表现良好但科学理解能力不足的差距,从而强调了多维评估对于科学图像质量判断的必要性。
该论文指出仅依赖 RGB 输入的 MLLM 因忽略相机参数而难以泛化,并提出通过注入相机内参、引入相机感知数据增强及蒸馏几何先验的“相机感知 MLLM"框架,显著提升了模型在跨相机场景下的空间推理泛化能力。
该研究通过将共形预测框架应用于全日面太阳耀斑回归预测,对比了共形预测、分位数回归与共形化分位数回归三种方法,结果表明共形化分位数回归在覆盖率和区间长度方面表现最优,显著提升了空间天气预测的可靠性。
该论文针对现有隐形水印检测依赖特定算法先验知识的局限,提出了无需解码信息的通用水印存在检测(UWPD)任务,并构建了 UniFreq-100K 数据集及提出利用自适应频谱感知与动态多频谱注意力机制的 FSNet 模型,实现了在未知嵌入算法下的优异零样本检测能力。
本文提出了开放词汇视频时序句子定位(OV-TSGV)任务及首个专用基准,并设计了名为 HERO 的统一框架,通过分层语言嵌入和并行跨模态细化机制,显著提升了模型在未见词汇和多样化表达下的泛化能力。
该论文提出了一种血管感知深度学习框架,通过融合基于动脉、静脉和毛细血管生成的血管弯曲度与灌注缺失图,显著提升了光学相干断层扫描血管成像(OCTA)对年龄相关性黄斑变性(AMD)的检测性能与可解释性。
该论文提出了一种高效且支持异构训练目标的去中心化扩散模型框架,通过结合异构训练范式、预训练检查点转换及 PixArt-alpha 架构,在显著降低计算与数据需求的同时,实现了比同质化基线更优的生成质量与多样性。
本文提出了 ButterflyViT,一种通过将专家视为共享量化基底的几何重定向并引入空间平滑正则化来解决线性内存扩展瓶颈的方法,从而在 CIFAR-100 等任务上实现了 64 专家配置下 354 倍的内存压缩且精度损失可忽略,使稀疏混合专家视觉 Transformer 能够部署于边缘设备。
本文提出了一种名为 XMACNet 的可解释轻量级注意力 CNN 模型,通过融合可见光图像与植被指数并引入 StyleGAN 数据增强,在辣椒病害分类任务中实现了高精度、强可解释性及边缘部署能力。
本文提出了名为 EarthBridge 的高保真跨模态图像翻译框架,通过结合非马尔可夫桥过程扩散模型与对比无配对学习方法,在第四届多模态航拍图像挑战赛翻译赛道中取得了第二名的优异成绩。
本文提出了 HiDE 框架,通过构建分层外部先验字典进行级联检索,并结合上下文感知的参数估计网络,有效解决了现有方法中外部先验利用不充分的问题,显著提升了学习式图像压缩的编码效率。
该论文提出了一种结合 VGG19、Efficient-Net 和 ResNet50 提取特征并由 Bi-LSTM 进行分类的混合机器学习模型,用于基于新生儿脑部 MRI 图像早期检测脑瘫,其 98.83% 的准确率优于多个单独使用的预训练模型。
该论文揭示了一种长程视觉语言模型的行为规律,即模型在推理过程中保持与视觉状态一致的时间锚定能力(通过步级接地率 SGR 衡量),是预测其分布外泛化性能的关键指标,且该能力独立于模型规模和最终答案准确率。
该论文提出了基于运动学空间旋量等价性定义的“运动比特”(MotionBit)概念,构建了名为 MoRiBo 的手动标注基准,并开发了一种无需学习的图分割方法,在移动刚体分割任务中显著优于现有方法,为具身推理与机器人操作提供了关键的物理交互理解基础。
本文提出了一种名为“扰动高斯集合”的主动视图选择框架,通过结合不确定性建模与序贯决策,利用随机密度缩放构建高斯密度场集合并选取预测方差最大的视角,从而在稀疏视图 CT 重建中有效消除几何伪影并提升重建质量。