CLIP-Guided Multi-Task Regression for Multi-View Plant Phenotyping
该论文提出了一种基于 CLIP 嵌入的级别感知多任务回归框架,通过聚合多视角图像并引入文本先验,在 GroMo25 基准测试中显著提升了植物年龄和叶片数量预测的精度与鲁棒性,同时简化了传统双模型流程。
3970 篇论文
该论文提出了一种基于 CLIP 嵌入的级别感知多任务回归框架,通过聚合多视角图像并引入文本先验,在 GroMo25 基准测试中显著提升了植物年龄和叶片数量预测的精度与鲁棒性,同时简化了传统双模型流程。
该论文提出了一种利用眼动追踪数据中注视点(代表视觉稳定性)和瞳孔反应(代表新颖性)的双重标准框架,在无需模型推理的情况下高效筛选第一人称视频帧,从而在显著降低存储与能耗的同时保持甚至提升下游任务性能。
本文提出了基于“抽象 - 细化”(ABS-REF)范式的 HPENets 系列网络,通过引入高维位置编码(HPE)和非局部 MLP 机制,在显著降低计算成本的同时实现了点云处理任务中效率与性能的双重提升。
该研究提出了一种基于解耦表示学习的框架,将脑 MRI 分解为解剖结构和对比度特征,发现人口统计学属性的可预测性主要源于解剖变异而非采集差异,因此有效的偏差缓解策略必须分别针对这两种不同的信号来源。
本文提出了 Any2Any 框架,通过构建共享潜在表示和轻量级适配器实现统一的任意遥感模态翻译,并发布了首个百万级多模态数据集 RST-1M,在 14 项任务中显著超越了传统成对翻译方法并展现出强大的零样本泛化能力。
本文提出了 TextBoost 方法,通过引入由 OCR 提取并作为辅助信息传输的文本语义引导,利用自适应过滤、注意力融合及正则化损失等策略,在超低比特率图像压缩中实现了小字体场景文本保真度与整体视觉质量的显著提升,有效解决了局部文本精度与全局图像质量之间的权衡难题。
该论文针对少样本开放集动作识别在视频领域研究不足的问题,提出了一种基于特征残差判别器(FR-Disc)的架构扩展方法,在五个数据集上的实验表明该方法在保持闭集准确率的同时显著提升了未知动作的拒绝能力,并建立了新的基准。
本文提出了 Crab,一种通过引入包含显式推理过程的 AV-UIE v2 数据集以及采用交互感知 LoRA(I-LoRA)动态路由机制来显式建模任务间关系,从而有效解决音频 - 视觉任务异质性导致的负迁移问题,并在多任务学习中实现正向迁移的扩展性统一模型。
本文提出了一种推理时注意力调节框架,通过引入解剖感知注意力正则化和病理引导模块,有效解决了扩散模型在胸部 X 光片反事实生成中常见的结构漂移和病灶表达不稳定问题,实现了兼具解剖一致性与可控病灶编辑的可靠合成。
本文提出了一种名为 HBRB-BoW 的改进算法,通过在分层聚类过程中引入全局实值流并在叶节点进行最终二值化,解决了 ORB-SLAM 传统二进制词袋模型因精度损失导致的视觉词汇退化问题,从而显著提升了系统在复杂环境下的回环检测与重定位性能。
本文提出了一种融合可学习迭代收缩阈值算法(LISTA)稀疏编码与视觉 Transformer 的 LISTA-Transformer 模型,通过自适应协同局部与全局特征,在 CWRU 数据集上实现了 98.5% 的故障识别率,有效克服了传统 CNN 和 Transformer 在特征建模及复杂度方面的局限。
该论文针对野生动物个体重识别中图像退化导致性能下降的问题,提出了一种通过在训练集中引入多样化人工退化来增强特征提取器的方法,并在首次公开的真实退化数据集上验证了该方法能显著提升跨物种的识别准确率。
该论文提出了一种无需训练和适配器的“PlaneCycle"方法,通过在各网络深度循环聚合正交平面特征,成功将预训练的 2D 基础模型(如 DINOv3)无缝提升为具备强大 3D 理解能力的模型,且在无需重训的情况下性能媲美甚至超越部分全量训练的 3D 架构。
该论文通过似然视角研究了广义均值在密度聚合中的应用,证明了仅当阶数时(涵盖线性与几何平均),聚合策略才能系统性地优于个体分布,从而为深度集成学习中广泛使用的聚合方法提供了理论依据。
本文提出了 Real5-OmniDocBench,这是首个对 OmniDocBench v1.5 进行全规模物理重建的基准测试,通过覆盖扫描、形变、屏幕拍摄、光照和倾斜五种真实场景,首次实现了对文档解析性能下降因素的精确归因,揭示了当前视觉语言模型在真实物理世界中的显著差距。
本文提出了一种结合变分自编码器与非参数最近邻密度估计的编码器方法,通过显式估计和修改数据分布来消除敏感变量依赖,从而在保持数据效用的同时实现比现有无监督方法更优的独立性。
该论文通过系统分析扩散变换器(DiT)的内部表示动态,发现跨层表示多样性对有效学习至关重要,并据此提出了通过长残差连接和多样性损失来显式提升表示多样性的 DiverseDiT 框架,在多种规模和设置下均实现了性能提升与收敛加速。
本文提出了 DeNuC 方法,通过将病理基础模型中的细胞核检测与分类任务解耦,利用轻量级模型进行定位并结合基础模型进行特征编码,从而在显著减少可训练参数量的同时,有效解决了联合优化导致的表征退化问题并大幅提升了检测与分类性能。
本文提出了 EmbodiedSplat,一种面向开放词汇场景理解的在线前馈 3D 高斯泼溅方法,它通过引入在线稀疏系数场与 CLIP 全局码本及 3D 几何感知特征聚合,实现了在流式图像输入下对 3D 场景的实时重建与语义理解,克服了现有方法局限于离线或单场景优化的不足。
本文提出了一种基于超环面覆盖的色度等变架构,通过将饱和度和亮度等区间值映射到圆环而非实线,消除了以往方法的近似伪影,从而在细粒度分类和医学成像等任务中显著提升了模型的鲁棒性、可解释性及预测性能。