Discriminative Perception via Anchored Description for Reasoning Segmentation
该论文提出了 DPAD 方法,通过强制模型生成描述性标题并利用其与上下文的语义对比来引入判别性感知,从而解决现有推理分割中推理链冗长且偏离目标的问题,显著提升了定位精度并缩短了推理长度。
6557 篇论文
该论文提出了 DPAD 方法,通过强制模型生成描述性标题并利用其与上下文的语义对比来引入判别性感知,从而解决现有推理分割中推理链冗长且偏离目标的问题,显著提升了定位精度并缩短了推理长度。
本文提出了一种结合基于诊断多样性的数据采样策略与诊断令牌加权策略优化(DiTPO)的新框架,通过优先优化临床关键信息并提升数据质量,在显著减少训练样本需求的同时实现了放射学报告生成的最先进性能。
本文提出了一种名为体积定向扩散(VDD)的新方法,通过将生成轨迹锚定在确定性解剖共识先验上并仅预测 3D 边界残差场,有效解决了医学图像分割中多样性与保真度的权衡难题,从而在保持高精度分割的同时显著提升了不确定性量化能力并生成了符合解剖结构的置信度图。
本文提出了 DQE-CIR 方法,通过引入可学习属性权重以强化文本引导的视觉特征对齐,并结合目标相对负采样策略从“中间地带”筛选高信息量负样本,从而有效解决现有组合图像检索方法中的相关性抑制与语义混淆问题,显著提升了细粒度属性修改场景下的查询判别力与检索精度。
本文针对动态海底环境中长期视觉定位研究缺乏基准数据集和精确真值的问题,首次发布了涵盖多站点及长达六年跨度的海底数据集,提出了一种基于图像足迹的三维真值构建方法,并据此对八种先进视觉位置识别算法进行了基准测试,揭示了现有方法在该场景下的性能局限及传统距离阈值评估法的不足。
本文针对多编码器扩散模型(如 Stable Diffusion 3)中尚未被充分研究的后门攻击问题,提出了 MELT 方法,通过仅微调少于 0.2% 的参数(低秩适配器)并冻结预训练权重,成功实现了高效且有效的轻量级后门攻击。
该研究通过系统评估发现,在细胞级(40x40 像素)小图块病理图像分析中,当训练数据规模充足时,针对小图块优化的任务特定架构(如 CustomViT)在准确性和效率上均优于基础模型,且基础模型并未展现出更强的模糊鲁棒性。
本文提出了 EgoPoseFormer v2,一种结合 Transformer 架构与不确定性感知半监督自动标注系统的 egocentric 人体运动估计方法,通过利用大规模未标注数据及多视图时空优化,显著提升了 AR/VR 场景下的姿态估计精度、时序稳定性及泛化能力。
该论文提出了一种基于 CLIP 嵌入的级别感知多任务回归框架,通过聚合多视角图像并引入文本先验,在 GroMo25 基准测试中显著提升了植物年龄和叶片数量预测的精度与鲁棒性,同时简化了传统双模型流程。
该论文提出了一种利用眼动追踪数据中注视点(代表视觉稳定性)和瞳孔反应(代表新颖性)的双重标准框架,在无需模型推理的情况下高效筛选第一人称视频帧,从而在显著降低存储与能耗的同时保持甚至提升下游任务性能。
本文提出了基于“抽象 - 细化”(ABS-REF)范式的 HPENets 系列网络,通过引入高维位置编码(HPE)和非局部 MLP 机制,在显著降低计算成本的同时实现了点云处理任务中效率与性能的双重提升。
该研究提出了一种基于解耦表示学习的框架,将脑 MRI 分解为解剖结构和对比度特征,发现人口统计学属性的可预测性主要源于解剖变异而非采集差异,因此有效的偏差缓解策略必须分别针对这两种不同的信号来源。
本文提出了 Any2Any 框架,通过构建共享潜在表示和轻量级适配器实现统一的任意遥感模态翻译,并发布了首个百万级多模态数据集 RST-1M,在 14 项任务中显著超越了传统成对翻译方法并展现出强大的零样本泛化能力。
本文提出了 TextBoost 方法,通过引入由 OCR 提取并作为辅助信息传输的文本语义引导,利用自适应过滤、注意力融合及正则化损失等策略,在超低比特率图像压缩中实现了小字体场景文本保真度与整体视觉质量的显著提升,有效解决了局部文本精度与全局图像质量之间的权衡难题。
该论文针对少样本开放集动作识别在视频领域研究不足的问题,提出了一种基于特征残差判别器(FR-Disc)的架构扩展方法,在五个数据集上的实验表明该方法在保持闭集准确率的同时显著提升了未知动作的拒绝能力,并建立了新的基准。
本文提出了 Crab,一种通过引入包含显式推理过程的 AV-UIE v2 数据集以及采用交互感知 LoRA(I-LoRA)动态路由机制来显式建模任务间关系,从而有效解决音频 - 视觉任务异质性导致的负迁移问题,并在多任务学习中实现正向迁移的扩展性统一模型。
本文提出了一种推理时注意力调节框架,通过引入解剖感知注意力正则化和病理引导模块,有效解决了扩散模型在胸部 X 光片反事实生成中常见的结构漂移和病灶表达不稳定问题,实现了兼具解剖一致性与可控病灶编辑的可靠合成。
本文提出了一种名为 HBRB-BoW 的改进算法,通过在分层聚类过程中引入全局实值流并在叶节点进行最终二值化,解决了 ORB-SLAM 传统二进制词袋模型因精度损失导致的视觉词汇退化问题,从而显著提升了系统在复杂环境下的回环检测与重定位性能。
本文提出了一种融合可学习迭代收缩阈值算法(LISTA)稀疏编码与视觉 Transformer 的 LISTA-Transformer 模型,通过自适应协同局部与全局特征,在 CWRU 数据集上实现了 98.5% 的故障识别率,有效克服了传统 CNN 和 Transformer 在特征建模及复杂度方面的局限。
该论文针对野生动物个体重识别中图像退化导致性能下降的问题,提出了一种通过在训练集中引入多样化人工退化来增强特征提取器的方法,并在首次公开的真实退化数据集上验证了该方法能显著提升跨物种的识别准确率。