Is Exchangeability better than I.I.D to handle Data Distribution Shifts while Pooling Data for Data-scarce Medical image segmentation?
该论文针对医疗图像分割中的数据稀缺与分布偏移问题,提出了一种基于可交换性假设和因果框架的跨层特征控制方法,通过有效缓解数据合并带来的分布差异,在五种数据集上实现了优于现有基线的分割性能。
8941 篇论文
该论文针对医疗图像分割中的数据稀缺与分布偏移问题,提出了一种基于可交换性假设和因果框架的跨层特征控制方法,通过有效缓解数据合并带来的分布差异,在五种数据集上实现了优于现有基线的分割性能。
本文提出了 LayerT2V 框架,通过利用视频生成骨干网络的高压缩特性将多层表示序列化并联合建模,首次实现了单次推理即可生成包含背景、前景及透明通道且语义一致的可编辑分层视频,并配套发布了首个大规模分层视频数据集 VidLayer。
RAP 提出了一种基于视频扩散变换器的统一框架,通过引入混合注意力机制与静动态训练推理范式,在满足实时延迟和内存约束的同时,实现了高保真且音画同步的音频驱动肖像动画生成。
本文提出了名为 MixCache 的免训练框架,通过引入上下文感知的缓存触发机制与自适应混合粒度决策策略,有效解决了现有视频 DiT 模型缓存方法单一、难以平衡生成质量与推理速度的问题,在显著提升视频生成加速比的同时保持了优越的生成质量。
本文提出了一种名为 Dyslexify 的训练免费防御方法,通过因果分析定位并选择性消融 CLIP 模型中负责提取文字信息的注意力头,从而在不显著降低标准性能的前提下,有效抵御针对多模态系统的排版攻击。
本文提出了一种面向图像的自适应性多模态安全数据集构建方法,通过从图像出发自动生成包含 3.5 万对图文及引导回复的 RMS 数据集,并引入标准化评估指标,有效解决了现有风险导向方法难以覆盖真实世界复杂安全场景及缺乏统一评估标准的问题。
本文提出了一种名为 Loc的可解释性跨视角定位方法,通过弱监督学习地面与航拍图像的特征对应关系,结合单目深度预测将匹配点提升至鸟瞰图空间并进行尺度感知对齐,从而在无需像素级标注的情况下实现了高精度的 3 自由度位姿估计。
本文提出了一种名为 ST-GS 的时空高斯泼溅框架,通过引导式空间聚合策略和几何感知时间融合方案,有效增强了基于高斯的 3D 语义占据预测中的多视角空间交互与多帧时间一致性,在 nuScenes 基准测试中实现了优于现有方法的性能与时间连贯性。
本文提出了视觉指令预训练(ViTP)框架,通过结合视觉语言模型与视觉鲁棒性学习(VRL),利用目标领域的推理数据增强基础感知模型,从而在遥感与医学成像等多个下游任务中实现了新的最先进性能。
本文提出了首个基于大规模原生 3D 数据训练的提示性部件分割模型 PartSAM,它通过三平面双分支编码器架构和自研的模型循环标注管线,克服了现有基于 2D 迁移方法的局限,实现了对 3D 物体表面及内部结构的高精度开放世界部件分割。
本文提出了一种基于扩散模型的首个可逆人脸匿名化框架,通过秘密密钥条件化机制,在确保生成图像高质量的同时,实现了仅授权方可进行精确身份恢复的安全匿名化方案。
该论文提出了一种异步扩散模型框架,通过为不同像素分配独立的去噪时间步,使提示相关区域能利用更清晰的上下文信息,从而显著提升了文本到图像生成的对齐效果。
该研究利用预训练的多模态大语言模型,通过分析奥地利 2022 至 2024 年间社交媒体上的 474 张冰雹图像,证明了无需微调即可结合参考物体提示策略以约 1.12 厘米的平均绝对误差自动估算冰雹直径,从而为传统冰雹传感器提供了补充性的空间密集数据源。
该论文提出了名为 FlowRVS 的新框架,通过将指代视频分割任务重构为从视频整体表征到目标掩码的语言引导连续形变问题,利用预训练文生视频模型的优势克服传统级联方法的局限,并在多个基准测试中取得了最先进的性能。
G4Splat 提出了一种利用生成先验进行 3D 场景重建的新方法,通过利用平面结构推导精确的度量深度图作为几何监督,并结合视频扩散模型解决多视图不一致问题,从而在单视图输入和无姿态视频等复杂场景下实现了高质量且几何准确的场景补全。
本文提出了利用场景图引导大语言模型作为裁判的 PoSh 指标,并发布了包含艺术领域专家标注的 DOCENT 数据集,以解决现有评估方法难以衡量长文本图像描述中细粒度属性与关系错误的难题,从而更准确地评估视觉语言模型在复杂场景下的描述能力。
该研究提出了一种基于自监督深度学习的标签高效方法,利用仅 1,000 个标注样本和大量未标记的 1 米分辨率航空影像预训练模型,成功实现了美国密西西比州大范围的高精度土地覆盖分类,有效克服了高分辨率制图中标注数据稀缺的瓶颈。
本文针对低比特量化在目标检测和图像分割任务中因特征融合阶段梯度失衡导致的性能下降问题,提出了包含量化感知梯度平衡融合(Q-GBFusion)与量化感知注意力分布对齐(Q-ADA)的 Q框架,通过动态重平衡梯度贡献及重构监督分布,在不增加推理开销的前提下显著提升了量化模型的检测与分割精度。
本文提出了 USF-Net,一种集成自适应大核卷积与低复杂度注意力机制的统一时空融合网络,旨在解决现有地面云图序列外推方法在特征提取、长程时空依赖建模及计算效率方面的局限,并通过发布 ASI-CIS 数据集验证了其在预测精度与效率上的优越性。
该论文揭示了现有 MKB-VQA 基准测试中存在的“视觉捷径”缺陷,提出了自动构建的 RETINA 基准以消除该偏差,并设计了 MIMIR 模型通过引入多相关实体图像增强文档表征,从而有效提升了多模态知识问答在复杂场景下的性能。