Data-Centric Benchmark for Label Noise Estimation and Ranking in Remote Sensing Image Segmentation
本文提出了一种面向遥感图像语义分割的数据中心基准,包含公开数据集及两种基于模型不确定性、预测一致性和表征分析的新型标签噪声估计与排序方法,旨在有效识别和量化标注噪声以提升模型性能。
9794 篇论文
本文提出了一种面向遥感图像语义分割的数据中心基准,包含公开数据集及两种基于模型不确定性、预测一致性和表征分析的新型标签噪声估计与排序方法,旨在有效识别和量化标注噪声以提升模型性能。
本文提出了 IdGlow,一种基于流匹配扩散模型的无掩码两阶段框架,通过任务自适应时间步调度、基于坏例的视觉语言模型提示合成以及细粒度组级直接偏好优化,有效解决了多主体生成中的稳定性 - 可塑性困境,在保持高保真身份特征的同时实现了自然和谐的场景融合与年龄变换。
本文针对异构协同感知中因训练数据缺失共现样本而导致的模态隔离难题,提出了首个无需共现监督的高效对齐框架 CodeAlign,该方法通过跨模态特征 - 码本 - 特征(FCF)翻译机制实现模态对齐,在显著降低参数量与通信开销的同时,在 OPV2V 和 DAIR-V2X 数据集上取得了最先进的感知性能。
本文针对现有光谱压缩成像方法在单帧重建不确定性及视频时序一致性方面的局限,构建了首个动态高光谱数据集 DynaSpec,提出了利用时空特征传播的 PG-SVRT 模型,并通过仿真与实物实验验证了其在重建质量、光谱保真度及时序一致性上的优越性能。
本文针对 3D 数据长尾分布导致传统指标冲突的难题,提出了一种通过加权子集近似全量风险、结合类保留配额与先验不变教师监督的 3D 数据集剪枝方法,从而在多个场景下有效平衡并提升了总体准确率与平均准确率。
本文提出了首个雷达 - 相机协同感知框架 RC-GeoCP,通过建立以雷达为锚点的几何共识机制(包含几何结构校正、不确定性感知通信和共识驱动聚合),有效解决了多智能体间的深度歧义与空间失配问题,并在显著降低通信开销的同时实现了最先进的协同感知性能。
本文提出了一种名为 SCVM 的状态化跨层视觉调制框架,通过引入递归更新的跨层记忆状态和逐层反馈调制机制,在无需扩展视觉令牌、增加编码器或微调语言模型的前提下,有效解决了多模态大模型中浅层细节丢失及语义分布不匹配的问题,从而显著提升了视觉问答和幻觉评估等任务的性能。
本文提出了名为 HistoSelect 的框架,通过模拟病理学家“由粗到细”的检索策略,利用问题引导的组采样和补丁选择机制,在显著降低视觉 Token 用量的同时提升了全切片图像问答的准确性与可解释性。
该研究提出了一种基于 k 空间双通道 U-Net 的新型框架,能够直接从欠采样的低场 MRI k 空间数据中重建出高质量图像,其效果优于传统的空间域方法,并实现了与全 k 空间采集相当的图像质量。
本文提出了一种混合低秩专家(MoLRE)框架,通过引入多个专用低秩适配器与无监督软路由机制,在仅增加不到 0.5% 参数且无需显式病理监督的情况下,显著提升了六种不同架构的医学影像基础模型在 7 万例头 CT 扫描多标签诊断任务中的综合检测性能。
本文提出了 CoLC 框架,通过前景感知点采样、补全增强早期融合及密度引导双重对齐策略,在显著降低通信成本的同时实现了高效的协同感知与场景完整性恢复。
本文提出了一种名为 SCOUT 的自监督重建方法,通过利用空间非局部相似性和投影域共轭性质生成伪标签,在无需外部数据或预训练的情况下,实现了超低数据量下快速、高保真且能有效抑制伪影的 CT 成像。
本文提出了一种名为 STMI 的新型多模态行人重识别框架,通过结合利用 SAM 掩码的分割引导特征调制、基于可学习查询的语义令牌重分配以及跨模态超图交互机制,有效解决了现有方法中因硬令牌过滤或简单融合导致的判别性线索丢失及背景干扰问题,并在多个基准测试中展现了卓越的性能与鲁棒性。
TokenSplat 提出了一种无需相机位姿的自监督前馈框架,通过引入令牌对齐的高斯预测模块和非对称双流解码器,实现了从多视图图像中联合进行高保真 3D 高斯重建与稳定相机位姿估计。
该论文提出了一种能够处理多种文本模态的通用高棉语文本识别(UKTR)框架,其核心是新颖的模态感知自适应特征选择(MAFS)技术,旨在解决数据稀缺和跨模态迁移困难的问题,并首次发布了相关基准数据集与模型。
本文针对高棉语场景文档布局检测因数据稀缺和脚本结构复杂而面临的挑战,提出了首个综合研究,通过构建专用数据集、开发开源数据增强工具以及引入基于 YOLO 的定向边界框检测框架,填补了该领域的空白并开源了相关资源。
本文提出了一种名为 IU 的新型不可感知通用后门攻击方法,该方法利用图卷积网络建模类间关系并生成特定于类的扰动,在极低投毒率下实现了对 ImageNet-1K 上多目标类别的高成功率攻击,同时保持了视觉隐蔽性并成功规避了现有防御。
本文提出了一种基于全景图像拼接技术的工业管道内壁重建系统,通过结合极坐标变换与关键帧提取,将内窥镜视频高效转换为保留完整细节的平面全景图像,显著提升了管道缺陷检测与状态评估的效率和工程应用价值。
该论文提出了一种反特征坍塌学习框架,通过抑制伪造线索的过度重叠并保留多样化的判断视角,显著提升了生成图像检测模型在未见生成机制下的泛化能力与鲁棒性。
UniHM 是一个首个由自由形式语言指令引导的统一灵巧手操作框架,它通过统一灵巧手标记器、基于人机交互数据训练的视觉语言动作模型以及物理引导的动态优化模块,实现了在未见物体和形态上具有强泛化能力且物理可行的灵巧手操作。