CAPT: Confusion-Aware Prompt Tuning for Reducing Vision-Language Misalignment
本文提出了 CAPT 框架,通过构建混淆库并利用语义与样本级混淆挖掘器及多粒度差异专家模块,使视觉 - 语言模型能够学习自身错分模式,从而有效缓解类别间的系统性混淆并提升细粒度判别能力与泛化性能。
6640 篇论文
本文提出了 CAPT 框架,通过构建混淆库并利用语义与样本级混淆挖掘器及多粒度差异专家模块,使视觉 - 语言模型能够学习自身错分模式,从而有效缓解类别间的系统性混淆并提升细粒度判别能力与泛化性能。
本文提出了 CAWM-Mamba,这是首个能够利用统一共享权重端到端地联合执行红外 - 可见光图像融合与复合恶劣天气(如雾、雨、雪共存)恢复的模型,通过引入天气感知预处理、跨模态特征交互及基于小波分解的状态空间模块,在多种基准测试及下游感知任务中均取得了优于现有最先进方法的性能。
本文提出了名为 SOLAR 的推荐序列建模框架,通过引入理论上无损且保留 Softmax 机制的 SVD-Attention 技术,将注意力复杂度从降低至$O(Ndr)$,从而实现了在无需过滤的情况下对万级行为序列和千级候选集的高效建模,并在快手线上场景中显著提升了视频观看量等核心业务指标。
本文提出了一种名为自适应 Token 字典(ATD)的新型 Transformer 架构,通过引入可学习的 Token 字典和跨注意力机制,在保持线性计算复杂度的同时实现了全局依赖建模,从而在图像超分辨率、去噪及 JPEG 伪影去除等任务中取得了最先进的性能。
本文提出了 NEMF 框架,通过利用高保真几何信息解耦环境场并约束物理逆问题,实现了从非侵入式数据到高分辨率材料参数场的精确重建,从而构建出具备物理仿真能力的功能性数字孪生。
该研究通过评估多种图像增强技术对轻量级 EfficientViT 模型在资源受限的孟加拉语手写字符分类任务中的影响,发现随机仿射变换与颜色抖动相结合的策略在 Ekush 和 AIBangla 数据集上取得了最佳分类准确率,有效解决了小样本场景下的过拟合问题。
本文提出了一种名为 Synthetic-Child 的基于 AIGC 的隐私保护合成数据流水线,通过从零生成包含真实标注的 1.2 万张儿童姿态图像来训练轻量级模型,在无需真实儿童照片的情况下实现了在边缘设备上高效部署且精度超越成人数据基线的儿童姿态估计与分类系统。
本文提出了 VLMFusionOcc3D,一种利用视觉语言模型先验知识、结合实例驱动注意力机制与天气感知自适应融合策略的鲁棒多模态框架,旨在解决自动驾驶中 3D 语义占据预测的语义模糊及恶劣天气性能下降问题。
该论文提出了 DrPose 算法,通过利用仅包含单视图图像与人体姿态的 DrPose15K 数据集进行直接奖励微调,有效解决了多视图扩散模型在重建复杂动态姿态时表现不自然的问题,显著提升了单图重建 3D 人体的姿态质量。
本文针对增量统一多模态异常检测中因忽略虚假和冗余特征而导致的灾难性遗忘问题,提出了一种结合 Mamba 解码器与信息瓶颈融合模块的新型去噪框架 IB-IUMAD,通过解耦特征耦合与过滤冗余信息,有效实现了在持续学习新类别的同时保留先验知识。
针对透明物体实例分割中边界模糊和对比度低等挑战,本文提出了结合频域细节增强与多尺度空间细化机制的 SEP-YOLO 框架,并补充了 Trans10K 数据集的高质量实例级标注,在多个基准测试中取得了最先进的性能。
该论文针对时尚智能任务碎片化和标注不完整的问题,构建了大规模细粒度数据集 FashionX,并提出了基于统一时尚对话范式的 OmniFashion 框架,实现了跨任务推理与交互对话的通用时尚智能。
该论文提出了一种多模态多维项目反应理论框架(M3IRT),通过解耦图像、文本及跨模态能力与难度,有效识别并剔除现有基准中的捷径问题,从而在降低评估成本的同时显著提升了多模态大语言模型跨模态推理能力的评估可靠性。
本文提出了 DREAM 框架,通过掩码预热训练和语义对齐解码技术,在单一模型中协同优化判别与生成目标,从而在仅使用 CC12M 数据集训练的情况下,显著提升了视觉理解与文本到图像生成的综合性能。
本文提出了名为 VisionCreator 的原生视觉生成智能体模型,通过构建高质量数据、采用渐进式专业化训练与虚拟强化学习策略,并建立综合基准测试,实现了理解、思考、规划与创作(UTPC)能力的端到端统一,在多项评估中展现出超越更大规模闭源模型的卓越性能。
本文提出了 ReCo-Diff,一种利用观测残差进行残差条件自引导采样的确定性冷扩散框架,通过在每个采样步骤中基于预测图像与稀疏视图输入之间的残差进行持续校正,从而在无需启发式干预的情况下显著提升了稀疏视图 CT 重建的精度、稳定性及鲁棒性。
FiDeSR 提出了一种高保真且细节保留的单步扩散超分辨率框架,通过训练时的细节感知加权策略、推理时的低高频自适应增强器以及残差内噪声细化机制,在无需重新训练模型的情况下实现了优于现有扩散方法的真实世界图像超分辨率重建效果。
本文提出了 ShareVerse 框架,通过构建大规模多智能体交互数据集、采用四视图空间拼接策略以及引入跨智能体注意力机制,实现了多智能体在共享世界建模中时空一致的大规模视频生成。
本文提出并验证了基于视觉 - 语言深度学习模型的智能诊断系统 GTDoctor 及其软件 GTDiagnosis,该系统通过像素级病灶分割与个性化分析,显著提升了妊娠滋养细胞疾病病理诊断的准确性、一致性及效率。
该论文提出了一种名为 MiM-DiT 的统一图像恢复框架,通过结合预训练扩散模型与双层混合专家(MoE)架构,实现了从粗粒度退化类型到细粒度类内变化的自适应处理,从而在多种图像恢复任务中取得了优于现有最先进方法的效果。