Cora: Correspondence-aware image editing using few step diffusion
本文提出了名为 Cora 的图像编辑框架,通过引入对应感知噪声校正和插值注意力图,利用语义对应关系在少步扩散过程中实现结构保持与纹理转移的平衡,从而有效解决了现有方法在处理非刚性形变、物体修改及内容生成时易产生伪影或丢失关键属性的难题。
8822 篇论文
本文提出了名为 Cora 的图像编辑框架,通过引入对应感知噪声校正和插值注意力图,利用语义对应关系在少步扩散过程中实现结构保持与纹理转移的平衡,从而有效解决了现有方法在处理非刚性形变、物体修改及内容生成时易产生伪影或丢失关键属性的难题。
本文提出了名为 ECAM 的基于对比学习的模块,旨在增强现有行人轨迹预测模型对环境障碍的感知与避让能力,从而显著降低预测轨迹中的碰撞率。
本文提出了 LLM-EMF 模型,通过利用大语言模型增强文本信息并结合冻结 CLIP 模型融合视觉与文本数据,利用多注意力机制有效捕捉跨域用户偏好,从而在多个电商数据集上显著提升了跨域序列推荐的性能。
本文提出了长尾知识蒸馏(LTKD)框架,通过将蒸馏目标分解为组间和组内损失并引入重平衡与重加权机制,有效解决了传统知识蒸馏在长尾分布下因教师模型偏差而导致的尾部类别性能不足问题。
本文提出了 DyME 框架,通过动态平衡监督微调(SFT)与强化学习(RLVR)并引入视觉监督机制,有效解决了小尺度视觉语言模型(SVLMs)在训练思考能力时面临的记忆伪迹与探索不稳定问题,从而显著提升了其在专有任务中的性能与可靠性。
本文介绍了 SelvaBox,这是一个涵盖三个国家、包含超过 83,000 个手动标注树冠的开源高分辨率无人机影像数据集,旨在解决热带森林树冠检测中数据稀缺的难题,并证明了其在提升检测精度及实现跨数据集零-shot 泛化方面的卓越性能。
本文提出了一种基于概率视角的概念型对抗攻击框架,该框架通过在概念分布上采样生成多样化的对抗样本,在有效保持原始概念(如身份或类别)的同时,实现了对分类器的高效攻击。
本文展示了如何利用知识引导的机器学习方法,通过从卫星图像中提取标量特征并训练可解释的增强机器(EBM)模型,结合人类专家策略来识别卫星图像中的 overshooting tops,从而在气象高 stakes 应用中实现可解释且可靠的机器学习。
本文提出了 pFedMMA,这是首个利用多模态适配器进行个性化联邦微调的框架,它通过让客户端本地适配个性化数据分布并协同训练全局共享投影,在保持通信高效的同时实现了视觉语言模型在个性化与泛化能力之间的最佳平衡。
针对长尾分类中现有共形预测方法在集合大小与类条件覆盖率之间难以兼顾的问题,本文提出了基于流行度调整 Softmax 的评分函数及边际与类条件预测的线性插值新流程,实现了两者之间的平滑权衡。
该论文提出了 BEAST 框架,通过结合掩码自编码与时序对比学习对 Transformer 进行自监督预训练,有效利用无标签视频数据,在多种物种及单/多动物场景下显著提升了神经行为分析、姿态估计及动作分割等任务的性能。
本文提出了一种通过卷积神经网络利用单目图像生成原始几何体以初始化 3D 高斯泼溅(3DGS)的框架,该框架不仅显著降低了训练所需的迭代次数和图像数量,还能在姿态估计存在噪声或隐式的情况下实现非合作航天器的高保真 3D 模型快速学习。
本文提出了 DA-Occ,一种基于方向感知卷积和高度分数投影的纯 2D 框架,旨在解决现有 3D 占据预测方法在精度与效率之间的权衡难题,通过保留垂直几何信息在 Occ3D-nuScenes 数据集上实现了 39.3% 的 mIoU 和 27.7 FPS 的实时推理速度。
本文提出了 AutoDebias 框架,该框架利用视觉语言模型自动识别并生成中和提示,通过 CLIP 引导的训练过程有效消除文本到图像模型中隐蔽的恶意后门偏见,在显著降低攻击成功率的同时保持了模型的图像质量与多样性。
本文提出了一种名为 AMBER-AFNO 的新型轻量级 3D 医学图像分割基准模型,该模型通过利用频域中的自适应傅里叶神经算子(AFNO)替代传统的多头自注意力机制,在显著降低计算复杂度和内存占用的同时,在多个公开数据集上实现了与最先进模型相媲美甚至更优的分割性能。
本文提出了 AnimateScene 框架,通过自动碰撞避免的精准定位、免训练的风格光照对齐以及结合相机轨迹的联合后重建技术,实现了在任意 3D 场景中生成具有高精度几何细节和强时空一致性的相机可控动态动画。
该研究提出了一种名为 BeeNet 的深度学习框架,通过模拟带电节肢动物与花朵的静电相互作用,成功利用电场数据逆向重构出多样化的花朵几何形状,揭示了电感受在传递丰富空间细节方面的潜力。
本文提出了一种针对图表理解的新型对比学习范式,通过引入利用图表结构特性的专用损失函数和“困难”样本,显著提升了多模态模型在流程图等结构化视觉领域的图文匹配与视觉问答能力。
本文提出了 Draw-In-Mind (DIM) 框架,通过构建包含长图文对和思维链设计蓝图的大规模数据集,将图像编辑中的“设计”职责明确转移至理解模块,从而在仅 4.6B 参数量的统一多模态模型中实现了超越更大规模模型的 SOTA 图像编辑性能。
本文提出了 MEGS² 框架,通过引入轻量级球面高斯瓣替代球谐函数,并设计统一软剪枝策略联合优化原语数量与参数,在保持渲染质量的同时显著降低了 3D 高斯泼溅的显存占用。