CRAFT-LoRA: Content-Style Personalization via Rank-Constrained Adaptation and Training-Free Fusion
CRAFT-LoRA 通过秩约束微调、提示引导的专家编码器聚合以及免训练的自适应引导方案,有效解决了现有 LoRA 组合中内容与风格纠缠及融合不稳定的问题,实现了无需额外重训练即可兼顾高保真内容与风格一致性的个性化图像生成。
4065 篇论文
CRAFT-LoRA 通过秩约束微调、提示引导的专家编码器聚合以及免训练的自适应引导方案,有效解决了现有 LoRA 组合中内容与风格纠缠及融合不稳定的问题,实现了无需额外重训练即可兼顾高保真内容与风格一致性的个性化图像生成。
本文提出了名为 CFE-Bench 的多模态基准测试,该测试基于 20 多个 STEM 领域的真实大学考题与教师参考答案,旨在评估大语言模型的推理能力,研究发现尽管前沿模型表现尚可,但在多步推理中仍难以维持中间状态的正确性且步骤效率较低。
本文提出了名为 TraqPoint 的端到端强化学习框架,通过将关键点检测重构为序列决策问题并引入轨迹感知奖励机制,直接优化关键点在图像序列中的长期可跟踪性,从而在稀疏匹配基准测试中显著超越了现有最先进方法。
本文提出了无需训练的概念蒸馏采样(CDS)框架,通过结合稳定的蒸馏骨干与动态加权机制,首次实现了在无需参考样本的情况下对多概念图像进行保持实例保真度的编辑,并在多个基准测试中超越了现有方法。
本文提出了基于扩散变换器(DiT)的 Uni-Animator 框架,通过实例块嵌入增强视觉参考、物理特征强化细节保留以及基于草图的动态 RoPE 编码提升时序一致性,成功实现了图像与视频草图着色任务的统一,在保持高保真细节和鲁棒时序连贯性的同时达到了与专用方法相当的性能。
本文提出了名为 MedMAP 的医学模态感知预训练框架,通过引入模态感知对齐机制并基于新构建的包含 7392 对 3D MRI 体积与报告数据的 MedMoM-MRI3D 数据集进行微调,显著提升了视觉语言模型在 3D MRI 多器官异常检测任务中的性能。
本文提出了注意力引导的感知策略优化(APPO)算法,通过利用令牌级密集奖励优化聚焦关键视频帧的感知令牌,在无需昂贵细粒度标注的情况下,以低成本显著提升了视频推理模型的细粒度感知能力。
本文介绍了利用 SAM2、Florence2、ChatGPT 结合专用本体与术语表,对 16 至 17 世纪造船文献进行图像分割与标注的研究,旨在通过生成式人工智能技术解决历史文档数据稀缺与领域专业化难题,从而提升珍贵文献的策展、编目及检索效率。
本文提出了一种名为 Lilium 的自动化进化方法,通过利用微分进化算法优化基于 3D 圆锥的软组织厚度模型,并结合多种解剖与摄影约束,显著提升了计算机辅助颅面重叠(SFO)在法医身份识别中的精度与鲁棒性。
GLIDE-Reg 提出了一种通过联合优化注册场与可学习降维模块,将压缩的视觉基础模型全局语义特征与 MIND 局部描述符融合的全局到局部可变形配准方法,在多个肺部数据集上实现了优于现有最先进方法的配准精度与泛化鲁棒性。
该论文提出了一种名为 IDER 的新方法,利用幂等性原理通过自适应损失和幂等性蒸馏,在无需显著增加计算开销的情况下,有效解决了持续学习中的灾难性遗忘问题,同时显著提升了模型的预测可靠性、准确率和抗遗忘能力。
本文提出了一种名为 BornoViT 的新型高效轻量级视觉 Transformer 模型,该模型仅含 0.65M 参数,在 BanglaLekha 和自建的 Bornomala 数据集上分别实现了 95.77% 和 91.51% 的准确率,有效解决了孟加拉语手写字符分类中计算成本高和模型体积大的问题。
本文提出了 ShiftLUT 框架,通过引入可学习空间移位模块、非对称双分支架构及误差有界自适应采样压缩策略,在保持低存储与推理成本的同时,显著扩大了基于查找表的图像恢复方法的感受野并提升了重建性能。
本文提出了名为 MWP 的物理信息多模态融合框架及包含 1 万余条同步数据的大规模工业废弃物数据集 Waste-Weight-10K,通过结合 RGB 图像与几何物理元数据,实现了跨重量范围的高精度废弃物重量估算并提供了可解释的预测结果。
本文提出了名为 PreciseCache 的即插即用框架,通过低频差异(LFD)度量实现步级缓存(LFCache)以及块级冗余检测(BlockCache),在显著加速视频生成推理的同时避免了以往方法因误判冗余而导致的画质下降问题。
本文提出了 FlowReg,一种基于流匹配的无监督心脏磁共振图像配准框架,它通过暖启动重流训练和初始猜测策略,在无需分割标签和预训练模型的情况下,仅需极少参数即可实现两步快速推理及多步细化,显著提升了配准精度与左心室射血分数估计的准确性。
HeroGS 提出了一种统一的层级引导框架,通过在图像、特征和参数三个层面分别实施伪密集监督、特征自适应致密化与剪枝以及协同剪枝几何一致性策略,有效解决了稀疏视角下 3D 高斯泼溅重建中分布不规则、背景模糊及高频细节失真等问题,实现了高保真的三维重建。
本文提出了一种基于连续曝光时间的新型调制传递函数(ET-MTF)模型,构建了包含 5000 余段视频的大规模合成湍流数据集 ET-Turb,显著提升了大气湍流图像复原的真实感与模型泛化能力。
UETrack 提出了一种统一且高效的单目标跟踪框架,通过引入基于 Token 池化的混合专家机制和目标感知自适应蒸馏策略,有效解决了多模态场景下的跟踪难题,并在多种硬件平台上实现了速度与精度的卓越平衡。
本文提出了 FACE,一种基于面级(face-level)自回归表示的新框架,通过将每个三角形面视为单一令牌,在显著降低序列长度和计算成本的同时,实现了高保真且高效的 3D 网格生成与重建。