Disentangled Textual Priors for Diffusion-based Image Super-Resolution
本文提出了 DTPSR 框架,通过构建包含解耦全局与局部、低频与高频描述的大规模数据集 DisText-SR,并利用空间层级与频率语义双重解耦的文本先验及多分支引导策略,显著提升了基于扩散模型的图像超分辨率在语义可控性、细节还原度及泛化能力方面的表现。
1960 篇论文
本文提出了 DTPSR 框架,通过构建包含解耦全局与局部、低频与高频描述的大规模数据集 DisText-SR,并利用空间层级与频率语义双重解耦的文本先验及多分支引导策略,显著提升了基于扩散模型的图像超分辨率在语义可控性、细节还原度及泛化能力方面的表现。
本文针对移动智能体在线强化学习中的泛化难题,提出了包含三种挑战模式的基准测试"AndroidWorld-Generalization"及一套集成 GRPO 算法的开源训练系统,实验表明该方法虽能显著提升模型在未见任务实例上的零样本泛化能力,但在未见模板和应用上的泛化效果仍有限,并初步验证了测试时少样本适应的潜力。
本文提出了 Data Agent,一种将数据选择建模为训练感知序贯决策问题的端到端动态优化框架,它通过自适应平衡损失难度与置信度不确定性的复合奖励机制,在无需人工设计指标的情况下实现了跨任务、跨架构的训练加速与性能保持。
本文提出了 RPG-SAM 框架,通过引入可靠性加权原型挖掘解决支持图像的区域异质性,并利用几何自适应选择处理查询响应异质性,从而在无需训练的情况下实现了单样本息肉分割的显著性能提升。
DogWeave 提出了一种基于模型的框架,通过扩散增强的法线场优化和结构风格引导的条件补全技术,仅从单张 RGB 图像即可重建出几何精确且纹理逼真的高保真 3D 犬类模型,有效解决了单目动物重建中因自遮挡和细节缺失导致的几何失真与纹理不一致问题。
Med-Evo 是一种首创的医疗多模态大语言模型自进化框架,它通过特征驱动的伪标签生成和软硬奖励机制,利用无标签测试数据实现无需额外标注的模型性能提升。
本文提出了 SLNet,一种基于非参数自适应点嵌入(NAPE)和几何调制单元(GMU)的超轻量级 3D 点云识别网络,在显著降低参数量和计算成本的同时,在 ModelNet40、ScanObjectNN 及 S3DIS 等多个基准测试中实现了与现有主流模型相媲美甚至更优的性能。
本文全面综述了过去十年图像生成领域的技术演进,系统梳理了从变分自编码器、生成对抗网络到扩散模型等主流架构的原理、优化与局限,并进一步探讨了视频生成、模型鲁棒性及负责任部署等关键议题。
SIGMAE 提出了一种光谱指数引导的掩码自编码器预训练框架,通过引入语义显著性引导的动态令牌掩码策略,有效解决了多光谱遥感图像中背景复杂、目标模糊及缺乏语义指导的难题,从而在多种下游任务中实现了优于现有地理空间基础模型的性能。
该论文针对单目 3D 目标检测中跨模态知识蒸馏因模态差异导致的负迁移问题,提出了名为 MonoSTL 的选择性学习方法,通过统一架构对齐及引入深度不确定性的特征与关系选择性蒸馏模块,有效实现了从 LiDAR 到图像网络的正向深度信息迁移,从而在多个基准数据集上显著提升了检测精度并达到最优性能。
该论文提出了名为 ThingiPrint 的新数据集,并展示了一种利用 CAD 模型进行对比微调的无重训练分类方法,有效解决了工业增材制造中 3D 打印物体在无需重新训练模型的情况下实现自动分类的难题。
本文提出了 FedEU 框架,通过引入证据不确定性建模和客户端特定特征嵌入,在联邦学习环境下实现了对遥感图像分割基础模型的高效微调,有效解决了数据异构带来的更新不确定性问题并提升了聚合可靠性。
本文提出了早期视觉 - 语言融合(EVLF)方法,通过在扩散模型的编码器与生成骨干之间引入轻量级交叉注意力模块,解决了现有方法中因文本主导而导致合成数据视觉特征缺失的问题,从而生成语义忠实且视觉连贯的高质量数据集蒸馏样本。
该论文提出了一种多模态解耦与重耦合网络,通过将相机和激光雷达的鸟瞰图特征显式分解为模态不变与模态特定部分,并利用三个专家网络分别处理不同数据损坏情况,从而在保持清洁数据性能的同时显著提升了复杂现实场景下 3D 目标检测的鲁棒性。
该论文针对快照压缩成像(SCI)在真实世界退化场景下的局限性,提出了首个从“重建”转向“恢复”的研究框架,通过构建大规模基准数据集并设计包含多尺度去模糊与频域增强分支的 RobustSCI 网络及其级联版本,实现了在运动模糊和低光照等严重退化条件下的高质量视频恢复。
本文提出了 RayD3D 方法,通过沿相机到物体真实位置的射线进行对比蒸馏和加权蒸馏,有效转移深度知识并抑制激光雷达中无关信息的干扰,从而在无需增加推理成本的情况下显著提升了多视角 3D 目标检测模型在多种数据损坏场景下的鲁棒性。
本文提出了 DocCogito 框架,通过整合全局布局感知与基于区域的确定性视觉 - 语义链推理,并采用渐进式训练策略及细粒度置信度奖励机制,显著提升了多模态大语言模型在文档理解任务中的证据导向推理能力与泛化性能。
本文针对古汉字识别中非平稳的持续学习挑战,提出了 AMR-CCR 锚定模块化检索框架,通过共享多模态空间中的基于嵌入的字典匹配、脚本条件注入模块及多原型字典,实现了可扩展的增量学习与风格多样性建模,并构建了包含六个阶段的 EvoCON 基准数据集以支持系统评估。
该论文提出了一种结合可微骨架化模块与神经隐式场的骨骼潜在扩散框架,并构建了大规模 MedSDF 数据集,以解决医学解剖结构几何复杂与拓扑多变带来的生成挑战,实现了高效且高保真的医学形状生成。
本文通过利用 Tweedie 公式,精确揭示了漂移模型(Drifting)与基于分数的扩散模型之间的内在联系,证明了高斯核漂移等价于在平滑分布上进行分数匹配,并进一步推导了通用径向核的分解形式及拉普拉斯核在低温和高维情形下的误差界,从而为理解漂移模型与分布匹配蒸馏(DMD)提供了统一的理论视角。