Compressed-Domain-Aware Online Video Super-Resolution
该论文提出了一种利用运动矢量、残差图和帧类型等压缩域信息的 CDA-VSR 网络,通过运动矢量引导的可变形对齐、残差门控融合及帧类型感知重建模块,在 REDS4 数据集上实现了比现有最先进方法 TMP 更高的重建质量(PSNR 提升 0.13 dB)和两倍以上的推理速度,从而解决了带宽受限场景下在线视频超分辨率实时处理的难题。
2034 篇论文
该论文提出了一种利用运动矢量、残差图和帧类型等压缩域信息的 CDA-VSR 网络,通过运动矢量引导的可变形对齐、残差门控融合及帧类型感知重建模块,在 REDS4 数据集上实现了比现有最先进方法 TMP 更高的重建质量(PSNR 提升 0.13 dB)和两倍以上的推理速度,从而解决了带宽受限场景下在线视频超分辨率实时处理的难题。
本文提出了一种名为 Masked Motion Diffusion Model (MMDM) 的扩散生成框架,通过引入运动学注意力聚合机制学习上下文自适应运动先验,有效解决了视觉动作捕捉中的遮挡问题,实现了在动作细化、补全及插值等多种任务下的高效高质量 3D 运动重建。
本文提出了 TDM-R1,一种基于轨迹分布匹配(TDM)的新型强化学习范式,通过解耦奖励学习与生成器训练并引入每步奖励信号,成功解决了少步扩散模型无法利用非可微奖励(如人类偏好)进行优化的难题,在文本渲染、视觉质量及偏好对齐等任务中实现了最先进的性能。
该论文提出了名为 PARSE 的框架,通过引入以部件为中心的装配图(PAG)和空间配置求解器来显式建模物体部件间的几何交互,并基于此构建了包含 10,000 个 3D 室内场景的 PARSE-10K 数据集,从而显著提升了视觉语言模型的布局推理能力以及 3D 场景生成的物理一致性与结构复杂性。
本文针对视觉语言模型在空间推理任务中的“空间智能差距”,提出了名为 3ViewSense 的框架,通过引入基于正交视图的“模拟与推理”机制,将自我中心感知与外部参考对齐,从而显著提升了模型在遮挡计数和视角一致性推理等复杂空间任务中的表现。
AR2-4FV 提出了一种利用静态背景构建锚点库以作为持久语义记忆的新方法,通过锚点图、重入先验和 ReID 门控机制,有效解决了固定视角视频中目标长期遮挡或离镜后的语言引导重定位与身份连续性问题,显著提升了重捕获率并降低了延迟。
该论文提出了一种名为 DECADE 的无监督扩散模型,通过引入时间一致性约束,有效解决了铷 -82 动态心脏 PET 成像中因缺乏配对数据和高噪声导致的去噪难题,在提升图像质量的同时保持了血流动力学参数的定量准确性。
本文提出了 MedQ-Deg 基准,通过涵盖 18 种退化类型、7 种成像模态及 30 个能力维度的大规模评估,揭示了当前医疗多模态大语言模型在图像质量退化下性能系统性下降且普遍存在“过度自信”的校准偏差问题。
该论文提出了一种几何知识引导的联邦双重知识蒸馏(GK-FedDKD)框架,通过利用局部协方差矩阵聚合生成全局几何知识来指导卫星遥感影像分析,有效解决了多卫星数据异构性挑战,并在 EuroSAT 等数据集上显著超越了现有最先进方法。
该论文提出了一种参数化笔触风格迁移方法,通过将图像从像素域转换到笔触域进行风格化,从而克服了传统像素级方法在模拟真实绘画笔触效果上的局限性,实现了更自然的视觉呈现。
本文提出了名为 OrdinalBench 的基准数据集,旨在通过标准化的 N 阶物体识别任务及包含 3.9 万条带推理轨迹的数据,系统评估并诊断视觉语言模型在理解序数(特别是大数值和复杂路径场景)时的泛化能力局限。
该论文提出了结构化高斯图像(SGI)框架,通过基于种子的多尺度局部空间分解与隐式神经高斯生成,结合熵压缩和粗到细的优化策略,实现了在显著提升高分辨率图像压缩率与优化速度的同时,保持甚至提升图像保真度。
本文提出了 4DRC-OCC 方法,通过融合 4D 雷达与相机数据实现鲁棒的 3D 语义占据预测,并引入了全自动标注数据集以解决恶劣环境下的感知挑战并降低对人工标注的依赖。
该论文提出了 MWM(移动世界模型),通过引入动作条件一致性后训练和推理一致性状态蒸馏技术,解决了现有导航世界模型在多步预测中视觉漂移及训练与推理不一致的问题,从而显著提升了基于规划的图像目标导航任务的视觉保真度、轨迹精度和推理效率。
本文提出了 HybridStitch,一种将图像生成视为编辑任务的新型文生图范式,通过在像素和 timestep 级别动态划分难易区域并协同使用大模型与小模型,实现了比现有混合模型方法更快的推理加速(在 Stable Diffusion 3 上达到 1.83 倍提速)。
该研究通过在夏威夷云雾林部署低成本相机陷阱,结合视觉基础模型与传统计算机视觉技术,实现了对植物物候变化及动植物相互作用的细粒度监测,揭示了传统粗粒度采样难以发现的生态趋势。
该研究通过在 CSIRO 牧场生物量基准上的系统评估揭示了“融合复杂度反转”现象,即在数据稀缺的农业场景下,简单的双层门控深度卷积模块优于复杂的跨视图注意力或 SSM 架构,且骨干网络的预训练规模对性能的影响远超融合机制的选择。
该论文提出了一种基于双层优化的可迁移优化网络框架,通过分两步训练通用特征提取器和特定任务域适配器,有效利用跨域多样化数据解决图像重建中训练数据稀缺的难题,并在磁共振成像等任务中实现了高质量的重建效果。
该论文提出了首个大规模 VR 离轴注视数据集 VRGaze,并设计了名为 GazeShift 的无监督注意力引导框架,实现了无需标注数据即可在 VR 设备上实时、高效且精准地进行注视估计。
该论文提出了一种无需训练的新型手术视频时序目标跟踪方法,通过利用预训练文生图扩散模型提取特征并结合跨帧交互机制,在无需微调的情况下实现了对腹腔镜胆囊切除术中关键解剖结构和器械的精准定位与跟踪。