Diffusion-Based sRGB Real Noise Generation via Prompt-Driven Noise Representation Learning
本文提出了一种名为 Prompt-Driven Noise Generation (PNG) 的新框架,通过提示驱动学习高维噪声特征来生成逼真的 sRGB 图像噪声,从而在无需相机元数据的情况下显著提升了真实世界去噪任务的泛化能力与应用效果。
3702 篇论文
本文提出了一种名为 Prompt-Driven Noise Generation (PNG) 的新框架,通过提示驱动学习高维噪声特征来生成逼真的 sRGB 图像噪声,从而在无需相机元数据的情况下显著提升了真实世界去噪任务的泛化能力与应用效果。
该研究利用大规模职业棒球数据,通过结合扩散模型 3D 姿态估计与梯度提升分类器,仅凭投手身体运动学特征实现了 80.4% 的投球类型预测准确率,并揭示了上肢动作(特别是手腕位置)的主导作用及握球差异导致的预测性能上限。
本文提出了一种结构观察驱动的两阶段图像 - 文本对比学习框架,通过结构特定的视觉查询与文本特征进行对比学习及动态负样本队列优化,有效解决了 CT 报告生成中数据量大和细节复杂的问题,并在公开数据集上取得了最先进的性能。
本文提出了 DeformTrace,一种结合可变形自/交叉状态空间模型与中继令牌机制的新型混合架构,旨在通过动态感受野和子空间划分解决视频音频时序伪造定位中边界模糊、长程依赖及稀疏伪造检测等难题,从而实现更精准、高效且鲁棒的伪造片段识别。
该论文提出了一种名为 FedMEPD 的新型联邦学习框架,通过采用联邦模态特定编码器和基于参数更新差异动态调整的部分个性化融合解码器,并结合跨模态注意力机制校准缺失模态信息,有效解决了多模态医学图像分析中存在的模态间异质性及个性化需求问题,在 BraTS 基准测试中显著优于现有方法。
本文提出了 FedAFD 框架,通过客户端的双层对抗对齐与粒度感知融合模块,以及服务器端的相似性引导集成蒸馏机制,有效解决了多模态联邦学习中个性化性能不足、模态任务差异及模型异构等挑战,显著提升了在 IID 和非 IID 设置下的整体性能与效率。
本文提出了一种名为 Locality-Attending Vision Transformer 的简单有效附加模块,通过引入可学习的高斯核调制自注意力机制以增强局部感知并优化 patch 表示,从而在不改变训练策略且不牺牲图像分类性能的前提下,显著提升了视觉 Transformer 在图像分割任务上的表现。
本文提出了 FC-VFI 方法,通过引入潜序列时间建模策略、语义匹配线结构感知运动引导以及时序差异损失,解决了现有视频扩散模型在帧插值中保真度不足和时序不一致的问题,实现了在 2560×1440 分辨率下将 30 FPS 视频高质量地插值至 120 或 240 FPS。
本文提出了 AdaIAT 方法,通过自适应地增强生成文本对图像令牌的注意力权重,在有效降低大视觉语言模型幻觉率的同时避免了描述重复并保持了语言连贯性。
本文提出了一种基于可微渲染的视点一致 3D 对抗纹理优化方法,通过结合期望变换、由粗到细的课程学习及显著性引导策略,有效克服了传统 2D 补丁在动态视角下的局限性,显著提升了针对机器人视觉运动策略的对抗攻击效果与泛化能力。
本文针对工业室内场景下吊装 LiDAR 视角的行人检测与跟踪难题,构建了专用数据集并评估了多种 3D 检测器与跟踪算法,实现了高精度实时检测并开源了相关资源以填补该领域的研究空白。
本文提出了一种基于自适应原型的可解释弱监督框架,通过模拟病理学家比对临床验证案例的推理过程,利用原型感知损失和动态剪枝机制,实现了前列腺癌组织病理图像的可信自动分级。
本文提出了名为 TimeWarp 的基准测试,通过模拟网页 UI 和布局的演变来评估 Web 智能体的泛化能力,并进一步提出了利用多版本轨迹蒸馏的 TimeTraj 算法,显著提升了智能体在动态网页环境中的鲁棒性。
该论文提出了一种融合自动指代、接地描述等定位感知任务的预训练框架,以增强视觉编码器对细微差异的捕捉能力,从而在胸部 X 光医学差异视觉问答任务中实现了最先进的性能。
本文提出了 VisionPangu,一款仅含 1.7B 参数的紧凑多模态模型,它通过结合 InternVL 视觉编码器、OpenPangu 语言骨干网络以及基于 DOCCI 数据集的细粒度指令微调,在无需大规模参数扩展的情况下实现了高质量且结构化的图像描述生成。
本文提出了一种引入收缩参数的新型相机模型,在保留正交投影稳定性的同时有效模拟了近景图像中的透视畸变,从而显著提升了单目 3D 可变形模型在头戴式摄像机近景视频中的回归性能。
本文提出了 BiEvLight 框架,通过构建梯度引导的事件去噪先验并将去噪过程重构为受增强任务约束的 bilevel 优化问题,有效解决了事件相机背景噪声与图像低信噪比耦合导致的融合瓶颈,从而在低光照图像增强任务中显著提升了性能。
本文提出了首个将强化学习可验证奖励范式应用于视频三维场景理解的 3D-RFT 框架,通过基于评估指标(如 3D IoU 和 F1 分数)的严格奖励函数进行强化微调,使模型在多项三维感知与推理任务中超越了更大规模的现有模型。
该论文提出了 VideoHV-Agent 框架,通过“先思考后验证”的假设生成与验证多智能体机制,有效解决了长视频理解中的语义漂移与冗余问题,在多个基准测试中实现了更高的准确率、逻辑性和更低的计算成本。
本文提出了 Wallaroo,一种基于简单自回归 next-token 预测的基线模型,通过解耦视觉编码和四阶段训练策略,实现了多模态理解、生成与编辑的统一,并支持多分辨率图像及中英双语。