When Rubrics Fail: Error Enumeration as Reward in Reference-Free RL Post-Training for Virtual Try-On
本文针对缺乏理想参考答案的参考自由强化学习场景,提出了通过加权枚举错误而非构建评分标准来生成奖励的“隐式错误计数”(IEC)方法,并在虚拟试衣任务中验证了其优于传统“评分标准即奖励”(RaR)及多种基线的性能。
2195 篇论文
本文针对缺乏理想参考答案的参考自由强化学习场景,提出了通过加权枚举错误而非构建评分标准来生成奖励的“隐式错误计数”(IEC)方法,并在虚拟试衣任务中验证了其优于传统“评分标准即奖励”(RaR)及多种基线的性能。
本文提出了名为 SemVID 的训练无关视频时间定位剪枝框架,通过引入证据保留与连通性强度原则,动态分配帧级令牌预算并筛选对象、运动及上下文令牌,在显著降低计算成本的同时有效保持了关键语义证据链的完整性。
该论文提出了一种利用调制高斯包络以在任意 k 空间位置放置频谱支持的 Gabor 基元方法,结合低秩时空分解,实现了无需大规模训练数据即可从高度欠采样数据中高效重建具有物理可解释参数的高分辨率心脏电影 MRI 图像,其性能优于压缩感知、高斯基元及哈希网格隐式神经表示等现有基线。
本文提出了一种名为 OWL 的新型感知函数,它仅利用视觉运动线索(如局部视觉膨胀和相对旋转)即可在无需预先知道环境或相机运动信息的情况下,实现实时的缩放 3D 场景重建与相机航向估计,从而为机器人导航及理解自然感知提供了新的理论视角。
该论文提出了一种基于区域感知扩散模型的伪 3D 纵向脑 MRI 病灶修复框架,通过融合多时相上下文信息,在显著提升图像感知保真度与纵向稳定性的同时,实现了比现有最先进方法快约 10 倍的修复效率。
该论文提出了首个名为 MultiHaystack 的大规模跨模态基准测试,旨在评估多模态大模型在包含 4 万多个文档、图像和视频的异构语料库中进行检索与推理的能力,并揭示了当前模型在从大规模混合数据中精准定位证据并据此推理方面存在显著瓶颈。
本文提出了名为 AVG 的框架,通过构建包含 20,000 个视频片段的高质量全球基准,利用可解释的听觉感知(将音频分解为“声学原子”)与多模态推理相结合,显著提升了全球音视频地理定位的精度。
本文提出了 Any2Full,一种单阶段、领域通用且模式无关的深度补全框架,它通过设计尺度感知提示编码器,将稀疏深度信息转化为提示信号以微调预训练的单目深度估计模型,从而在无需两阶段对齐的情况下实现了更优的鲁棒性与效率。
本文提出了一种轻量级且可解释的三维判别直方图梯度幅值(DHoGM)框架,通过融合切片级与体素级特征及低参数分类器,实现了在跨站点条件下对结构脑 MRI 运动伪影的高效、准确且鲁棒的自动检测。
该论文提出了一种基于自监督视觉 Transformer 的自动化流水线,将 ImageNet 训练集转换为大规模多标签数据集,在无需人工标注的情况下显著提升了模型的分类精度与下游任务迁移能力。
该论文提出了一种基于 CLIP 的多模态框架,通过自动对齐手术视频帧与手势文本描述,生成结构化的手术时间轴和叙事,从而减少对外科医生手动标注的依赖。
本文提出了 Uni-LVC,一种通过跨注意力适配模块和可靠性感知分类器,将帧间编码统一为基于参考帧条件化的帧内编码的单一模型,从而在低延迟和随机访问模式下同时实现高效且鲁棒的视频压缩。
本文提出了名为 Icarus 的全天气天空模型,该模型能够学习全动态范围(FDR)物理捕获的户外图像曝光范围,通过条件生成支持用户控制太阳与云层位置及纹理,从而在基于图像的照明(IBL)中实现超越现有深度学习方法的高精度、高保真度且光照方向准确的自然天空模拟。
该论文提出了一种名为 SCORE 的新方法,通过计算各模型主奇异向量的共享正交基并剪枝冲突分量,有效解决了多领域微调模型合并时的子空间冲突问题,从而显著提升了模型在未见领域上的泛化性能。
该论文提出了一种名为 LayerBind 的无需训练且即插即用的方法,通过将区域生成建模为独立层并在早期去噪阶段进行实例绑定与语义增强,实现了基于文本到图像扩散 Transformer 的精确区域布局控制、遮挡顺序管理及灵活的后期编辑能力。
该论文提出了 BM25-V 方法,通过将稀疏自编码器生成的视觉词激活与 Okapi BM25 评分相结合,利用逆文档频率(IDF)加权机制在无需微调的情况下实现了高效、可解释且高精度的图像检索。
该论文提出了一种包含六个指标的频谱诊断框架,揭示了在 2D 转 3D 重建中,特征上采样器的性能更取决于频谱结构的保持而非空间细节的增强,并发现结构频谱一致性是预测新视图合成质量的最强指标。
该论文提出了 EventGeM,一种基于事件相机的视觉定位方法,它通过融合预训练 ViT 提取的全局特征与 MaxViT 检测的局部特征,并结合深度估计进行重排序,在多个基准测试中实现了最先进的实时定位性能。
该论文提出了一种无需训练的 LIPAR 框架,通过利用视频潜在块的时间冗余性进行帧间剪枝,并引入注意力恢复机制以消除视觉伪影,从而在不牺牲生成质量的前提下显著提升了视频生成的推理速度。
本文提出了名为 MaCS 的架构无关正则化框架,通过联合优化逻辑空间中的分类间隔与局部预测一致性,在无需额外数据或架构改动的情况下,显著提升了视觉模型的校准度、鲁棒性及泛化能力。