APPO: Attention-guided Perception Policy Optimization for Video Reasoning
本文提出了注意力引导的感知策略优化(APPO)算法,通过利用令牌级密集奖励优化聚焦关键视频帧的感知令牌,在无需昂贵细粒度标注的情况下,以低成本显著提升了视频推理模型的细粒度感知能力。
6977 篇论文
本文提出了注意力引导的感知策略优化(APPO)算法,通过利用令牌级密集奖励优化聚焦关键视频帧的感知令牌,在无需昂贵细粒度标注的情况下,以低成本显著提升了视频推理模型的细粒度感知能力。
本文介绍了利用 SAM2、Florence2、ChatGPT 结合专用本体与术语表,对 16 至 17 世纪造船文献进行图像分割与标注的研究,旨在通过生成式人工智能技术解决历史文档数据稀缺与领域专业化难题,从而提升珍贵文献的策展、编目及检索效率。
本文提出了一种名为 Lilium 的自动化进化方法,通过利用微分进化算法优化基于 3D 圆锥的软组织厚度模型,并结合多种解剖与摄影约束,显著提升了计算机辅助颅面重叠(SFO)在法医身份识别中的精度与鲁棒性。
GLIDE-Reg 提出了一种通过联合优化注册场与可学习降维模块,将压缩的视觉基础模型全局语义特征与 MIND 局部描述符融合的全局到局部可变形配准方法,在多个肺部数据集上实现了优于现有最先进方法的配准精度与泛化鲁棒性。
该论文提出了一种名为 IDER 的新方法,利用幂等性原理通过自适应损失和幂等性蒸馏,在无需显著增加计算开销的情况下,有效解决了持续学习中的灾难性遗忘问题,同时显著提升了模型的预测可靠性、准确率和抗遗忘能力。
本文提出了一种名为 BornoViT 的新型高效轻量级视觉 Transformer 模型,该模型仅含 0.65M 参数,在 BanglaLekha 和自建的 Bornomala 数据集上分别实现了 95.77% 和 91.51% 的准确率,有效解决了孟加拉语手写字符分类中计算成本高和模型体积大的问题。
本文提出了 ShiftLUT 框架,通过引入可学习空间移位模块、非对称双分支架构及误差有界自适应采样压缩策略,在保持低存储与推理成本的同时,显著扩大了基于查找表的图像恢复方法的感受野并提升了重建性能。
本文提出了名为 MWP 的物理信息多模态融合框架及包含 1 万余条同步数据的大规模工业废弃物数据集 Waste-Weight-10K,通过结合 RGB 图像与几何物理元数据,实现了跨重量范围的高精度废弃物重量估算并提供了可解释的预测结果。
本文提出了名为 PreciseCache 的即插即用框架,通过低频差异(LFD)度量实现步级缓存(LFCache)以及块级冗余检测(BlockCache),在显著加速视频生成推理的同时避免了以往方法因误判冗余而导致的画质下降问题。
本文提出了 FlowReg,一种基于流匹配的无监督心脏磁共振图像配准框架,它通过暖启动重流训练和初始猜测策略,在无需分割标签和预训练模型的情况下,仅需极少参数即可实现两步快速推理及多步细化,显著提升了配准精度与左心室射血分数估计的准确性。
HeroGS 提出了一种统一的层级引导框架,通过在图像、特征和参数三个层面分别实施伪密集监督、特征自适应致密化与剪枝以及协同剪枝几何一致性策略,有效解决了稀疏视角下 3D 高斯泼溅重建中分布不规则、背景模糊及高频细节失真等问题,实现了高保真的三维重建。
本文提出了一种基于连续曝光时间的新型调制传递函数(ET-MTF)模型,构建了包含 5000 余段视频的大规模合成湍流数据集 ET-Turb,显著提升了大气湍流图像复原的真实感与模型泛化能力。
UETrack 提出了一种统一且高效的单目标跟踪框架,通过引入基于 Token 池化的混合专家机制和目标感知自适应蒸馏策略,有效解决了多模态场景下的跟踪难题,并在多种硬件平台上实现了速度与精度的卓越平衡。
本文提出了 FACE,一种基于面级(face-level)自回归表示的新框架,通过将每个三角形面视为单一令牌,在显著降低序列长度和计算成本的同时,实现了高保真且高效的 3D 网格生成与重建。
本文提出了 InterCoG 框架,通过引入包含空间关系推理的文本与视觉定位交替的链式推理机制,并辅以专用训练模块及 GroundEdit-45K 数据集,显著提升了复杂多实体场景下图像编辑的空间精确度。
该论文提出了一种名为 BiCAM 的双向类激活映射方法,通过同时保留支持性和抑制性归因信号,显著提升了 Vision Transformers 的可解释性、定位精度及对抗样本检测能力。
本文提出了一种名为 PromptStereo 的零样本立体匹配方法,通过设计基于单目深度基础模型解码器的提示循环单元(PRU),将单目结构提示与立体运动提示融入迭代细化过程,在保留单目先验的同时引入绝对立体尺度信息,从而实现了跨数据集的卓越零样本泛化性能。
本文提出了受认知启发的三层情感层次结构,并据此构建了轻量级多任务情感语言模型 Nano-EmoX 及其“从感知到共情”的渐进式训练框架,首次实现了在 22 亿参数规模下统一涵盖感知、理解与交互三个层级共六项核心情感任务,在多个基准测试中取得了卓越的性能与泛化能力。
本文提出了 SimRecon 框架,通过引入主动视点优化和场景图合成器两个关键模块,构建了一个从感知、生成到仿真的流水线,从而实现了从真实视频中高保真且物理合理的组合式场景重建。
本文提出了 OnlineX 框架,通过引入解耦的“从活跃到稳定”状态演化范式,解决了在线 3D 重建中的累积漂移问题,实现了仅利用流式图像即可实时、高保真地同步重建 3D 视觉外观与语言场。