Word-Anchored Temporal Forgery Localization
该论文提出了一种名为 WAFL 的新范式,通过将时间伪造定位任务从传统的边界回归或连续帧检测转变为基于离散词单元的二分类问题,并引入特征重对齐模块与针对类别不平衡的不对称损失函数,在显著降低计算成本的同时实现了超越现有最先进方法的定位性能。
2376 篇论文
该论文提出了一种名为 WAFL 的新范式,通过将时间伪造定位任务从传统的边界回归或连续帧检测转变为基于离散词单元的二分类问题,并引入特征重对齐模块与针对类别不平衡的不对称损失函数,在显著降低计算成本的同时实现了超越现有最先进方法的定位性能。
本文提出了基于空间稀疏线性注意力(SSLA)的端到端异步模型 SSLA-Det,通过引入状态分解与散点计算聚合训练机制,在显著降低每事件计算量的同时实现了事件驱动目标检测的精度与效率突破。
本文提出了 TaPD 框架,通过结合基于渐进式知识蒸馏的观测自适应预测器与基于场景演化条件的时间回溯模块,有效解决了自动驾驶中因遮挡或感知受限导致的变长历史观测轨迹预测难题,并在不同观测长度下显著提升了预测性能。
本文提出了 DC-Merge 方法,通过平滑奇异值以平衡任务向量的能量分布,并将其投影至共享正交子空间以校正方向几何不一致性,从而在模型合并中有效保留多任务知识,在视觉及视觉语言基准测试中实现了全微调与 LoRA 设置下的最先进性能。
本文提出了 HCF-RES 框架,通过利用 SAM 实例掩码引导的层次化视觉语义分解以及包含跨模态自适应加权的多级融合机制,解决了现有方法在 3D 通用指代分割任务中因缺乏丰富视觉语义而难以处理细粒度描述的问题,并在 ScanRefer 和 Multi3DRefer 数据集上取得了最先进性能。
本文提出了名为 NOVA 的新范式,利用大型语言模型的自回归能力将 3D 多目标跟踪重构为生成式时空语义序列预测任务,从而在无需闭集假设的情况下显著提升了对未知目标的泛化跟踪性能。
该论文提出了 GazeMoE 框架,通过在大模型中引入混合专家(MoE)模块自适应地融合眼动、头部姿态及上下文等多模态线索,并结合类别平衡损失与数据增强策略,有效解决了机器人视线目标估计中的泛化与类别不平衡难题,在基准测试中取得了最先进性能。
本文提出了一种名为 ODD-SEC 的实时机载无人机检测系统,该系统利用旋转事件相机实现 360 度全景监测,并通过无需运动补偿的新型事件表示方法与轻量级神经网络,在移动载体上实现了高动态、抗干扰的精准检测与方位估计。
本文提出了 HiPP-Prune 框架,通过引入基于视觉敏感性的分层偏好条件化结构化剪枝策略,利用多目标 GRPO 优化在压缩视觉语言模型时实现任务效用、幻觉鲁棒性与压缩率之间的可控权衡。
本文提出了 StrSR,一种通过引入非对称判别式蒸馏架构和频域分布匹配策略来解决扩散 Transformer 在真实图像超分辨率任务中轨迹失配及周期性伪影问题的一步对抗蒸馏框架,实现了最先进的性能。
该论文针对真实世界中 3D 语义占据预测面临的标注噪声问题,首次建立了 OccNL 基准并揭示了现有 2D 去噪策略在稀疏 3D 空间中的失效,进而提出了基于双源部分标签推理的 DPR-Occ 框架,在极端噪声下显著提升了感知鲁棒性。
该论文提出了一种名为 ADiVA 的生成式零样本学习方法,通过属性分布建模模块学习可迁移的属性分布以解决类内变异性问题,并利用视觉引导对齐模块显式弥合语义与视觉特征分布的鸿沟,从而在多个基准数据集上显著提升了性能。
FlowMotion 提出了一种无需训练的框架,通过直接利用基于光流的文生视频模型的潜在预测来提取运动表征并引入速度正则化,从而实现了高效且灵活的视频运动迁移。
该论文提出了一种基于垂直分数扩散模型的 3D 牙科种植体补全方法,通过在投影域结合两个不同平面的 2D 扩散模型来利用投影间的相关性,从而有效生成高质量且伪影减少的 3D CBCT 图像。
本文提出了 DEX-AR,一种专为自回归视觉语言模型设计的动态可解释性方法,它通过计算生成过程中的层间注意力梯度,结合动态头过滤与序列级过滤机制,生成能够区分视觉与语言信息的 token 级及序列级 2D 热力图,从而有效提升了模型决策过程的透明度与可解释性。
该论文提出了 LTA(潜在空间转移攻击),一种通过在预训练 Stable Diffusion 的潜在空间中优化扰动并结合期望变换(EOT)与高斯平滑策略的方法,从而生成具有强迁移性、空间连贯且低频特性的对抗样本,有效克服了传统像素空间攻击在预处理鲁棒性和跨架构迁移方面的局限。
本文提出了一种名为 WMoE-CLIP 的零样本异常检测方法,通过结合变分自编码器建模全局语义、小波分解提取多频特征以及语义感知的混合专家模块,有效克服了现有方法在提示词固定和仅依赖空间域特征方面的局限,显著提升了在工业和医疗场景下对未见异常及细微异常的检测能力。
该论文提出了一种名为 P-SLCR 的无监督点云语义分割方法,通过一致性结构学习与语义关系一致性推理机制,在 S3DIS 等数据集上实现了超越经典全监督 PointNet 的最优性能。
该研究通过邀请多国艺术家评估 ChatGPT 生成的当代艺术作品仿作,发现 AI 在色彩纹理上虽能模仿,却在构图、概念及情感维度上存在显著缺失,因此主张采用多维度的“风格转移仪表盘”而非单一指标来评估此类仿作。
该论文提出了 WorldCache 框架,通过引入基于曲率的异构令牌预测和混沌优先自适应跳过机制,有效解决了扩散世界模型中因多模态耦合与非均匀时序动态导致的加速难题,在保持 98% rollout 质量的同时实现了高达 3.7 倍的端到端推理加速。