Cumulative Consensus Score: Label-Free and Model-Agnostic Evaluation of Object Detectors in Deployment
本文提出了一种名为累积共识分数(CCS)的标签无关且模型无关的评估指标,通过利用测试时数据增强来衡量预测边界框的空间一致性,从而在无真实标注的情况下实现对部署中目标检测模型的持续可靠性监控。
1871 篇论文
本文提出了一种名为累积共识分数(CCS)的标签无关且模型无关的评估指标,通过利用测试时数据增强来衡量预测边界框的空间一致性,从而在无真实标注的情况下实现对部署中目标检测模型的持续可靠性监控。
本文提出了 WHU-STree,这是一个跨越两个城市、包含 21,007 个标注实例的多模态街景树木数据集,旨在通过融合点云与高分辨率图像数据,解决现有数据集规模小、标注少及模态单一的问题,并支持包括树种分类和单木分割在内的十余种街景树木清查任务。
本文提出了 MICA(多智能体工业协调助手),这是一个在受限计算与隐私约束下运行的感知驱动、语音交互系统,它通过五个角色专用智能体与自适应步骤融合技术,为工业装配、故障排查等任务提供实时、安全且可靠的指导,并建立了相应的评估基准以验证其优越性。
该论文提出了 ORIC 框架,通过构建上下文不协调的物体识别基准(ORIC-Bench)揭示了大视觉语言模型在此类场景下的性能退化与幻觉问题,并验证了基于该框架数据的视觉强化微调能有效提升模型的可靠性。
本文提出了一种基于事件相机的视觉示教与复现(VT&R)导航系统,通过频域互相关算法将处理延迟降至 2.88 毫秒(比传统相机方案快 3.5 倍),并在昼夜室内外复杂环境下实现了跨 3000 米、横向误差小于 15 厘米的高精度自主导航。
该论文通过审计现有视频基准发现其严重缺乏对音频能力的评估,进而提出一种可扩展的语音编码器集成方案,证明在引入音频信息后,模型在涉及语音理解和跨模态对齐的任务上取得了显著提升,而纯视觉任务则未受影响。
本文提出了名为 FINS 的轻量级框架,通过结合多分辨率哈希网格编码器与预训练基础模型,实现了仅需单张 RGB 图像即可在数秒内高效重建高保真隐式表面及 SDF 场,并在收敛速度、重建精度及机器人表面跟随任务中优于现有最先进方法。
本文提出了首个针对视觉几何基础 Transformer(VGGT)的量化框架 QuantVGGT,通过引入双平滑细粒度量化与噪声过滤多样化采样技术,有效解决了特殊令牌导致的重尾分布及多视图数据校准不稳定问题,在实现显著内存缩减与加速的同时保持了极高的重建精度。
该论文提出了运动感知 Transformer(MATR),通过显式预测跨帧物体运动来提前更新跟踪查询,有效解决了现有端到端 MOT 框架中检测与跟踪查询的冲突问题,并在 DanceTrack、SportsMOT 和 BDD100k 等多个基准测试中取得了最先进的性能。
本文提出了名为 GS-2M 的框架,通过联合优化渲染质量相关的属性并引入基于多视图光度变化的粗糙度监督策略,在无需复杂神经组件的情况下,实现了从多视图图像到包含高反射表面细节的高保真网格重建。
本文提出了 FAMDA 框架,通过利用视觉基础模型作为教师网络,在自训练范式下生成高质量伪标签,从而在合成到真实及昼夜适应等场景中实现了高效且性能领先的无监督多任务域自适应密集预测。
本文提出了 QuantSparse 框架,通过多尺度显著注意力蒸馏和基于二阶残差重参数化的稀疏注意力机制,有效解决了视频扩散 Transformer 在联合应用模型量化与注意力稀疏化时的性能退化问题,在显著降低存储与推理成本的同时大幅提升了生成质量。
本文提出了首个统一且高效的多模态双人运动生成框架 DualFlow,该框架利用整流流(Rectified Flow)技术实现确定性采样以加速推理,并结合检索增强生成(RAG)模块与对比学习目标,在文本、音乐及先验动作等多种条件下生成高质量、语义对齐且节奏同步的交互式与反应式双人运动。
本文提出了一种基于纳维 - 斯托克斯方程物理原理的轻量级 rPPG 测量模型 PHASE-Net,通过零计算成本的轴向交换模块、自适应空间滤波器及门控因果卷积网络,在无需增加计算量的前提下显著提升了运动与光照变化下的脉搏信号测量精度与鲁棒性。
本文提出了 LMOD+,这是一个包含 32,633 个实例的大规模多模态眼科基准数据集,通过扩展数据规模、丰富任务类型(涵盖疾病筛查、分级及人口学预测)并系统评估 24 种先进多模态大语言模型,旨在推动眼科人工智能的发展并缓解全球视力威胁疾病的负担。
本文提出了名为 REVEL 的流式拖拽导向交互式视频操纵新任务,并设计了无需训练的 DragStream 方法,通过自适应分布自校正和空频选择性优化机制,解决了自回归视频扩散模型中拖拽操作导致的潜在空间漂移及上下文干扰问题,实现了在任意时刻对任意对象的精细拖拽编辑。
本文提出了 AR-Drag,这是首个结合强化学习与轨迹奖励机制的自回归视频扩散模型,能够在仅 13 亿参数的情况下实现低延迟、高保真且运动控制精准的实时图像到视频生成。
本文通过 PRISMA-ScR 指南对 2018 至 2025 年间基于无监督深度生成模型的神经影像异常检测研究进行了系统范围综述,总结了其在缺乏标注数据场景下的潜力,并指出了方法异质性、外部验证不足及数据集敏感性等关键挑战与未来发展方向。
本文针对细粒度多模态持续学习中存在的模态纠缠问题,提出了持续音视频分割新任务,并设计了基于碰撞的多模态回放框架(CMR),通过多模态样本选择策略和基于碰撞的样本回放机制,有效缓解了多模态语义漂移与共现混淆挑战,显著提升了持续学习性能。
本文提出了名为 Dream4Drive 的新型合成数据生成框架,通过结合 3D 感知引导图与 3D 资产渲染来微调驾驶世界模型,从而在无需额外训练轮次的情况下显著提升自动驾驶感知模型在长尾场景下的性能,并配套发布了大规模 3D 资产数据集 DriveObj3D。