GradPCA: Leveraging NTK Alignment for Reliable Out-of-Distribution Detection
本文提出了名为 GradPCA 的分布外(OOD)检测方法,该方法利用神经切线核(NTK)对齐诱导的梯度低秩结构,通过对梯度类均值进行主成分分析,在标准图像分类基准上实现了比现有方法更稳健的性能,并提供了理论框架以指导谱 OOD 检测器的设计。
4149 篇论文
本文提出了名为 GradPCA 的分布外(OOD)检测方法,该方法利用神经切线核(NTK)对齐诱导的梯度低秩结构,通过对梯度类均值进行主成分分析,在标准图像分类基准上实现了比现有方法更稳健的性能,并提供了理论框架以指导谱 OOD 检测器的设计。
本文提出了 DTR,一种通过优化键值缓存动态调整视觉 token 权重的推理时防御方法,旨在无需额外安全数据或图像转文本转换的情况下,有效缓解多模态大模型的越狱攻击并兼顾通用任务性能。
Seek-CAD 是一种无需训练的本地化生成方法,它利用 DeepSeek-R1 结合视觉与思维链反馈进行自我优化,并基于 SSR 设计范式构建数据集,从而高效生成工业级 3D 参数化 CAD 模型。
本文提出了一种无需渐近假设的确定性投影概率核函数,用于高效的角度测试与相似度搜索,其实验结果表明该方法在近似最近邻搜索任务中的查询吞吐量比主流 HNSW 算法高出 2.5 至 3 倍。
该论文提出了 Point-MoE,一种基于混合专家(Mixture-of-Experts)架构的 3D 语义分割模型,它通过稀疏激活的专家网络和无监督路由机制,成功实现了在无需数据集标签的情况下对异构多源 3D 点云数据的大规模联合训练,显著提升了模型在已知及零-shot 场景下的性能。
本文针对分布匹配蒸馏(DMD)在大规模流匹配文本生成图像模型(如 SD 3.5 和 FLUX)上难以收敛的问题,提出了隐式分布对齐(IDA)和段内引导(ISG)方法,构建了名为 SenseFlow 的蒸馏框架,成功实现了在扩散模型和流匹配模型上的高效蒸馏与卓越性能。
该论文针对人脸活体检测泛化性不足的问题,提出了首个大规模视觉问答数据集 FaceCoT,并结合强化学习优化的描述模型与思维链增强渐进式学习策略(CEPL),显著提升了多模态大语言模型在人脸活体检测任务中的鲁棒性与可解释性。
本文提出了基于认知心理学的综合性空间推理基准 OmniSpatial,涵盖动态推理、复杂空间逻辑、空间交互和视角转换四大类共 50 个子类,通过 8400 多个精细标注的问答对揭示了当前视觉语言模型在全面空间推理上的显著局限,并探索了 PointGraph 和 SpatialCoT 两种增强策略。
本文提出了首个无需文本中间介质的统一框架 UniCUE,通过融合手语识别任务以提供细粒度视觉语义线索,直接实现从中文手语视频到语音的生成,并构建了包含 14 位发音人的大规模数据集 UniCUE-HI 以验证其卓越性能。
该研究针对非洲“五大”野生动物在封闭世界假设下分类模型过度自信的问题,提出并验证了基于特征的异常分布(OOD)检测方法,其中结合 ImageNet 预训练特征的参数化最近类均值(NCM)方法在多项指标上显著优于现有主流 OOD 方法,有效提升了野生动物冲突检测中的泛化能力。
该论文提出了一种名为“元自适应提示蒸馏”的方法,通过从任务相关的视觉特征中提取并蒸馏固定软提示,利用注意力映射模块在测试时进行元学习适配,从而在少样本视觉问答任务中显著提升了大型多模态模型的性能,克服了传统上下文学习在增加示例数量时性能不再单调提升的瓶颈。
本文提出了 BitVLA,一种基于 1-bit 架构的视觉 - 语言 - 动作模型,通过原生量化设计与量化蒸馏策略,在显著降低内存占用和延迟的同时,实现了与全精度基线相当的机器人操作性能。
本文提出了 PDGS 框架,通过高斯泼溅技术实现关节物体的部分级解耦与连续形变建模,无需人工监督即可在合成及真实数据上实现高精度的几何重建、运动学建模及连续控制,并发布了配套的 RS-Art 数据集以支持真实世界评估。
本文提出了 VITA,一种通过测试时自监督适应来增强视觉语言模型零-shot 价值函数泛化能力与时序推理能力的学习方法,使其在真实机器人任务及离线强化学习中均超越了现有最先进方法。
本文提出了一种名为 VINCIE 的模型,通过从视频中学习并采用块因果扩散变换器架构,实现了无需依赖专家模型或特定任务流程的强大多轮上下文图像编辑能力,并在多项基准测试中取得了最先进成果。
本文介绍了 NIC-RobustBench,这是一个开源工具包,旨在填补现有基准在神经图像压缩(NIC)对抗鲁棒性评估方面的空白,通过集成多种攻击与防御策略、压缩模型及下游任务影响分析工具,对现代 NIC 方法在对抗场景下的鲁棒性进行了全面的实证研究。
该论文提出了一种名为 ConCM 的框架,通过受海马体联想记忆启发的记忆感知原型校准与动态结构匹配,从特征 - 结构双重一致性视角解决少样本类增量学习中的知识冲突问题,并在多个基准测试中取得了最先进的性能。
本文针对现有大视觉语言模型中基于文本引导的视觉 Token 剪枝方法因跨模态不对齐而失效的问题,提出了一种无需训练、仅依赖视觉模态内部注意力机制的 VisionDrop 框架,通过多阶段渐进式剪枝与融合策略,在显著降低推理延迟和计算量的同时保持了模型的高性能。
EchoMimicV3 是一个仅需 13 亿参数的高效统一框架,通过“任务汤”、“模态汤”架构及创新的训练推理策略,在克服传统方法计算成本高和推理慢的局限的同时,实现了多任务、多模态的高质量人类动画生成。
该论文提出了一种名为 CLiFT 的神经渲染方法,通过将场景表示为压缩光场令牌,利用多视图编码、潜空间聚类及令牌压缩技术,实现了在单一训练网络下根据计算预算自适应调整令牌数量,从而在显著降低数据量的同时保持高质量渲染并灵活平衡数据规模、画质与速度。