Into the Rabbit Hull: From Task-Relevant Concepts in DINO to Minkowski Geometry
本文通过稀疏自编码器(SAE)分析 DINOv2,揭示了其任务特异性概念的分工与几何结构,进而提出基于凸组合原型的“闵可夫斯基表示假设”(MRH),以超越传统的线性稀疏性视角来解释视觉 Transformer 的表征机制。
9483 篇论文
本文通过稀疏自编码器(SAE)分析 DINOv2,揭示了其任务特异性概念的分工与几何结构,进而提出基于凸组合原型的“闵可夫斯基表示假设”(MRH),以超越传统的线性稀疏性视角来解释视觉 Transformer 的表征机制。
本文提出了 USplat4D,一种通过估计并传播高斯原语的不确定性来构建时空图,从而解决单目 4D 重建中遮挡和极端视角下运动漂移与合成质量下降问题的动态高斯泼溅框架。
该论文提出了一种利用多模态大语言模型生成物体活动与交互文本描述的新框架,通过对比训练与测试阶段的文本描述来实现可解释且高效的半监督视频异常检测,在复杂交互异常及传统基准数据集上均取得了优异性能。
本文综述了从体渲染到 3D 高斯泼溅(3DGS)的理论演进与应用,在介绍其高效光栅化原理及新视角合成优势的同时,深入探讨了其内存占用、光照烘焙及次级光线效应等局限性,并总结了其在表面重建、数字人建模、动画及内容生成等领域的广泛应用。
本文提出了无需训练的“推测性裁决”(Speculative Verdict)框架,通过结合多个轻量级草稿专家生成多样化推理路径并由强模型进行裁决与共识筛选,有效解决了大型视觉语言模型在处理信息密集型图像时的定位困难与多跳推理挑战,在显著提升准确率的同时实现了计算成本的最优化。
本文提出了 TokenCLIP,一种通过最优传输动态将视觉令牌分配至正交文本子空间以实现细粒度对齐的框架,从而显著提升了零样本异常检测的性能。
该论文针对现有单模态数据集的局限,提出了首个完全由多图像样本构成的 MMSD3.0 基准,并设计了具备跨图像推理与细粒度跨模态融合能力的 CIRM 模型,在显著提升真实场景下多模态讽刺检测性能的同时,也验证了其在单图场景中的通用有效性。
本文提出了一种名为 COLA 的免训练跨模态对齐框架,通过结合子空间投影与最优传输技术,在特征空间中恢复全局图文对齐与局部结构一致性,从而显著提升了 CLIP 模型在对抗攻击下的鲁棒性。
本文提出了一种轻量级的可训练机制“注意力特征聚合”(AFA),通过让视觉运动策略自动聚焦于任务相关视觉线索并忽略无关干扰,显著提升了模型在视觉扰动下的鲁棒性,且无需昂贵的数据增强或预训练模型微调。
该论文提出了一种结合基于分数的正则化机制与重要性加权技术的非独立同分布联合采样框架,旨在解决流匹配模型在有限采样预算下期望估计方差高及多样性不足的问题,从而生成高质量样本并实现无偏估计。
该研究通过对比分析发现,在脑 MRI 肿瘤分类任务中,基于大规模通用数据集预训练的 ConvNeXt-Tiny 模型(准确率 93%)的表现显著优于基于医学专用数据集预训练的 RadImageNet DenseNet121 模型(准确率 68%),表明在数据受限场景下,现代通用架构的迁移学习潜力可能优于领域特定预训练模型。
本文提出了 Q-Save,这是一个包含近 1 万条视频样本及细粒度归因标注的基准数据集,并基于此训练了采用 SlowFast 架构与三阶段训练策略的统一模型,实现了对生成视频在视觉质量、动态质量和文本对齐三个维度上的联合评分与可解释归因。
本文提出了名为 SocialNav 的具身导航基础模型,通过构建包含 700 万样本的 SocNav 数据集,并采用结合模仿学习与基于流的强化学习(SAFE-GRPO)的多阶段训练策略,显著提升了机器人在复杂环境中的导航成功率与社会规范遵循能力。
本文提出了基于强化学习的 SpecTemp 框架,通过轻量级草稿模型与强大目标模型协同工作的双模型设计,在保持长视频理解精度的同时显著解决了现有“基于帧思考”范式中的效率瓶颈。
本文提出了 TARDis 框架,通过时间衰减表示解耦技术,将缺失的 CT 模态视为连续时间 - 衰减曲线上的采样点,利用解剖静态与血流动力学动态特征的双路径架构,在辐射受限导致数据缺失的情况下显著提升了肿瘤分割与分类的精度。
该论文提出了一种利用相机元数据(EXIF)进行自监督学习的 AI 生成图像检测方法,通过从真实照片中学习内在特征并结合高斯混合模型或高频残差分类器,显著提升了跨模型泛化能力及对常见扰动的鲁棒性。
本文提出了 FRIEDA 基准,旨在通过涵盖拓扑、度量和方向等多步空间推理任务来评估大语言模型在复杂地图理解方面的能力,结果显示当前最先进的模型在此领域仍远未达到人类水平。
本文提出了名为 SHARP 的单目视图合成方法,它能在不到一秒的时间内通过单次前向传播将单张图像回归为具有绝对尺度的 3D 高斯表示,从而实现实时、高分辨率且泛化能力极强的新视角合成,在多项指标上显著超越现有最先进模型。
该论文提出了一种将几何与光度解耦的事件驱动 3D 高斯泼溅框架,通过事件级射线追踪和 warped 事件图像渲染,在无需先验信息或 COLMAP 初始化的情况下,实现了兼顾高精度、高时间分辨率与快速训练的事件 3D 重建。
本文提出了 ColaVLA 框架,通过构建认知潜在推理器将文本推理压缩至统一潜在空间,并结合分层并行轨迹解码器,在保留大语言模型泛化与可解释性优势的同时,有效解决了现有视觉 - 语言规划器在连续控制匹配、推理延迟及实时性方面的挑战,在 nuScenes 基准测试中实现了最先进的开环与闭环性能。