FreeOcc: Training-free Panoptic Occupancy Prediction via Foundation Models
该论文提出了 FreeOcc,一种无需训练即可利用预训练基础模型从多视角图像中恢复语义与几何信息的管道,通过融合提示分割、3D 重建及确定性优化,在 Occ3D-nuScenes 数据集上实现了与弱监督方法相当的无监督全景占据预测性能,并显著提升了弱监督场景下的训练效果。
2370 篇论文
该论文提出了 FreeOcc,一种无需训练即可利用预训练基础模型从多视角图像中恢复语义与几何信息的管道,通过融合提示分割、3D 重建及确定性优化,在 Occ3D-nuScenes 数据集上实现了与弱监督方法相当的无监督全景占据预测性能,并显著提升了弱监督场景下的训练效果。
该论文提出了一种无需训练伪标签生成与标签精化的半监督框架,通过利用视觉语言模型基于外观描述跨域生成结构一致的伪标签,并结合不确定性加权融合与反向对比学习,在仅使用 2.5% 标注数据的情况下实现了与全监督模型相当的乳腺超声图像分割性能。
本文提出了 JOPP-3D 框架,通过联合利用全景图像与点云数据并转换对齐基础视觉 - 语言特征,实现了在数据稀缺场景下基于自然语言查询的 3D 点云与全景图像开放词汇语义分割,并在多个数据集上显著超越了现有最先进方法。
该论文提出了一种结合多尺度奖励机制与强化学习(PPO)的优化方法,通过融合 2D 切片评估与 3D 体积分析来微调 3D 扩散模型,从而显著提升了医学图像生成的质量及其在下游肿瘤与疾病分类任务中的实用性。
该论文针对现有免训练扩散分割器难以随生成模型能力提升而扩展的问题,通过提出自动聚合与逐像素重缩放技术,有效弥合了注意力图与全局表征及语义相关性之间的差距,从而显著提升了分割性能。
该论文提出了一种两阶段框架,通过先在标注的人造字母表上训练对比学习教师模型,再利用蒸馏技术引导学生在无监督条件下学习历史文字系统的变形不变嵌入,从而在无需确切演化关系真值的情况下实现脚本相似性学习与聚类。
该论文提出了受图灵测试启发的“运动图灵测试”框架及包含 1000 个动作序列的 HHMotion 数据集,通过消除视觉外观干扰的纯运动学评估,揭示了当前人形机器人在动态动作中仍与人类存在显著差异,并证明了专用基线模型在预测运动拟人度方面优于多模态大语言模型。
本文提出了 CRIMSON,这是一种基于临床指南的大语言模型评估框架,通过引入患者背景信息、细粒度的错误分类及基于临床重要性的加权机制,在诊断正确性、上下文相关性和患者安全性方面实现了对胸部 X 光报告生成任务更精准且与放射科专家判断高度一致的评估。
本文提出了一种名为 SpaCRD 的迁移学习方法,通过构建类别正则化变分重建引导的双向交叉注意力融合网络,深度整合组织学图像与空间转录组数据,从而在跨样本、跨平台及跨批次场景下实现了比现有最先进方法更精准的癌症区域检测。
本文提出了自适应语言感知网络(ALANet),通过集成过滤与优化策略来缓解不准确语言描述带来的负面影响,并引入 CRLAV 数据集验证了其在复杂反射去除任务中优于现有最先进方法的性能。
该论文提出了一种基于点监督的骨架动作分割框架,通过利用预训练多模态模型提取特征并结合原型相似度等策略生成高质量伪标签,在仅需每段动作标注单帧的情况下实现了媲美甚至超越全监督方法的性能,显著降低了标注成本。
本文提出了视觉几何接地高斯泼溅(VG3S)框架,通过引入冻结的视觉基础模型(VFM)中的强几何先验并设计分层几何特征适配器,显著提升了自动驾驶场景下 3D 语义占据预测的精度与泛化能力。
本文提出了一种名为 CoE 的训练-free 多模态摘要框架,通过层级事件图(HEG)引导的“事件链”进行结构化推理,有效解决了现有方法对特定领域监督的依赖、跨模态对齐弱以及时序建模扁平化等问题,并在多个数据集上显著超越了现有最先进基线。
本文提出了 EntON,一种基于特征熵优化的邻域致密化策略,通过交替利用视图空间梯度和局部结构有序性(特征熵)来指导高斯球分裂与剪枝,从而在 3D 高斯泼溅重建中显著提升了几何精度与渲染质量,同时减少了高斯球数量并缩短了训练时间。
该论文提出了一种名为 WAFL 的新范式,通过将时间伪造定位任务从传统的边界回归或连续帧检测转变为基于离散词单元的二分类问题,并引入特征重对齐模块与针对类别不平衡的不对称损失函数,在显著降低计算成本的同时实现了超越现有最先进方法的定位性能。
本文提出了基于空间稀疏线性注意力(SSLA)的端到端异步模型 SSLA-Det,通过引入状态分解与散点计算聚合训练机制,在显著降低每事件计算量的同时实现了事件驱动目标检测的精度与效率突破。
本文提出了 TaPD 框架,通过结合基于渐进式知识蒸馏的观测自适应预测器与基于场景演化条件的时间回溯模块,有效解决了自动驾驶中因遮挡或感知受限导致的变长历史观测轨迹预测难题,并在不同观测长度下显著提升了预测性能。
本文提出了 DC-Merge 方法,通过平滑奇异值以平衡任务向量的能量分布,并将其投影至共享正交子空间以校正方向几何不一致性,从而在模型合并中有效保留多任务知识,在视觉及视觉语言基准测试中实现了全微调与 LoRA 设置下的最先进性能。
本文提出了 HCF-RES 框架,通过利用 SAM 实例掩码引导的层次化视觉语义分解以及包含跨模态自适应加权的多级融合机制,解决了现有方法在 3D 通用指代分割任务中因缺乏丰富视觉语义而难以处理细粒度描述的问题,并在 ScanRefer 和 Multi3DRefer 数据集上取得了最先进性能。
本文提出了名为 NOVA 的新范式,利用大型语言模型的自回归能力将 3D 多目标跟踪重构为生成式时空语义序列预测任务,从而在无需闭集假设的情况下显著提升了对未知目标的泛化跟踪性能。