CoSMo3D: Open-World Promptable 3D Semantic Part Segmentation through LLM-Guided Canonical Spatial Modeling
CoSMo3D 通过利用大语言模型构建统一规范数据集,并设计双分支架构将输入姿态空间映射为稳定的规范嵌入,从而显著提升了开放世界提示式 3D 语义部件分割的鲁棒性与泛化能力。
9967 篇论文
CoSMo3D 通过利用大语言模型构建统一规范数据集,并设计双分支架构将输入姿态空间映射为稳定的规范嵌入,从而显著提升了开放世界提示式 3D 语义部件分割的鲁棒性与泛化能力。
本文提出了一种利用预训练视觉语言模型(VLM)结合 QLoRA 微调与条件路由机制,仅凭单目 RGB 图像、自然语言指令及机器人状态即可实现高精度 3D 物体位置估计的方法,显著提升了人机交互能力。
本文提出了用于评估跨策略泛化能力的 SafeEditBench 基准测试,并设计了基于可验证奖励强化学习(RLVR)的 SafeGuard-VL 方法,以解决现有视觉语言模型在动态安全策略下过拟合、泛化性差及指令遵循能力下降的问题。
本文通过实证分析揭示了现有视觉 Token 剪枝方法在特征多样性保持与幻觉抑制方面的局限性,并据此提出了一种结合图像感知调整的自适应剪枝机制,显著提升了大型视觉语言模型在复杂场景下的性能与可靠性。
MAMA-MIA 挑战赛通过构建一个涵盖美国多中心训练数据与欧洲独立外部测试集的大规模基准,旨在解决现有乳腺癌 MRI 人工智能模型泛化能力不足和公平性缺失的问题,并联合评估肿瘤分割与病理完全缓解预测任务,以促进开发更稳健、公平的医疗 AI 系统。
该论文提出了一种无需重新训练扩散先验即可融合辅助模态(如 X 射线 CT)的跨模态引导方法,从而显著提升了稀疏数据下(如中子 CT)的图像重建质量。
本文提出了一种统一的认证因子图优化框架,通过证明 Shor 松弛和 Burer-Monteiro 因子化能够保持因子图结构,使得研究人员能够利用现有的成熟因子图库轻松实现具有全局最优性保证的机器人状态估计。
本文提出了 FoSS 框架,通过融合频域分析与线性时间状态空间模型,在显著降低计算复杂度和参数量的同时,实现了兼顾长程依赖与多模态不确定性的自动驾驶轨迹预测,并在 Argoverse 基准测试中取得了最先进精度。
该论文提出了一种基于多级别双向解码器交互和不确定性感知自适应协调的框架,通过在不同解码层级建立分割与分类任务间的通信及动态特征加权,有效解决了传统多任务学习中的任务干扰问题,显著提升了乳腺癌超声图像的病灶分割与组织分类性能。
该研究通过控制实验厘清了监督微调(SFT)与强化学习(RL)在医疗视觉语言模型中的不同作用,发现 RL 主要在 SFT 构建的非平凡支持基础上优化输出分布并提升采样效率,据此提出了边界感知训练方案,在少量数据上实现了跨多个医疗基准的优异性能。
本文提出了 AG-VAS 框架,通过引入 [SEG]、[NOR] 和 [ANO] 三个可学习语义锚点、构建语义 - 像素对齐模块及锚点引导掩码解码器,并配合大规模指令数据集 Anomaly-Instruct20K,有效解决了大语言模型在零-shot 视觉异常分割中语义抽象与空间定位对齐的难题,在多个工业和医疗基准测试中实现了最先进的性能。
本文通过对比监督学习与开放词汇模型在多个灾后数据集上的表现,发现尽管开放词汇模型能降低对特定标注的依赖,但在标签空间固定且标注可用的场景下,监督学习在识别小目标和精细边界方面仍是更可靠的方法。
本文提出了一种名为 NVB-Face 的单阶段方法,通过直接从单张盲脸图像提取特征并利用扩散模型生成 3D 感知表示,实现了比传统两阶段流程更高质量且一致的新视角人脸合成。
本文提出了一种无需真实标签的多光谱去马赛克框架 PEFD,它通过利用相机成像的投影几何结构并微调预训练的基础模型,在仅使用马赛克测量数据的情况下实现了优于现有方法且接近监督学习性能的重建效果。
本文提出了 MixerCSeg,一种通过 TransMixer 架构融合 CNN 局部纹理、Transformer 全局依赖与 Mamba 序列上下文能力,并结合方向引导边缘门控卷积与空间细化多尺度融合模块,从而在极低计算成本下实现裂缝分割最先进性能的混合架构。
本文提出了 TIMI,一种无需训练即可实现高空间保真度的图像到 3D 多实例生成框架,通过实例感知分离引导(ISG)和空间稳定几何自适应更新(SGU)模块,在无需额外训练开销的情况下有效解决了实例纠缠问题并提升了全局布局与局部实例的生成质量。
本文提出了一种名为 AOT 的免训练方法,通过利用局部和全局上下文优化,在帧内和帧间建立锚点并借助最优传输技术聚合信息,从而在显著降低视频大语言模型计算成本的同时保持时空保真度。
本文提出了 UniTalking,一种基于多模态 Transformer 块和预训练视频先验的统一端到端扩散框架,旨在生成高保真、唇形同步且支持个性化语音克隆的说话人像视频,其性能在多项指标上超越了现有开源方法。
本文提出了首个用于在线音视频实例分割的 SeaVIS 框架,通过因果交叉注意力融合模块实现高效流式处理,并利用音频引导对比学习策略有效区分发声与静默状态,从而在 AVISeg 数据集上超越了现有最先进模型。
本文提出了名为 LinkVLA 的新架构,通过统一语言与动作的离散码本、引入动作理解辅助任务以及采用高效的两阶段粗到细生成策略,有效解决了现有视觉 - 语言 - 动作模型中指令与动作对齐不佳及推理效率低下的问题,从而显著提升了自动驾驶的指令遵循能力与整体性能。