Point-based Instance Completion with Scene Constraints
本文提出了一种结合场景约束的点云实例补全模型,通过引入稀疏场景约束点云和交叉注意力机制,解决了现有方法在处理非规范姿态物体及忽略场景约束方面的局限,并构建了新的 ScanWCF 数据集以验证其在室内场景中实现高保真、无碰撞且合理的物体补全能力。
1868 篇论文
本文提出了一种结合场景约束的点云实例补全模型,通过引入稀疏场景约束点云和交叉注意力机制,解决了现有方法在处理非规范姿态物体及忽略场景约束方面的局限,并构建了新的 ScanWCF 数据集以验证其在室内场景中实现高保真、无碰撞且合理的物体补全能力。
本文提出了一种名为 LEL 的 Lipschitz 连续性约束集成学习框架,通过在该框架的 Transformer 注意力机制等模块中施加 Lipschitz 约束并结合可学习的集成融合策略,有效解决了现有脑电情感识别方法在稳定性、高维非线性信号处理及抗噪性方面的不足,并在多个公开数据集上实现了优越的识别精度。
本文提出了一种受哺乳动物空间认知启发的任务导向通信框架,通过引入正交约束变分信息瓶颈(O-VIB)编码器,在严格带宽限制下实现多视角特征的高效压缩与边缘协同定位,从而在资源受限的移动平台上达成高精度城市视觉定位。
本文提出了首个用于稀疏视图 CBCT 重建的基础模型 DeepSparse,通过引入融合多视角 2D 与多尺度 3D 特征的 DiCE 网络架构,以及结合混合视角采样预训练和两阶段微调的 HyViP 框架,有效解决了现有方法计算需求高和泛化能力差的问题,显著提升了重建质量并降低了辐射风险。
本文提出了名为 M³CAD 的综合性基准数据集,旨在推动通用协同自动驾驶研究,该数据集包含多模态多车数据以支持多种任务,并引入了适应网络条件的多级融合方法以平衡通信效率与感知精度。
本文提出了 FoldNet 框架,通过基于关键点的资产与演示合成构建大规模合成数据集,并引入 KG-DAgger 算法增强故障恢复能力,从而在无需大量真实数据的情况下实现了高泛化性的机器人衣物折叠闭环策略。
MTVCraft 是首个直接利用原始 3D 运动序列(4D 运动)进行角色图像动画生成的框架,通过 4D 运动分词器(4DMoT)和运动感知视频 DiT(MV-DiT)将运动量化为紧凑的 4D 令牌,从而在实现任意角色及物体零样本泛化动画的同时,显著提升了姿态引导视频生成的性能与灵活性。
该论文提出了一种统一的深度元学习框架,通过将具有收敛性保证的自适应优化算法展开为结构化神经网络,实现了多线圈与多模态 MRI 数据的联合重建与合成,显著提升了模型在欠采样和跨域场景下的泛化性能与重建质量。
该论文介绍了利用 Apple Vision Pro 采集的 EgoDex 数据集,这是目前规模最大且最多样化的灵巧操作数据集,包含 829 小时带有同步 3D 手部追踪数据的沉浸式视频,旨在通过填补大规模数据空白来推动机器人模仿学习与基础模型的发展。
本文提出了 Vid2World 框架,通过系统性地重塑预训练视频扩散模型的架构与训练目标并引入因果动作引导机制,成功将其转化为能够生成高保真、可交互且具备动作可控性的通用世界模型,从而在机器人操作、3D 游戏模拟及开放世界导航等多个领域实现了高效应用。
该论文提出了一种将预训练三维生成先验与严格边界积分方程求解器耦合的“求解器内循环”框架,通过硬约束物理方程与数据驱动潜空间正则化,实现了高对比度三维电阻抗层析成像中复杂界面的高精度、高效率重建。
本文提出了名为 ViTaPEs 的基于 Transformer 的架构,通过引入包含模态内局部编码与跨模态全局编码的两阶段位置注入机制,实现了任务无关的视触觉表征学习,在多项真实世界数据集的识别任务及机器人抓取场景中均展现出超越现有最先进方法的性能与零样本泛化能力。
该论文提出了一种名为 GLMask 的半自监督学习方法,通过最小化人工标注并专注于形状与纹理特征,成功将语义分割转化为实例分割,在小麦穗实例分割任务中达到了 98.5% 的 mAP@50 的 SOTA 性能,并在 COCO 数据集上实现了超过 12.6% 的显著提升。
本研究提出了一种引入方差惩罚机制的改进型金字塔 pix2pix 生成对抗网络,通过从常规 H&E 染色图像生成高保真 IHC 图像,有效解决了 HER2 阳性乳腺癌诊断中的模式崩溃问题,为精准肿瘤学提供了一种低成本、可扩展的 AI 驱动诊断新方案。
该论文提出了名为 LINO UniPS 的通用光度立体方法,通过引入光注册令牌与交错注意力机制实现光照与法线的有效解耦,结合小波双分支架构与法线梯度感知损失以保留高频几何细节,并借助大规模合成数据集 PS-Verse 及课程训练策略,在多个基准测试中取得了新的最先进性能。
本文提出了一种由视觉语言模型(VLM)引导的级联框架,通过利用 VLM 特征作为提示来指导 Segment Anything Model 进行精准分割,并将分割结果作为软空间先验保留全图上下文以消除域差距,从而有效解决了开放词汇伪装物体分割中的视觉模糊与未见类别分类难题。
该论文提出了一种名为 LD-RPS 的零样本统一图像恢复方法,通过利用预训练潜在扩散模型结合多模态理解先验与轻量级对齐模块,采用循环后验采样策略,有效解决了现有方法在泛化性和闭集约束方面的局限。
该研究提出了一种受人类视觉发育启发的“发展性视觉饮食”(DVD)课程,通过模拟人类从婴儿期到成年的视觉成熟过程(如视力、对比度和色彩感知的发展),成功引导 AI 模型从依赖纹理特征转向依赖形状信息,从而显著提升了其在形状识别、抗干扰及对抗攻击方面的鲁棒性,实现了更类人且高效的视觉系统。
该论文提出了一种名为查询自适应聚合(QAA)的新型特征聚合技术,通过利用学习到的查询作为参考码本,有效解决了多数据集联合训练中因数据差异导致的特征聚合容量受限问题,从而实现了在保持高性能的同时显著提升视觉地点识别模型在多样化数据集上的泛化能力。
本文提出了一种名为 MCULoRA 的鲁棒不完整多模态低秩适应框架,通过模态组合感知低秩适应(MCLA)模块解耦共享信息与模态特性,并利用动态参数微调(DPFT)模块基于表征空间可分性优化训练比例,从而有效解决了多模态情感识别中因模态缺失导致的梯度冲突问题并显著提升了预测性能。