StructBiHOI: Structured Articulation Modeling for Long--Horizon Bimanual Hand--Object Interaction Generation
本文提出了 StructBiHOI 框架,通过结合基于 Mamba 的状态空间扩散去噪器与分层变分自编码器,将长期关节规划与单帧操作细化解耦,从而实现了稳定且物理合理的双手长程手物交互生成。
2157 篇论文
本文提出了 StructBiHOI 框架,通过结合基于 Mamba 的状态空间扩散去噪器与分层变分自编码器,将长期关节规划与单帧操作细化解耦,从而实现了稳定且物理合理的双手长程手物交互生成。
本文提出了 SPIRAL 框架,通过构建包含规划、执行与反思的闭环机制,利用智能体分解动作与迭代优化,有效解决了现有视频生成模型在长程任务中语义对齐弱和时序漂移的问题,显著提升了可控长时视频生成的质量。
该论文提出了一种名为 GRACE 的自适应动态扩展框架,通过“增长、评估、压缩”的循环策略,在类增量学习中有效平衡了模型的可塑性与稳定性,在实现顶尖性能的同时将内存占用降低了高达 73%。
本文针对现有半监督域泛化方法在长尾类别分布场景下表现不佳的问题,提出了一种基于信息最大化原理的 IMaX 方法,通过引入α-熵目标优化特征与潜在标签间的互信息,有效缓解了类别不平衡偏差并显著提升了模型性能。
该论文针对现有视觉语言模型在视频实体追踪任务中的瓶颈,提出了包含理论分析与新基准 VET-Bench 的解决方案,并设计了时空 grounded 思维链(SGCoT)微调方法,使模型在无需外部工具的情况下于该基准测试中实现了超过 90% 的准确率。
本文提出了 Attentive Low-Rank Filter Adaptation (Alfa) 方法,通过利用奇异值分解和注意力机制对预训练滤波器中的语义模式进行重加权,实现了仅需少量无标签样本即可高效适应用户特定特征的眼动估计模型,并在跨数据集基准测试中取得了优于现有方法的性能。
该论文提出了利用生成器内部音频 - 视觉交叉注意力机制的 X-AVDT 检测器,并发布了涵盖多种合成范式的 MMDF 数据集,从而在跨生成器泛化能力和检测精度上显著超越了现有方法。
该论文提出了一种名为“视觉自我实现对齐”(VSFA)的新方法,通过让多模态大语言模型在无安全标签的情况下反复接触威胁相关图像,使其内化警惕与谨慎的隐含语义,从而塑造出具备安全导向的人设,有效降低了攻击成功率并提升了响应质量。
本文提出了 Spherical-GOF,一种基于高斯不透明度场(GOF)的球面感知全景渲染框架,它通过在单位球面上直接进行射线采样并引入保守球面边界规则与自适应滤波策略,有效解决了现有 3D 高斯泼溅方法在全景相机模型中存在的畸变与几何不一致问题,在标准基准及新发布的 OmniRob 真实数据集上均实现了显著优于现有方法的几何一致性与重建质量。
本文提出了 OccTrack360 基准数据集及 Focus on Sphere Occ (FoSOcc) 框架,旨在解决环绕鱼眼相机在长序列、实例级体素跟踪及畸变处理方面的挑战,从而推动 4D 全景占用跟踪技术的发展。
本文提出了“交互式世界模拟器”(Interactive World Simulator)框架,利用一致性模型从中等规模数据集构建快速且物理一致的交互世界模型,不仅支持长达 10 分钟以上的稳定仿真,还证明了在此生成的数据训练出的机器人策略在真实世界中能达到与真实数据训练相当的性能,并实现了仿真与实机表现的高度相关性。
本文提出了 DualFlexKAN(DFKAN),一种通过双阶段机制独立控制输入变换与输出激活的灵活架构,它支持多种基函数族与正则化策略,在显著降低参数量(比标准 KAN 少一至两个数量级)的同时,实现了比 MLP 和传统 KAN 更优的精度、收敛速度及梯度保真度,特别适用于数据高效学习与科学应用中的可解释函数发现。
本文提出了 PRISM 模型,通过构建基于关节解耦的潜在空间实现结构化运动表示,并引入无噪声条件注入机制统一了文本驱动、姿态条件生成及长序列流式合成任务,从而在单一基础模型中实现了多任务状态下的最优性能。
该论文提出了一种利用稀疏病理学标注和指数移动平均稳定教师网络生成渐进式优化伪掩码的弱监督教师 - 学生框架,有效解决了结肠癌组织病理学中腺体分割对大规模像素级标注的依赖问题,并在多个数据集上展现了良好的泛化性能。
本文提出了检索增强高斯头像(RAF),通过在训练期间引入从大规模无标签表情库中检索到的近邻表情来增强数据,从而在不依赖配对跨身份数据或架构修改的情况下,显著提升了无模板可驱动头像在未见表情驱动下的泛化能力与鲁棒性。
该论文提出了一种实时双流 RGB-D 目标检测模型,通过引入动态径向基函数加权深度超反卷积和基于上采样的可训练融合层,有效解决了深度与彩色图像特征提取及融合的难题,并在 NYU Depth V2 和 SUN RGB-D 基准测试中取得了优异性能。
该论文提出了一种名为 PA-ICVL 的基于姿态信息的上下文视觉学习方法,利用视觉语言模型(VLM)显著提升了在非写实渲染(如卡通)图像中检测语义结构视觉幻觉的能力。
该论文提出了 Fuse4Seg 框架,通过引入以医学分割为驱动的双层优化机制及频率解耦架构,解决了传统多模态医学图像融合因过度追求视觉保真而导致的任务特征退化问题,在显著提升分割精度的同时保留了可解释的物理图像。
该论文提出了 PACE 方法,通过将参数高效微调(PEFT)与一致性正则化相结合,利用乘性噪声扰动特征来隐式约束梯度范数并维持模型与预训练版本的一致性,从而在显著提升视觉和文本任务泛化能力的同时,有效解决了传统对齐方法可能引发的梯度爆炸问题。
本文提出了 FALCON,一种针对无人机视频动作识别的统一自监督预训练方法,通过结合物体感知掩码自编码与物体中心的双视野未来重建,有效解决了航拍画面中背景杂乱导致的空间不平衡问题,显著提升了识别精度并实现了比传统监督方法快 2 至 5 倍的推理速度。