FoldNet: Learning Generalizable Closed-Loop Policy for Garment Folding via Keypoint-Driven Asset and Demonstration Synthesis
本文提出了 FoldNet 框架,通过基于关键点的资产与演示合成构建大规模合成数据集,并引入 KG-DAgger 算法增强故障恢复能力,从而在无需大量真实数据的情况下实现了高泛化性的机器人衣物折叠闭环策略。
8464 篇论文
本文提出了 FoldNet 框架,通过基于关键点的资产与演示合成构建大规模合成数据集,并引入 KG-DAgger 算法增强故障恢复能力,从而在无需大量真实数据的情况下实现了高泛化性的机器人衣物折叠闭环策略。
本文提出了 Diffusion-SAFE 框架,利用双扩散模型(意图评估与安全引导副驾驶)实现基于概率风险检测的共享自动驾驶人机接管,并通过部分扩散机制在连续调整接管程度的同时确保过渡平滑与安全。
MTVCraft 是首个直接利用原始 3D 运动序列(4D 运动)进行角色图像动画生成的框架,通过 4D 运动分词器(4DMoT)和运动感知视频 DiT(MV-DiT)将运动量化为紧凑的 4D 令牌,从而在实现任意角色及物体零样本泛化动画的同时,显著提升了姿态引导视频生成的性能与灵活性。
该研究通过引入认知负荷理论,分析了 34 位金融专业人士在利用 GPT-4o 完成复杂估值任务时的表现,发现 AI 生成内容能提升工作质量,但由模型发起的任务切换等引发的外在认知负荷对绩效的负面影响最大,且这种负面影响会随经验不足而加剧。
本研究提出了将潮流(PF)和最优潮流(OPF)问题转化为二次无约束二值优化(QUBO)模型的 AQPF 和 AQOPF 算法,并通过在 D-Wave 量子退火器、混合求解器及富士通数字退火器上对 4 至 1354 节点系统的测试,验证了该方法在生成可行解及应对病态场景时的可扩展性与鲁棒性。
该研究提出了一种源自原子基础模型中间特征的新型局部蛋白质环境表示方法,该方法不仅能有效捕捉结构与化学特征,还能构建数据驱动的先验分布,并成功实现了具有物理学信息且达到最先进精度的核磁共振化学位移预测。
该论文提出了一种从大规模部署日志中无监督地发现故障分类体系的方法,通过结合视觉语言推理与语义空间聚类,自动生成可解释且可操作的故障模式,从而指导数据收集并增强机器人系统的运行时故障监测能力。
本文提出了一种将多机器人任务分配给多任务机器人的新颖框架,通过考虑多任务执行带来的物理约束,利用加权 MAX-SAT 编译和贪婪启发式算法,在仿真与实物实验中显著提升了任务分配效率。
本文提出了名为 ContextMatters 的框架,通过结合大语言模型与经典规划器,利用场景上下文对不可达目标进行分层松弛以生成可行计划,从而在真实 3D 环境中显著提升了具身智能体的任务成功率。
本研究提出了一种引入方差惩罚机制的改进型金字塔 pix2pix 生成对抗网络,通过从常规 H&E 染色图像生成高保真 IHC 图像,有效解决了 HER2 阳性乳腺癌诊断中的模式崩溃问题,为精准肿瘤学提供了一种低成本、可扩展的 AI 驱动诊断新方案。
该论文提出了名为 LINO UniPS 的通用光度立体方法,通过引入光注册令牌与交错注意力机制实现光照与法线的有效解耦,结合小波双分支架构与法线梯度感知损失以保留高频几何细节,并借助大规模合成数据集 PS-Verse 及课程训练策略,在多个基准测试中取得了新的最先进性能。
本文提出了一种由视觉语言模型(VLM)引导的级联框架,通过利用 VLM 特征作为提示来指导 Segment Anything Model 进行精准分割,并将分割结果作为软空间先验保留全图上下文以消除域差距,从而有效解决了开放词汇伪装物体分割中的视觉模糊与未见类别分类难题。
本文提出了名为 WaLi 的攻击方法,利用 HVAC 系统中现有的压力传感器,通过复数 Conformers 和全局注意力机制从低分辨率噪声数据中重建出可懂度较高的人类语音,揭示了此类传感器前所未有的隐私泄露风险并提供了相应的防御方案。
本文提出了名为 SUBARU 的框架,通过在助听设备中联合采用亚奈奎斯特采样率和低比特分辨率模数转换,并结合宽带重建方法,在显著降低功耗的同时实现了嘈杂环境下的高效多模态语音增强。
本文提出了一种名为 VTOPA 的视觉辅助定位算法,该算法通过计算机视觉自主提取障碍物和用户位置信息,动态优化无人机位置以维持视距连接并适应交通需求,从而在复杂城市环境中显著提升网络吞吐量并降低延迟。
该论文提出了一种名为 LD-RPS 的零样本统一图像恢复方法,通过利用预训练潜在扩散模型结合多模态理解先验与轻量级对齐模块,采用循环后验采样策略,有效解决了现有方法在泛化性和闭集约束方面的局限。
该论文提出了一种名为查询自适应聚合(QAA)的新型特征聚合技术,通过利用学习到的查询作为参考码本,有效解决了多数据集联合训练中因数据差异导致的特征聚合容量受限问题,从而实现了在保持高性能的同时显著提升视觉地点识别模型在多样化数据集上的泛化能力。
本文提出了一种名为 hPGA-DP 的新型混合扩散策略,通过将投影几何代数(PGA)的几何归纳偏置嵌入网络架构(利用 P-GATr 作为状态编码器和动作解码器),显著提升了机器人操作学习的训练效率与任务性能。
本文提出了一种名为 MCULoRA 的鲁棒不完整多模态低秩适应框架,通过模态组合感知低秩适应(MCLA)模块解耦共享信息与模态特性,并利用动态参数微调(DPFT)模块基于表征空间可分性优化训练比例,从而有效解决了多模态情感识别中因模态缺失导致的梯度冲突问题并显著提升了预测性能。
本文提出了一种名为 Mamba Snake 的新型深度蛇形框架,通过引入状态空间建模、Mamba 演化模块及双分类协同机制,有效解决了统一医学图像分割中多尺度结构异质性与器官间关系建模的难题,并在五个临床数据集上实现了优于现有最先进方法的平均 3% 的 Dice 提升。