FoldNet: Learning Generalizable Closed-Loop Policy for Garment Folding via Keypoint-Driven Asset and Demonstration Synthesis

本文提出了 FoldNet 框架,通过基于关键点的资产与演示合成构建大规模合成数据集,并引入 KG-DAgger 算法增强故障恢复能力,从而在无需大量真实数据的情况下实现了高泛化性的机器人衣物折叠闭环策略。

Yuxing Chen, Bowen Xiao, He Wang

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 FoldNet 的机器人项目,它的核心目标是教机器人像人类一样叠衣服

想象一下,衣服是世界上最“调皮”的物体:它们软绵绵的,没有固定的形状,你抓一下这里,那里就会皱起来。让机器人叠衣服,就像让一个刚学会走路的婴儿去折一张湿漉漉的纸,难度极高。

为了解决这个问题,作者们没有直接去收集成千上万的人类叠衣服视频(这太慢太贵了),而是发明了一套"虚拟造衣 + 智能纠错"的魔法系统。

我们可以把整个过程想象成在开一家“机器人叠衣培训班”

1. 第一步:在虚拟世界里“批量生产”衣服(资产合成)

在现实世界里,买 1000 件不同花色、不同款式的衣服来给机器人练手,既花钱又占地方。

  • 作者的做法:他们建了一个3D 虚拟工厂
    • 骨架(关键点):他们先给衣服画了一个“骨架图”(比如领口、袖口、下摆的关键点)。这就像给衣服定好了“关节”。
    • 皮肤(纹理):利用 AI 绘画工具(像 Midjourney 或 Stable Diffusion),他们根据文字描述(比如“一件红色的条纹 T 恤”),瞬间生成成千上万种不同花色的衣服“皮肤”。
    • 成果:他们不需要真人设计师,就能在电脑里“打印”出海量、逼真且带有“关节标记”的虚拟衣服。这就像拥有了一个无限衣橱

2. 第二步:让机器人“试错”并学会“救场”(KG-DAgger 策略)

这是这篇论文最精彩的部分。

  • 传统做法(完美演示):以前的方法通常是让人类专家演示一遍“完美”的叠衣过程,然后让机器人模仿。但这有个大 bug:如果机器人在第一步抓衣服时手滑了(抓空了),它该怎么办?因为它只学过“完美”的路径,一旦偏离,它就懵了,直接放弃。
  • FoldNet 的做法(带纠错的演示):
    • 作者设计了一个"纠错教练"(KG-DAgger)。
    • 在训练时,他们故意让机器人去抓衣服,模拟它抓空、抓偏、衣服乱成一团的情况
    • 一旦机器人“犯错”(比如没抓到袖子),这个“纠错教练”就会立刻介入,演示如何把衣服拉回来、重新调整、再次尝试抓取
    • 比喻:这就像教孩子骑自行车。以前的方法是只让孩子看大人骑得完美的视频;现在的做法是,当孩子快摔倒时,教练会立刻扶一把,教他“哦,原来快倒了要这样调整重心,然后再继续蹬”。
    • 结果:机器人不仅学会了怎么叠,更学会了在出错后如何“救场”。这让它的成功率从 50% 提升到了 75%。

3. 第三步:从虚拟到现实的“无缝穿越”

  • 训练:机器人先在电脑里用这 1.5 万条(约 200 万个动作对)包含“完美操作”和“纠错操作”的数据进行疯狂训练。
  • 实战:训练好的模型直接拿到现实世界的机器人身上。
  • 神奇之处:虽然机器人是在虚拟世界里学的,但它面对现实世界中从未见过的衣服(不同花色、不同褶皱),依然能叠得很好。这就像是一个在模拟器里练了无数遍的赛车手,第一次开真车就能跑得很稳。

总结:为什么这很重要?

这就好比以前机器人叠衣服是靠“死记硬背”(只学完美动作),一旦遇到意外就“死机”;而 FoldNet 教会了机器人"随机应变"(学会在出错后自我修正)。

  • 核心贡献
    1. 造衣工厂:能自动生成海量、带有关键标记的虚拟衣服。
    2. 纠错教练:发明了 KG-DAgger 方法,专门教机器人如何处理“抓空”和“失误”,大大提升了成功率。

最终,这个系统让机器人叠衣服的成功率在现实世界中达到了75%,而且不需要人类去收集那些昂贵且难以获取的真实世界数据。这为未来机器人进入家庭帮忙做家务(比如叠衣服、整理床铺)铺平了道路。