OSInsert: Towards High-authenticity and High-fidelity Image Composition

本文提出了一种名为 OSInsert 的两阶段策略,旨在通过先利用高真实性方法生成合理的主体形状作为条件,再结合高保真方法恢复细节,从而同时实现图像合成中的高真实性与高保真度。

Jingyuan Wang, Li Niu

发布于 2026-02-24
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 OSInsert 的新方法,旨在解决图像合成(把物体“插”进另一张图里)中的一个核心难题:如何既让物体看起来“像真的”,又能“原汁原味”地保留细节?

为了让你更容易理解,我们可以把这项技术比作**“请一位顶级裁缝和一位顶级画师联手做衣服”**。

1. 以前的痛点:顾头不顾尾

在 OSInsert 出现之前,现有的技术就像只有两种偏科的工匠:

  • 第一类工匠(高真实感派,如 ObjectStitch):
    • 特长: 他们非常擅长“改衣服”。如果你把一件西装硬塞进一个穿着休闲装的人身上,他们会把西装的剪裁、角度、光影都调整得完美贴合这个人的身材和姿势。
    • 缺点: 为了把衣服改得合身,他们往往把衣服上原本精美的刺绣、独特的花纹都磨平了,甚至把红色的衣服改成了蓝色。结果就是:衣服很合身,但原本的衣服“面目全非”了。
  • 第二类工匠(高保真派,如 InsertAnything):
    • 特长: 他们非常擅长“复印”。如果你给他们一件绣着复杂龙纹的唐装,他们能完美地保留每一根丝线的细节,连颜色都分毫不差。
    • 缺点: 他们只会“硬贴”。如果你把这件唐装硬贴在一个穿着现代西装的人身上,不管姿势多别扭,他们都不改。结果就是:衣服细节很完美,但看起来就像个生硬的“贴纸”,完全不合身,甚至像 P 图没 P 好。

核心问题: 以前的技术试图让一个工匠同时干这两件事,结果要么衣服合身但细节没了,要么细节完美但姿势怪异。

2. OSInsert 的解决方案:分两步走(两步走战略)

OSInsert 的聪明之处在于,它不再指望一个人干两个人的活,而是把任务拆分成两个阶段,让两个专家各展所长。

第一阶段:先定“骨架”和“姿势”(由高真实感派负责)

  • 任务: 先把物体放进去,不管它长什么样,先保证它的姿势、角度、光影和背景完美融合。
  • 比喻: 就像裁缝先给模特量体裁衣,把西装的袖子、领口、下摆都调整到和模特身体完美贴合的状态。这时候,衣服上的花纹可能变得模糊了,但这不重要,重要的是衣服现在“站”在正确的位置,姿势是对的
  • 技术细节: 这一步使用了 ObjectStitch 模型,生成一个中间图。

第二阶段:再填“血肉”和“细节”(由高保真派负责)

  • 任务: 在保持第一阶段定好的“姿势”和“轮廓”不变的前提下,把原本物体上那些精美的细节(颜色、纹理、花纹)填回去。
  • 比喻: 这时候,一位画师登场了。他看着第一步做好的“合身西装”,拿着原本那件“精美唐装”的图纸,小心翼翼地只把花纹和颜色“填”进西装的轮廓里。他绝对不会去改动西装的剪裁(因为那是第一步定好的),也不会让花纹溢出到背景里。
  • 关键工具(SAM): 这里用了一个叫 SAM (Segment Anything Model) 的“超级剪刀”。它能精准地沿着第一步生成的物体轮廓剪出一个完美的“面具”。这保证了画师(高保真模型)在填色时,绝对不会涂到背景上,也不会破坏背景原本的风景。

3. 最终效果:完美的“合体”

通过这种“先定姿势,后填细节”的两步走策略,OSInsert 实现了:

  1. 像真的(高真实感): 物体在背景里的位置、角度、光影都自然融合,没有“贴纸感”。
  2. 像原来的(高保真): 物体原本的花纹、颜色、质感被完整保留,没有失真。

4. 实验结果:打脸“商业软件”

论文在 MureCOM 数据集上做了测试,发现:

  • 学术界的单步模型: 要么姿势对但细节糊,要么细节对但姿势怪。
  • 商业软件(如 Banana pro, Seedream 5.0): 虽然整体不错,但经常犯低级错误,比如物体没对齐(稍微偏了一点),或者背景被污染(背景的颜色被悄悄改动了)。
  • OSInsert: 既严格遵循了用户指定的位置(不偏不倚),又完美保留了背景原貌,同时物体本身既合身又清晰。

总结

简单来说,OSInsert 就像是一个聪明的流水线

  1. 先让建筑师把房子盖在正确的位置,打好地基(解决“合身”问题)。
  2. 再让装修师按照原图把精美的壁纸和家具搬进去,但绝不乱动房子的结构(解决“细节”问题)。

这种方法简单、有效,而且不需要重新训练复杂的模型,只是巧妙地把现有的两个好工具组合在了一起,就解决了困扰行业已久的“鱼与熊掌不可兼得”的难题。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →