InnoAds-Composer: Efficient Condition Composition for E-Commerce Poster Generation

本文提出了 InnoAds-Composer,一种针对电商海报生成的单阶段框架,通过动态路由机制实现高效的主体、文字和风格三重条件控制,并配合文本特征增强模块与首个联合数据集,显著提升了生成质量与文字准确性,同时保持了较低的推理延迟。

Yuxin Qin, Ke Cao, Haowei Liu, Ao Ma, Fengheng Li, Honghe Zhu, Zheng Zhang, Run Ling, Wei Feng, Xuanhua He, Zhanjie Zhang, Zhen Guo, Haoyi Bian, Jingjing Lv, Junjie Shen, Ching Law

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 InnoAds-Composer 的新工具,它的核心任务是:帮电商卖家自动制作高质量的商品海报

想象一下,你是一家卖“有机草莓”的网店老板。你想做一张海报,需要同时满足三个要求:

  1. 背景要美:像清晨阳光下的果园,清新自然。
  2. 主角要真:草莓必须看起来像真的,不能变形或模糊。
  3. 文字要准:海报上的字(比如“新鲜采摘”)必须写得清清楚楚,不能像乱码。

以前的 AI 做海报,就像是一个手忙脚乱的实习生,往往顾此失彼:要么背景很美但草莓变黑了,要么文字写对了但草莓长得像土豆,或者为了把这三样拼在一起,需要分好几步走,效率低还容易出错。

InnoAds-Composer 就像是一个经验丰富的“超级海报设计师”,它一次性就能搞定这三件事,而且速度飞快。它是怎么做到的呢?我们可以用三个生动的比喻来理解它的核心技术:

1. 统一语言:把“风格”、“商品”和“文字”变成同一种“乐高积木”

以前的系统,处理背景、商品和文字是分开进行的,就像让三个不同语言的人(一个说法语、一个说德语、一个说中文)一起盖房子,沟通成本极高,容易盖歪。

InnoAds-Composer 发明了一套**“通用乐高积木”**(Unified Tokenization)。

  • 它把背景图片、商品图片和文字图片,全部拆解成同一种标准的“积木块”。
  • 这样,AI 大脑(基于 MM-DiT 架构)就能像玩积木一样,同时把这些块拼在一起,确保背景、商品和文字在同一个“频道”上对话,不会互相打架。

2. 文字增强器:给文字装上“显微镜”和“定位仪”

电商海报最怕文字写错或看不清,尤其是中文,笔画多,AI 很容易写歪。

为了解决这个问题,作者设计了一个**“文字特征增强模块”(TFEM),这就像给 AI 配了一副“超级眼镜”**:

  • 第一只眼(全局眼):看整张文字图片,把握字的整体结构和轮廓(像看一个人的剪影)。
  • 第二只眼(局部眼):把每个字单独切下来,用 OCR(文字识别技术)仔细辨认,并告诉 AI 这个字在图里的具体位置、应该有多大(像拿着放大镜看笔画)。
  • 大脑融合:AI 把这两只眼的信息结合起来,既知道字的“骨架”,又知道字的“细节”和“位置”。
    结果:生成的文字不仅清晰锐利,而且位置精准,完全符合设计要求。

3. 智能“做减法”:只让 AI 在关键时刻“动脑子”

这是这篇论文最聪明的地方。通常,让 AI 同时处理这么多条件(背景 + 商品 + 文字),计算量会像滚雪球一样爆炸,导致速度很慢。

作者发现了一个有趣的现象:不同的条件,在 AI 工作的不同阶段,重要性是不一样的。

  • 背景风格:就像盖房子的“地基”,在 AI 刚开始画图(早期阶段)时最重要,后面就不怎么管了。
  • 商品主体:就像房子的“承重墙”,在中间阶段最重要,贯穿始终。
  • 文字细节:就像房子的“装修和软装”,在后期精修阶段才最重要。

基于这个发现,他们搞了一个**“智能调度员”**(Importance-Aware Injection):

  • 不再让 AI 在每一秒、每一层都同时处理所有信息(那样太累了)。
  • 而是**“按需分配”**:在画背景时,只给 AI 看背景指令;在画主体时,重点给主体指令;在收尾时,重点给文字指令。
  • 这就好比一个**“精明的管家”**,只在最需要的时候把任务交给员工,其他时间让员工休息。

效果:这不仅让 AI 跑得更快(推理延迟降低了 37%),还省了大量的显卡内存,但生成的海报质量却一点没降。

4. 独家秘籍:自己造了一个“超级题库”

为了训练这个 AI,作者还自己造了一个包含 8 万张高质量电商海报的数据集(InnoComposer-80K)。

  • 以前的数据集要么只有图没有字,要么只有字没有风格。
  • 这个新数据集是**“三位一体”**的:每一张图都完美对应了“背景图 + 商品图 + 文字图”。
  • 这就像给 AI 找了一个**“满分题库”**,让它通过大量练习,学会了如何完美平衡这三者。

总结

InnoAds-Composer 就像一个全能、高效且聪明的电商海报设计师

  1. 懂行(统一了所有条件的语言);
  2. 细心(专门强化了文字识别,字写得漂亮);
  3. 会偷懒(只在关键时刻用力,省资源、速度快);
  4. 经验丰富(用独家的大数据集训练过)。

最终,它能帮商家在几秒钟内生成既美观、商品又逼真、文字又准确的海报,大大降低了电商设计的门槛和成本。