How Long Can Unified Multimodal Models Generate Images Reliably? Taming Long-Horizon Interleaved Image Generation via Context Curation

Each language version is independently generated for its own context, not a direct translation.

这篇论文解决了一个非常有趣的问题：为什么现在的 AI 在画“长篇连环画”时，画到后面就“崩”了？

想象一下，你让 AI 画一个有 40 页的漫画故事。

前几页：AI 画得栩栩如生，主角长得像，画风统一。
画到第 20 页：主角的脸开始变形，衣服颜色变了，背景里出现了奇怪的乱码。
画到第 40 页：AI 彻底疯了，画出来的东西完全不像人，甚至不像画。

这篇论文（UniLongGen）就是为了解决这个“画到后面就忘、画到后面就乱”的毛病。

1. 核心发现：不是“记不住”，而是“记太多”

通常大家认为，AI 画不好是因为记不住（上下文太长，内存不够了）。但这篇论文发现，真相恰恰相反：

传统观点：就像一个人背单词，单词背多了（Token 多了），脑子就乱了。
论文发现：问题不在于“单词”的数量，而在于**“图片事件”的数量**。
- 比喻：想象你在一个巨大的图书馆里找书。
  - 如果是文字历史（比如你读了 10 万字的小说），就像图书馆里堆满了书。虽然书多，但如果你要找某本书，只要慢慢翻，总能找到相关的线索。这就像“稀释”，虽然难找，但不会出错。
  - 如果是图片历史（比如你看了 20 张图），就像图书馆里突然堆满了巨大的、发光的、会动的广告牌。每多一张图，就有一堆新的、闪闪发光的广告牌在抢你的注意力。
- 结论：当图片太多时，这些“广告牌”会互相打架，产生**“视觉污染”**。AI 的注意力机制（Softmax）会被这些无关的、但长得有点像的“噪音”带偏，导致它把上一张图里的错误细节（比如奇怪的纹理、错误的颜色）强行加到当前这张图上。

简单说：不是 AI 记性不好，是它被过去的“图片噪音”给带偏了，越画越乱。

2. 解决方案：UniLongGen —— 学会“主动遗忘”

既然“全记住”会导致混乱，那怎么办？论文提出了一个聪明的策略：主动遗忘（Active Forgetting）。

这就好比你在写小说，不需要把过去 100 章的每一个字都背下来，你只需要记住最关键的角色设定和最近的剧情。

UniLongGen 的做法分为三步：

第一步：像侦探一样“扫描” (One-Pass Profiling)

在画新图之前，AI 先快速“扫视”一下过去所有的历史图片。它不是盲目地看，而是问自己两个问题：

早期层（负责理解剧情）：哪几段文字描述对现在最重要？（比如：“主角穿着红衣服”）。
晚期层（负责画画）：哪几张过去的图，里面的主角长得最像现在的？（比如：“第 5 张图里的脸最正”）。

第二步：分层筛选 (Dual-Depth Scoring)

AI 发现，它的大脑结构很神奇：

浅层大脑：擅长理解文字和指令。
深层大脑：擅长画画和保持风格。
所以，UniLongGen 不会用同一把尺子去衡量所有东西。它用“浅层大脑”去选重要的文字，用“深层大脑”去选重要的图片。

第三步：大扫除 (KV Eviction)

这是最关键的一步。一旦选出了最重要的几张图和几段文字，UniLongGen 会把其他所有不重要的历史图片直接从内存里“扔出去”（Eviction），而不是把它们压缩或模糊化。

比喻：就像你整理房间。如果你把旧报纸、旧衣服都塞在角落里（压缩），它们还是会散发异味（噪音）。UniLongGen 的做法是：把不需要的东西直接扔出窗外，只留下最核心的几件宝物放在手边。

3. 效果如何？

画得久：以前画 20 张图就开始崩坏，现在能稳定画出40 张甚至更多的连贯图片。
画得准：主角的脸、衣服、画风从头到尾保持一致，不会突然变成另一个人。
跑得快：因为内存里只保留了少量的“精华”，AI 处理速度反而变快了（最高快 11 倍）。

总结

这篇论文告诉我们一个反直觉的道理：在 AI 画长故事时，并不是“记得越多越好”。

相反，**“懂得遗忘”**才是关键。UniLongGen 就像一位聪明的编辑，它知道在漫长的创作过程中，必须不断清理掉那些干扰视线的“噪音”，只保留最核心的“灵魂”（关键角色和风格），这样才能让故事从头到尾都精彩、连贯。

一句话概括：UniLongGen 通过**“只留精华，扔掉噪音”**的主动遗忘策略，让 AI 能够像人类画家一样，画出超长、连贯且高质量的连环画。

How Long Can Unified Multimodal Models Generate Images Reliably? Taming Long-Horizon Interleaved Image Generation via Context Curation

1. 核心发现：不是“记不住”，而是“记太多”

2. 解决方案：UniLongGen —— 学会“主动遗忘”

第一步：像侦探一样“扫描” (One-Pass Profiling)

第二步：分层筛选 (Dual-Depth Scoring)

第三步：大扫除 (KV Eviction)

3. 效果如何？

总结

UniLongGen 技术总结：通过上下文策展驯化长程交错图像生成

1. 研究背景与问题定义 (Problem)

2. 核心方法论 (Methodology)

2.1 核心机制：基于注意力的上下文策展

2.2 关键设计原则

3. 主要贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与影响 (Significance)

How Long Can Unified Multimodal Models Generate Images Reliably? Taming Long-Horizon Interleaved Image Generation via Context Curation

1. 核心发现：不是“记不住”，而是“记太多”

2. 解决方案：UniLongGen —— 学会“主动遗忘”

第一步：像侦探一样“扫描” (One-Pass Profiling)

第二步：分层筛选 (Dual-Depth Scoring)

第三步：大扫除 (KV Eviction)

3. 效果如何？

总结

UniLongGen 技术总结：通过上下文策展驯化长程交错图像生成

1. 研究背景与问题定义 (Problem)

2. 核心方法论 (Methodology)

2.1 核心机制：基于注意力的上下文策展

2.2 关键设计原则

3. 主要贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与影响 (Significance)

类似论文

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers