Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 RETOUCHIQ 的超级智能助手，它的核心能力是：听懂你的“感觉”，然后像专业修图师一样，用专业的软件把照片修好。

为了让你更容易理解，我们可以把修图这件事想象成**“指挥一位看不见的魔法大厨做菜”**。

1. 以前的痛点：大厨听不懂“人话”

想象一下，你走进一家餐厅，对大厨说：“这道菜要有一种‘秋天的温暖感觉，像夕阳下的麦田’。”

以前的 AI（普通大模型）： 可能会直接给你端上一盘真的“夕阳”或者“麦田”的画，把原来的菜（照片）都盖住了。它听不懂“感觉”，只会生硬地替换内容。
以前的修图 AI（扩散模型）： 可能会把菜做得很花哨，但原来的食材（照片里的人或物）都变形了，甚至面目全非。
专业修图软件（如 Lightroom）： 功能强大，但操作复杂。你需要知道“曝光度”、“色温”、“对比度”具体该调多少。普通用户根本不知道“夕阳感”对应的是把色温调到 5600K 还是 6000K。

RETOUCHIQ 的出现，就是为了解决这个“语言”和“操作”之间的鸿沟。

2. RETOUCHIQ 是怎么工作的？

RETOUCHIQ 就像一个**“拥有超级大脑的修图学徒”**，它的工作流程分三步走：

第一步：听指挥，写菜谱（推理与规划）

当你输入指令：“让这张夜景照片看起来像‘史诗般的、忧郁的海景，要有电影般的戏剧感’"时：

它不会直接动手改图。
它会先思考（就像大厨在脑子里过一遍）：“要营造忧郁感，得把蓝色调冷一点；要电影感，得增加对比度，把暗部压暗，亮部提亮……"
它会把这种“感觉”翻译成具体的参数指令：“色温调至 4500K，对比度 +30，阴影 -20……"

第二步：执行操作（像专业软件一样动手）

它不直接“画”出一张新图，而是控制专业的修图软件（如 Adobe Lightroom），像人类专家一样，精准地拖动那些滑块。

比喻： 它不是自己变魔术变出一张图，而是拿着你的照片，走进专业的暗房，亲手调整光线和色彩。这样既保留了原图的神韵，又达到了你想要的效果。

第三步：自我打分与进化（最核心的黑科技）

这是这篇论文最厉害的地方。修图是很主观的，怎么才算“好”？

以前的难题： 如果让 AI 自己判断修得好不好，它通常只会拿修好的图和一张“标准答案”对比像素。但修图没有标准答案！有人喜欢暖色调，有人喜欢冷色调，像素对比法会失效。
RETOUCHIQ 的解法：通用奖励模型（Generalist Reward Model）
- 这就好比给这位“修图学徒”配了一位**“挑剔的美食评论家”**。
- 这位评论家（奖励模型）不是死板地看像素，而是像人一样思考。它会先根据指令生成一套评价标准（比如：“要有秋天的氛围”、“色彩要平衡”），然后给修好的图打分。
- PGRT 技术（策略引导的奖励训练）： 这是一个巧妙的“师徒互练”机制。
  - 起初，评论家可能只见过简单的“坏菜”（人工故意调坏的图）。
  - 后来，评论家开始看“学徒”自己调出来的复杂作品。
  - 学徒和评论家互相切磋：学徒试着修图，评论家指出哪里不够好，学徒再改进。通过这种“实战演练”，评论家变得更懂学徒的风格，学徒也修得越来越像大师。

3. 它有多强？

论文通过大量实验证明，RETOUCHIQ 在三个方面都打败了现有的顶尖 AI：

听懂人话： 它能精准理解“温暖”、“史诗感”、“怀旧”这种抽象词汇，并转化为具体的修图参数。
保持原样： 因为它是在调整参数而不是重绘图像，所以照片里的人脸、物体结构不会变形（不像某些 AI 会把人脸修歪）。
专业级效果： 它的修图质量已经非常接近人类专业摄影师的手笔，无论是让夜景更通透，还是让花朵更鲜艳，都能做到“恰到好处”。

总结

RETOUCHIQ 就像是一个“懂艺术的翻译官” + “手稳的修图师” + “会自我进化的学徒”。

它不再让你去研究复杂的参数，也不再让你担心 AI 会把照片修坏。你只需要像跟朋友聊天一样说出你想要的感觉（“让这张照片更有电影感”），它就能自动调用专业工具，帮你把照片变成你脑海中那个完美的样子。

这就是**“用语言指挥专业工具”**的未来，让每个人都拥有大师级的修图能力。

Each language version is independently generated for its own context, not a direct translation.

RETOUCHIQ 技术总结：基于 MLLM 智能体与通用奖励模型的可执行图像精修

1. 研究背景与问题定义 (Problem)

随着多模态大语言模型（MLLM）的发展，将视觉理解与语言推理结合以执行专业工具（如 Adobe Lightroom）进行图像编辑成为可能。然而，现有的基于 MLLM 的图像编辑方法面临以下核心挑战：

主观性与缺乏可靠奖励信号：图像精修（Retouching）本质上是一个高度主观的创造性任务。对于同一个编辑指令（如“让画面更有电影感”），可能存在多种同样优秀的编辑结果。传统的强化学习（RL）方法通常依赖基于规则的可验证奖励（Verifiable Rewards），即通过计算编辑后图像与单一“地面真值（Ground Truth）”参考图之间的像素级差异（如 L1/L2 损失）来评估。
单一参考值的局限性：由于审美偏好的多样性，单一参考图无法涵盖所有合理的编辑方案。基于像素差异的奖励信号在主观任务中往往失效，导致模型难以学习到符合用户意图且具备高审美质量的编辑策略。
分布偏移问题：现有的数据增强方法（如通过预设参数扰动生成“弱”样本）生成的编辑数据分布，与策略模型（Policy Model）实际生成的复杂、组合式编辑结果分布存在显著差异，导致奖励模型在评估真实输出时表现不佳。

2. 方法论 (Methodology)

为了解决上述问题，作者提出了 RETOUCHIQ，这是一个基于 MLLM 智能体的框架，能够将自然语言指令转化为可执行的专业图像编辑参数。其核心创新在于引入了通用奖励模型（Generalist Reward Model, GRM）和策略引导的奖励训练（Policy-Guided Reward Training, PGRT）。

2.1 整体架构

RETOUCHIQ 包含两个主要阶段：

监督微调（SFT）阶段：模型学习从用户指令和原图出发，生成语义推理过程（Reasoning Trace）和具体的编辑参数序列（如曝光、色温、对比度等）。
强化学习（RL）阶段：模型在探索不同的编辑策略时，利用通用奖励模型提供反馈，以优化编辑质量。

2.2 通用奖励模型 (Generalist Reward Model, GRM)

这是该框架的核心组件，旨在解决主观评估难题。

动态指标生成：不同于固定规则，GRM 是一个经过 RL 微调的 MLLM。它首先根据具体的编辑指令和图像内容，动态生成一组评估指标（Metrics），例如“色彩平衡”、“氛围感”、“边缘锐度”等，并赋予每个指标权重。
多模态推理评分：基于生成的指标，GRM 对编辑后的图像进行多模态推理，输出一个标量奖励值（Scalar Reward）。这使得奖励信号能够灵活适应不同的编辑场景和审美需求。

2.3 策略引导的奖励训练 (PGRT)

为了解决训练数据分布偏移问题，作者提出了 PGRT 方案：

传统方法缺陷：通常使用“图像扰动器”（Image Perturber）通过随机调整参数生成“弱”样本（Sub-optimal edits）来构建对比数据。但这导致弱样本分布单一（通常是单一参数调整），与策略模型生成的复杂编辑分布不匹配。
PGRT 机制：在 RL 训练阶段，利用策略模型自身生成的编辑结果作为“弱”样本（ $I_w$ $I_{w}$ ），而不是使用预定义的扰动。
- 交替训练：策略模型（Policy）和奖励模型（Reward）交替优化。
- 分布对齐：奖励模型在训练时直接面对策略模型生成的真实分布数据，从而学会评估更复杂、更真实的编辑结果，显著提升了评估的准确性和鲁棒性。

2.4 数据构建

构建了包含 19 万条“指令 - 推理 - 编辑”对的大规模数据集。
数据来源于真实用户的编辑轨迹（Before-After 图像对及参数），并通过 MLLM 标注器补全了缺失的用户意图（Instruction）和推理过程（Reasoning）。

3. 主要贡献 (Key Contributions)

首个基于通用奖励模型的图像精修框架：RETOUCHIQ 是首个引入通用奖励模型（GRM）来解决图像精修主观性问题的框架。它超越了传统的基于参考图的验证奖励，提供了灵活、上下文感知的监督信号。
提出 PGRT 训练范式：创新性地提出了策略引导的奖励训练（PGRT），利用策略模型自身的数据分布来训练奖励模型，有效解决了合成数据与真实策略输出之间的分布偏移问题，显著提升了 RL 训练的稳定性。
卓越的性能表现：在语义一致性（Semantic Consistency）和感知质量（Perceptual Quality）上，RETOUCHIQ 均超越了现有的通用 MLLM、MLLM 智能体（如 JarvisArt）以及基于扩散模型（Diffusion-based）的编辑系统。

4. 实验结果 (Results)

作者在 RETOUCHEVAL（新构建的基准，包含质量增强、风格转换、局部精修三类任务）和 MIT-Adobe5K 数据集上进行了评估。

定量评估：
- 在 RETOUCHEVAL 基准上，RETOUCHIQ（特别是经过 GRM 和 PGRT 优化的版本）在 L1/L2 误差、感知质量（PQ）和语义一致性（SC）等指标上均取得了最佳或次佳成绩，显著优于 GPT-5、Gemini-2.5、Flux-Pro 等基线模型。
- 在 MIT-Adobe5K 上，RETOUCHIQ 在 PSNR、LPIPS 和 SSIM 指标上也表现优异，证明了其泛化能力。
定性分析：
- 语义对齐：相比通用 MLLM 容易过度编辑或参数配置不合理，RETOUCHIQ 能更准确地理解如“电影感”、“怀旧风”等抽象指令。
- 结构保持：相比扩散模型容易破坏原始图像结构和身份特征，RETOUCHIQ 基于参数化调整，完美保留了原图内容。
- 专业度：在夜景平衡、色调和谐等复杂场景下，其输出效果接近专业摄影师的修图水平。
消融实验：
- 图 5 显示，使用 PGRT 训练的奖励模型在评估策略模型生成的真实数据时，准确率最高。
- 使用 PGRT 训练的奖励模型指导下的策略模型，在最终任务表现上也优于仅使用扰动数据训练的模型。

5. 意义与影响 (Significance)

从“黑盒”到“白盒”的可控编辑：RETOUCHIQ 将图像编辑从扩散模型的“黑盒”生成转变为基于专业软件参数的“白盒”可控调整，提供了可解释的推理过程和精确的参数控制。
解决主观任务的 RL 训练难题：该工作为如何在缺乏明确地面真值的主观创造性任务中应用强化学习提供了新的范式，即通过“通用奖励模型”和“分布对齐”来构建高质量的反馈回路。
专业工具与 AI 的深度融合：展示了 MLLM 智能体如何作为桥梁，将自然语言指令转化为专业图像软件（如 Lightroom）的可执行操作，极大地降低了专业图像精修的门槛，同时保留了专业级的控制力。

综上所述，RETOUCHIQ 通过引入通用奖励模型和策略引导训练，成功克服了图像精修任务中主观性强、奖励信号难定义的瓶颈，实现了高质量、高一致性的指令驱动图像编辑。

RetouchIQ: MLLM Agents for Instruction-Based Image Retouching with Generalist Reward