MORCoRA: Multi-Objective Refactoring Recommendation Considering Review Availability

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 MORCoRA 的新工具，它的核心任务是帮程序员“整理代码”（重构），但加了一个非常人性化的新视角：不仅要代码变好，还要确保有人有空且有能力去审核这个改动。

我们可以把软件开发想象成经营一家繁忙的餐厅。

1. 背景：为什么需要“整理”？

想象一下，这家餐厅（软件项目）开了很久，后厨的菜单（代码）写得乱七八糟。有的菜名很怪，有的步骤重复，厨师（开发者）很难记住怎么操作。

重构（Refactoring） 就是请一位“整理大师”来重新排列菜单，让菜名更清晰、步骤更顺畅。
传统做法：以前的工具只关心“怎么把菜单整理得最漂亮、最科学”。
现实问题：但是，整理好的新菜单不能直接挂上去啊！必须得经过主厨（Reviewer） 审核签字。如果主厨太忙，或者根本看不懂这道新菜，那这个整理计划就会被搁置，甚至被直接扔掉。结果就是，餐厅的菜单依然乱糟糟，质量越来越差。

2. MORCoRA 的三大目标

MORCoRA 就像一个超级智能的餐厅顾问，它在推荐整理方案时，会同时考虑三个因素（就像三个天平）：

让菜更好吃（提升代码质量）：整理后的菜单必须更清晰、更易于维护。
别改错味道（保持语义连贯）：不能为了整齐把“红烧肉”改名叫“清蒸鱼”，虽然名字整齐了，但味道全变了，顾客会投诉。
确保有人能审核（审查可用性）：这是 MORCoRA 最创新的地方。它不仅要找整理方案，还要找合适的审核人。
- 懂行：审核人必须熟悉这道菜（代码模块）。
- 有空：审核人不能正在忙得焦头烂额（比如手里还有 10 个待审的 PR）。如果主厨太忙，再好的方案也过不了。

3. 它是如何工作的？（像寻宝游戏）

MORCoRA 使用了一种叫 NSGA-II 的算法，这就像是一个不知疲倦的寻宝机器人。

它在代码的迷宫里寻找成千上万种“整理方案”。
每找到一个方案，它就算一下：
- 这个方案能让代码质量提高多少？
- 这个方案会不会破坏原本的功能？
- 关键点：现在有哪些人既懂这个模块，又刚好手头没那么多活？
最后，它会给你一份“帕累托最优”清单：这些方案都是在三个目标之间取得了最佳平衡的。餐厅经理（项目负责人）可以从中挑一个最合适的。

4. 实验结果：真的有用吗？

研究人员在 6 个著名的开源项目（像 Mockito、Glide 等）上测试了这个工具。

对比旧工具：以前的工具只关注“怎么整理最好”，结果推荐了很多方案，但发现没人有空审核，或者审核的人根本不懂，导致方案被搁置。
MORCoRA 的表现：
- 它推荐的方案，有 433.8% 的可能性能找到合适的审核人！
- 虽然它推荐的方案在“理论上的完美程度”上可能比旧工具稍微低一点点（比如只提升了 75% 的质量），但因为真的有人能审核并执行，所以实际效果反而更好。
- 它成功避免了那种“虽然方案很完美，但主厨忙得没空看，最后烂在锅里”的情况。

5. 举个生动的例子

想象你在 GitHub 上提了一个修改建议（Pull Request）：

旧模式：你建议把“红烧肉”改成“东坡肉”。系统说：“这个改法能让菜单结构更完美！”于是它推荐给你。结果，负责审核的主厨 A 正在忙 10 个新菜，主厨 B 虽然有空但完全不懂这道菜。最后，你的建议被无限期推迟，甚至被忽略。
MORCoRA 模式：系统说：“虽然把‘红烧肉’改成‘东坡肉’很完美，但主厨 A 太忙了，主厨 B 不懂。不如我们换个方案，把‘红烧肉’改成‘梅菜扣肉’，这个改动虽然小一点，但主厨 C 既懂行又刚好有空，他马上就能审核通过！”
- 结果：你的改动真的被实施了，餐厅的菜单真的变好了。

总结

这篇论文告诉我们：在软件开发中，不仅要追求“技术上的完美”，还要考虑“人的因素”。

MORCoRA 就像是一个懂人情世故的管家，它明白：一个再完美的计划，如果找不到合适的人去执行，那也只是一张废纸。它通过平衡代码质量、功能安全和人力资源，确保推荐的每一个改动都能真正落地，让软件变得更好。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

背景：
基于搜索的软件工程（Search-Based Software Engineering, SBSE）中的重构推荐技术旨在通过搜索算法自动寻找优化代码质量的代码重构序列。现有的多目标优化方法通常关注两个核心目标：

提升代码质量（如可维护性、降低复杂度）。
保持语义一致性（确保重构不改变代码行为）。

核心问题：
在实际开发流程中，任何代码变更（包括重构）在应用前都必须经过代码审查（Code Review）。然而，现有的重构推荐工具往往忽略了“审查可用性（Review Availability）”这一关键因素，导致推荐的重构序列可能无法被及时审查或应用。具体挑战包括：

专家缺失：推荐的重构可能涉及开发者不熟悉的模块，缺乏具备相应专业知识的审查者。
工作负载过重：即使有专家，如果其当前工作负载过重（如正在处理多个 Pull Request 或 Issue），审查可能会被推迟甚至被忽略。
后果：如果推荐的重构无法通过审查，不仅无法落地，还可能导致软件质量衰减，且浪费了搜索和推荐资源。

目标：
提出一种新的多目标搜索技术，不仅能推荐能提升质量且语义正确的重构序列，还能确保这些序列具备高审查可用性（即能找到既懂代码又有空闲时间的合适审查者）。

2. 方法论 (Methodology)

作者提出了 MORCoRA，一种基于多目标进化算法（NSGA-II）的重构推荐框架。该方法将“审查可用性”作为第三个优化目标，与代码质量和语义一致性并列。

2.1 核心输入与处理流程

输入：目标源代码快照、Git 提交历史、GitHub 的 Pull Request (PR) 和 Issue 历史。
静态分析：使用 JxPlatform2 提取代码的抽象表示（类结构、方法签名）和调用图，用于评估代码质量和语义。
搜索算法：采用 NSGA-II（非支配排序遗传算法）在解空间中搜索帕累托最优解集（Pareto Fronts）。

2.2 三个优化目标 (Objectives)

目标 I：提升代码质量 (Improving Code Quality)
- 使用 QMOOD 模型（包含可复用性、灵活性、可理解性等 6 个属性）。
- 通过 11 个底层设计指标计算重构前后的质量增益（Qual）。
- 优化方向：最大化质量增益。
目标 II：保持语义一致性 (Preserving Semantic Coherence)
- 防止将方法移动到语义不相关的类中（例如将 Student 类的方法移到 Car 类）。
- 计算源类与目标类之间的词汇相似度 (VS) 和 依赖相似度 (DS)。
- 优化方向：最大化语义一致性得分（Sem）。
目标 III：具备高审查可用性 (Possessing High Review Availability)
- 这是本文的创新核心。定义为一个重构序列能被具备足够专业知识且工作负载较低的审查者及时审查。
- 专家度 (Expertise)：基于开发者对特定文件的提交频率和**时间新鲜度（Recency）**计算。近期高频提交的开发者被认为具有更高的专家度。
- 工作负载 (Workload)：基于开发者在特定时间段内参与的 PR 和 Issue 数量。
- 审查可用性得分 (RA)：计算公式为 $RA_R = \frac{1}{|R|} \sum_{d \in rev(R)} \sum_{f \in loc(R)} Exp(d, f)$ 。其中 $rev(R)$ 是满足“专家度>0 且工作负载 < 阈值”的审查者集合。
- 优化方向：最大化审查可用性得分（RA）。

2.3 解决方案表示与操作

解表示：一个重构序列被表示为向量，包含多个重构操作（如 Move Method, Pull Up Method 等）或空操作（Null）。
遗传操作：使用单点交叉（SBX）和变异操作来生成新的重构序列。

3. 主要贡献 (Key Contributions)

提出 MORCoRA 框架：首个将“审查可用性”作为显式优化目标的多目标重构推荐技术。
设计审查可用性指标：定义并量化了“审查可用性”，综合考虑了开发者的专业知识（基于提交历史）和当前工作负载（基于 PR/Issue 参与情况）。
广泛的实证评估：在 6 个高人气开源 Java 仓库（如 Mockito, Retrofit, Glide 等）上进行了实验。
算法对比分析：评估了 NSGA-II 与其他四种算法（SPEA2, IBEA, MOCell, 随机搜索）的性能，证明了 NSGA-II 在平衡三个目标上的优越性。
基线对比：与现有的不考虑审查可用性的技术（Ouni et al. [5]）进行对比，证明了引入该目标能显著提升推荐结果的实用性。

4. 实验结果 (Results)

研究团队提出了三个研究问题（RQs）并进行了验证：

RQ1：MORCoRA 能否推荐出有意义且可审查的高质量重构？
- 定量结果：在 60 个随机抽取的解中，58.3% 的解被人工评估为有意义、可审查且能消除至少一个代码异味（Code Smell）。
- 定性结果：案例研究表明，MORCoRA 能成功识别出具备相应专家且工作负载合适的审查者组合，避免了因无人审查而导致的重构失败。
RQ2：不同进化算法的表现如何？
- 结论：NSGA-II 表现最佳。它在所有仓库中平均优于其他算法 155.3%（在代码质量指标上）。
- SPEA2 表现次之，MOCell 优于随机搜索但不及前两者，IBEA 表现最差（甚至不如随机搜索）。
RQ3：MORCoRA 与现有技术相比有何优势？
- 审查可用性提升：与不考虑审查可用性的基线（RA-）相比，MORCoRA（RA+）推荐的可审查解比例平均提高了 3.27 倍（在部分仓库中高达 5.21 倍）。
- 权衡分析：虽然 RA+ 在代码质量（Qual）和语义一致性（Sem）上的得分略低于 RA-（分别低约 24.8% 和 33.0%），但其审查可用性（RA）得分提高了 433.8%。
- 实际意义：MORCoRA 成功避免了推荐那些虽然能提升质量但“无人可审”的重构序列，确保了推荐结果的可落地性。

5. 意义与结论 (Significance & Conclusion)

理论意义：

填补了基于搜索的重构推荐研究中忽视“人因”（审查者资源）的空白。
证明了在自动化软件工程中，必须将开发者的实际工作负载和专业知识纳入优化目标，否则推荐结果可能无法在实际开发流程中落地。

实践意义：

提高落地率：为开发团队提供的重构建议不仅技术上正确，而且在组织流程上是可行的，减少了因审查被拒或搁置导致的资源浪费。
辅助决策：帮助项目经理或技术负责人在有限的资源下，优先处理那些既有高价值又有合适审查者的重构任务。
未来方向：作者建议未来的研究应进一步考虑跨项目的开发者工作负载以及非编程类的工作负担，并计划进行更多的人工用户研究以验证工具的实际效果。

总结：
MORCoRA 通过引入“审查可用性”这一关键约束，将重构推荐从单纯的“代码优化”提升到了“可执行的工程实践”层面，显著提高了自动化重构工具在真实开源项目中的实用价值。