想象一下，你正与一位朋友进行一场漫长而复杂的对话。你起初同意“咖啡是热的”。两回合后，你的朋友说：“咖啡是冷的”，再过了五回合，他们又声称：“咖啡是一块固体岩石”。

如果你是一个标准的 AI 评估器，它可能会孤立地审视每一句话。“咖啡是冷的”听起来像是一句正常的句子。“咖啡是一块固体岩石”在语法上也是正确的。AI 可能会因为你的朋友表现得礼貌且流畅而给出高分，却完全忽略了他们自相矛盾、甚至神志不清的事实。

这正是SKG-Eval所要解决的问题。它是一种评估 AI 对话的新方法，其作用更像是一位手持巨大且不断演进的白板的侦探，而非简单的拼写检查员。

以下是其工作原理，分解为几个简单的概念：

1. 问题所在：“健忘”的法官

当前的 AI 评估器（例如让一个超级智能的 AI 去给另一个 AI 打分）通常一次只审视一句话。它们就像一位忘记了五分钟前发生之事的法官。

缺陷：如果 AI 在第 1 回合说“我爱猫”，然后在第 10 回合说“我讨厌猫”，标准评估器可能会忽略这一点，因为它太忙于审视第 10 回合的语法了。
结果：AI 系统可能会偏离主题、忘记规则或自相矛盾，却不会受到惩罚。

2. 解决方案：“活体白板”（语义知识图谱）

SKG-Eval 不仅仅是阅读文本；它会在对话进行时构建一个对话的地图。将这张地图想象成教室里的一块巨大且活生生的白板。

节点（便利贴）：每当 AI 提到一个人、物体或事实（如“咖啡”、“新陈代谢”或“不吃早餐”）时，它都会将其写在便利贴上并贴在白板上。
边（连线）：它用线将这些便签连接起来，以展示它们之间的关系（例如，“咖啡” $\rightarrow$ 是热的 $\rightarrow$ “液体”）。
更新：随着对话继续，AI 不会开启新的一页；它是在同一块白板上进行添加。如果 AI 试图说“咖啡是冷的”，系统会看到连接“咖啡”与“热”的线，并立即发现冲突。

3. 三部分评分表

SKG-Eval 不会给出一个模糊的等级，而是针对 AI 说的每一句新话检查三个具体方面：

A. 你回答问题了吗？（局部相关性）
- 类比：你确实听到了我刚才问的问题吗？
- 它检查新句子是否与当前的提示相匹配。如果你问“天气怎么样？”，而 AI 回答“我喜欢披萨”，这项得分就会下降。
B. 你记得过去吗？（历史一致性）
- 类比：你还在谈论同一个话题，还是已经跑题了？
- 它检查新的“便利贴”是否与白板上的旧便签相连。如果对话原本是关于“咖啡”的，突然 AI 开始谈论“太空火箭”而没有过渡，得分就会下降。
C. 你在自相矛盾吗？（逻辑连贯性）
- 类比：“抓到了！”的时刻。
- 这是它的超能力。它使用几何矛盾引擎。想象一个机器人测量事实的“形状”。如果“咖啡是热的”的形状与“咖啡是冷的”的形状发生冲突，机器人就会发出警报。
- 关键细节：它能区分错误和修正。如果你说“把咖啡改成茶”，系统会理解你有意更新了白板。它不会因为 AI 遵循你的指令去改变事实而惩罚它。

4. “近期记忆”加分项

该系统知道对话会随时间变化。它使用近期加权趋势。

类比：想象学生的成绩单。如果他们在周一得了 A，周二得了 B，周五得了 F，老师会更在意那个 F，因为它显示了成绩变差的趋势。
SKG-Eval 通过更重地加权最近的回合来计算最终得分，从而判断对话是正在变好，还是在慢慢崩溃。

5. 为什么这很重要（“证书”）

当标准 AI 评估器说“这很糟糕”时，通常是个黑箱。你不知道原因。
SKG-Eval 会给你一张矛盾证书。

类比：它不仅仅是说“你不及格”，而是递给你一张纸，上面写着：“你不及格是因为在第 4 回合，你说'X 是 Y'，但在第 1 回合，你已经确立了'X 是 Z'。这是白板上证明这一点的确切连线。”

总结

SKG-Eval是一个阻止 AI 评估器变成“健忘者”的工具。通过将对话转化为事实和关系的结构化、可视化地图，它能够捕捉到：

矛盾（说相反的话）。
漂移（毫无预警地转换话题）。
遗忘（忽略之前设定的规则）。

它无需依赖一个“魔法黑箱”AI 来猜测答案。相反，它使用一个清晰、逐步的逻辑系统，生成一个你真正可以信任并审计的分数。这就像是一位只瞥了一眼你作业的老师和一位对照学期初笔记检查你作业的老师的区别。

技术摘要：SKG-Eval

问题陈述

评估多轮对话系统面临一个根本性挑战：响应质量本质上是状态依赖且具有时间性的。一个响应可能在局部上显得流畅且相关，但在整体上却因违背先前的承诺、偏离用户的原始意图或静默遗忘已建立的约束而失败。现有的自动评估范式，包括LLM 作为裁判（LLM-as-a-judge）协议和基于嵌入的指标，主要基于扁平化或单轮隔离的表示进行操作。因此，它们难以可靠地检测跨轮次的失败模式，如矛盾、主题漂移和实体不一致，尤其是在对话超过几轮之后。此外，LLM 裁判存在非确定性、在长历史中注意力模式不可靠以及对改写或数值冲突召回率低的问题。

方法论：SKG-Eval

作者提出了SKG-Eval，这是一个准确定且可解释的评估框架，将对话建模为不断演化的语义知识图谱（Semantic Knowledge Graph, SKG）。SKG-Eval 不是针对扁平文本前缀对响应进行评分，而是在每一轮迭代更新一个包含实体、关系和对话承诺的结构化图谱。该框架计算三个互补信号，将其融合并聚合以生成会话级分数。

1. 增量语义知识图谱（SKG）

核心状态表示是一个在每一轮 $t$ 更新的有向多重图 $G_t = (V_t, E_t)$ 。

节点：表示带有属性的实体，包括归一化标签、实体类型（例如 PERSON、OBJECT）、嵌入向量和重要性分数。
边：表示带有类型化元数据（关系、属性、意图、属性类型）的事实主张。
更新机制：新三元组通过确定性的 LLM 调用提取。图谱执行跨轮次去重（合并具有高嵌入相似度的节点），并基于嵌入邻近性在新节点与现有节点之间添加语义边。

2. 三组件评分

在每一轮，计算三个分数：

局部相关性（ $S^{\text{loc}}_t$ ）：衡量与当前提示及可选参考的对齐程度。它采用“语义三角”方法，计算响应句子与提示/参考之间的最大余弦相似度，并对短响应或缺失参考的情况进行自适应处理。
历史一致性（ $S^{\text{cons}}_t$ ）：量化新信息与先前状态的连接程度。它结合了：
- 图谱锚点分数：按节点重要性加权，衡量新节点是否通过事实边（最强）、语义边连接，或是发生漂移（孤立）。
- 会话锚点：一种回退机制，利用当前响应与第一轮嵌入的相似度，以捕捉问答会话中的主题连续性（在此类会话中，图谱断开在结构上是预期的）。
逻辑连贯性（ $S^{\text{log}}_t$ ）：主要创新点，由几何矛盾引擎计算。该引擎在不依赖 NLI 模型或 LLM 裁判进行推理的情况下检测不一致性。它使用优先级的检测器级联将当前边与历史边进行比较：
- 符号检测器：针对否定翻转、反义关系和数值不匹配的高精度检查。
- 几何检测器：利用嵌入相似度检查互斥对象冲突和语义漂移。
- 修订感知过滤：明确识别用户授权的修订（例如“将那个改为……"），并将其排除在矛盾检查之外，以避免对合法更新进行惩罚。

3. 融合与聚合

模式自适应融合：三个分数通过加权求和进行组合，权重取决于响应模式（短文本、问答或通用）。硬逻辑门确保已确认的矛盾不能被高相关性分数所掩盖。
会话级聚合：最终会话分数 $S(D)$ 通过近期加权回归得出。这既捕捉了当前质量水平（加权平均），也捕捉了时间趋势（斜率），确保分数反映对话是随时间恶化还是改善，且独立于会话长度。

主要贡献

通过显式语义记忆进行状态化对话评估：将评估 formulated 为对演化中 SKG 的推理，实现了对跨轮次依赖和长程一致性的结构化分析。
几何矛盾引擎：一个确定性的、修订感知的框架，通过对关系和对象的结构化比较来检测不一致性，在不使用 NLI 模型的情况下生成可解释的矛盾证书。
图谱锚定的历史一致性：引入了一种评估与先前状态语义连接性的指标，并通过会话锚定机制增强主题连续性。
鲁棒的局部相关性：一种三角化指标，联合考虑提示对齐和参考覆盖，并具备自适应回退机制。
模式自适应融合与趋势分析：一种动态加权策略和近期加权回归聚合器，能够捕捉长对话中的质量趋势。
可解释性与准确定性：提供明确的审计轨迹（矛盾证书、语义锚点）和给定固定输入下的确定性分数，与 LLM 裁判的非确定性形成对比。

实验结果

作者在MT-Bench（短视野）和MultiChallenge（长视野）上评估了 SKG-Eval，并将其与包括 ECoh、LLM-Eval、DeepEval 以及各种 GPT-4o 裁判配置在内的基线进行了比较。

与人类判断的对齐：SKG-Eval 在两个基准测试中均实现了与人类评分的最高相关性。在MultiChallenge上提升最为显著，SKG-Eval 在会话级分数的斯皮尔曼相关性上比最佳历史感知 LLM 裁判基线高出**+0.13**。
矛盾检测：在针对特定失败模式（否定、反义词、数值不匹配、漂移）的受控诊断基准（SKG-PROBE）上，SKG-Eval 的平均 F1 分数达到79.8%，显著优于基于 LLM 的裁判（60.4%）和其他基线。它在检测数值替换和反义矛盾方面表现出更优的召回率。
长度不变性：随着会话长度增加，基线评估器的性能下降，而 SKG-Eval 由于其基于图谱索引的历史主张检索，在所有长度区间内保持了稳定的性能。
计算效率：SKG-Eval 比 LLM 作为裁判的方法显著更便宜（1000 轮对话约为 0.71 美元对比 27.1 美元），并且完全可复现（确定性），而 LLM 裁判在不同解码种子下表现出方差。

意义与主张

该论文认为，通过结构化表示进行外部化状态跟踪是 LLM 评估器中用于长视野对话系统的隐式推理的一种原则性替代方案。

填补空白：SKG-Eval 填补了评估器的空白，该评估器能够维护事实承诺的显式、带时间戳的状态，确定性地且可解释地检测跨轮次矛盾，并以长度不变的方式聚合质量。
可解释性：与“黑盒”裁判不同，SKG-Eval 生成矛盾证书，明确识别冲突的边、检测器类型和置信度，从而实现可审计的评估和数据集策展。
可扩展性：通过将状态跟踪与评分机制解耦，该框架可扩展至长对话，避免了重复 LLM 提示带来的计算不可行性和上下文窗口限制问题。
局限性：作者承认，该框架依赖于上游语义三元组提取的质量，并且主要针对显式语义不一致进行优化，而非需要外部世界知识的深层语用矛盾。

总之，作者提出 SKG-Eval 提供了一种可扩展、可复现且可解释的方法，用于评估多轮对话系统的一致性和连贯性，特别是在长程逻辑一致性至关重要的场景中。

SKG-Eval: Stateful Evaluation of Multi-Turn Dialogue via Incremental Semantic Knowledge Graphs