친구와 길고 복잡한 대화를 나누고 있다고 상상해 보세요. 당신은 먼저 "커피는 뜨겁다"는 데 동의하며 시작합니다. 두 번의 대화 뒤, 친구는 "커피는 차갑다"고 말하고, 그로부터 다섯 번의 대화 뒤에는 "커피는 고체 암석이다"라고 주장합니다.

만약 당신이 표준 AI 평가자였다면, 각 문장을 고립된 상태로만 살펴볼 것입니다. "커피는 차갑다"는 평범한 문장으로 들리고, "커피는 고체 암석이다"는 문법적으로 올바른 문장으로 들립니다. AI 는 친구가 정중하고 유창하다는 이유로 높은 점수를 줄 수 있지만, 그들이 스스로 모순되고 정신을 잃고 있다는 사실은 전혀 간과할 것입니다.

이것이 바로 SKG-Eval이 해결하는 문제입니다. SKG-Eval 은 AI 대화를 평가하는 새로운 방식으로, 맞춤법 검사기보다는 거대하고 진화하는 화이트보드를 가진 탐정과 같습니다.

다음은 간단한 개념으로 분해된 작동 방식입니다:

1. 문제: "망각증" 판사

현재의 AI 판사들 (다른 AI 를 평가하기 위해 초지능 AI 에게 질문하는 방식 등) 은 보통 한 문장씩만 살펴봅니다. 그들은 5 분 전에 일어난 모든 일을 잊어버리는 판사와 같습니다.

결함: AI 가 1 번째 턴에서 "나는 고양이를 사랑한다"고 말하고 10 번째 턴에서 "나는 고양이를 싫어한다"고 말한다면, 표준 판사는 10 번째 턴의 문법을 보느라 바빠서 이를 놓칠 수 있습니다.
결과: AI 시스템은 주제에서 벗어나거나, 규칙을 잊거나, 스스로 모순되더라도 처벌받지 않을 수 있습니다.

2. 해결책: "살아있는 화이트보드" (의미 지식 그래프)

SKG-Eval 은 단순히 텍스트를 읽는 것이 아니라, 대화 진행 중에 대화의 지도를 구축합니다. 이 지도를 교실의 거대하고 살아있는 화이트보드라고 생각하세요.

노드 (스티키 노트): AI 가 사람, 사물, 사실 (예: "커피", "대사", "아침 거르기") 을 언급할 때마다 스티키 노트에 적어 보드에 붙입니다.
엣지 (실): 이 노트들을 서로 연결하는 실로 묶어 관계를 보여줍니다 (예: "커피" $\rightarrow$ 뜨겁다 $\rightarrow$ "액체").
업데이트: 대화가 계속됨에 따라 AI 는 새로운 페이지를 시작하지 않고 같은 보드에 추가합니다. AI 가 "커피는 차갑다"고 말하려 하면, 시스템은 "커피"와 "뜨겁다"를 연결하는 실을 보고 즉시 충돌을 감지합니다.

3. 세 부분으로 구성된 점수표

SKG-Eval 은 모호한 한 가지 등급을 매기는 대신, AI 가 말하는 새로운 문장마다 세 가지 구체적인 사항을 확인합니다:

A. 질문을 답했나요? (지역적 관련성)
- 유사점: 내가 방금 한 말을 실제로 들었나요?
- 새로운 문장이 현재 프롬프트와 일치하는지 확인합니다. "날씨가 어때요?"라고 물었는데 AI 가 "나는 피자를 좋아해요"라고 말하면 이 점수는 떨어집니다.
B. 과거를 기억하고 있나요? (역사적 일관성)
- 유사점: 여전히 같은 주제에 대해 이야기하고 있나요, 아니면 딴길로 샀나요?
- 새로운 "스티키 노트"가 화이트보드 위의 이전 노트들과 연결되는지 확인합니다. 대화가 "커피"에 관한 것이었는데 갑자기 AI 가 "우주 로켓"에 대해 이야기하기 시작하면 (다리 없이), 점수가 떨어집니다.
C. 스스로 모순하고 있나요? (논리적 일관성)
- 유사점: "잡았다!" 순간입니다.
- 이것이 초능력입니다. 기하학적 모순 엔진을 사용합니다. 사실의 "형태"를 측정하는 로봇을 상상해 보세요. "커피는 뜨겁다"의 형태가 "커피는 차갑다"의 형태와 충돌하면 로봇이 이를 플래그합니다.
- 중요한 세부 사항: 시스템은 실수와 수정의 차이를 알고 있습니다. "커피를 차가운 것으로 변경해"라고 말하면, 시스템은 당신이 의도적으로 보드를 업데이트했음을 이해합니다. AI 가 당신의 지시에 따라 사실을 변경했다고 해서 처벌하지 않습니다.

4. "최근 기억" 보너스

시스템은 대화가 시간이 지남에 따라 변한다는 것을 알고 있습니다. 최근성 가중 추이를 사용합니다.

유사점: 학생의 성적표를 생각해보세요. 월요일에 A 를 받고, 화요일에 B 를 받고, 금요일에 F 를 받으면, 선생님은 F 에 더 관심을 가집니다. 이는 나빠지는 추세를 보여주기 때문입니다.
SKG-Eval 은 최근 턴에 더 큰 가중치를 두어 최종 점수를 계산하므로, 대화가 나아지고 있는지 서서히 무너지고 있는지 파악할 수 있습니다.

5. 이것이 중요한 이유 ("증명서")

표준 AI 판사가 "이것은 나쁘다"고 말할 때, 그것은 종종 블랙박스입니다. 왜 그런지 알 수 없습니다.
SKG-Eval 은 당신에게 모순 증명서를 제공합니다.

유사점: 단순히 "당신은 낙제했습니다"라고 말하는 대신, 다음과 같은 종이를 건네줍니다: "당신은 4 번째 턴에서 'X 는 Y 이다'라고 말했지만, 1 번째 턴에서 이미 'X 는 Z 이다'라고 확립했기 때문에 낙제했습니다. 이것이 이를 증명하는 화이트보드 위의 정확한 실입니다."

요약

SKG-Eval은 AI 평가자들이 "망각증" 환자가 되는 것을 막는 도구입니다. 대화를 사실과 관계의 구조화된 시각적 지도로 변환함으로써 다음을 포착할 수 있습니다:

모순 (상반된 말을 함).
이탈 (경고 없이 주제를 변경함).
망각 (이전에 설정된 규칙을 무시함).

이는 답을 추측하는 "마법의 블랙박스" AI 가 필요하지 않습니다. 대신, 신뢰하고 감사할 수 있는 점수를 생성하는 명확한 단계별 논리 시스템을 사용합니다. 숙제를 한 번 훑어보는 선생님과 학기 초부터의 노트와 작업을 대조하여 확인하는 선생님의 차이와 같습니다.

기술 요약: SKG-Eval

문제 정의

다중 턴 대화 시스템을 평가하는 것은 근본적인 도전과제를 제시합니다: 응답의 품질은 본질적으로 상태 의존적이며 시간적입니다. 응답이 국소적으로는 유창하고 관련성이 있어 보일지라도, 이전 약속과 모순되거나 사용자의 원래 의도에서 벗어나거나 설정된 제약을 조용히 잊어버리는 경우 전역적으로 실패할 수 있습니다. LLM-as-a-judge 프로토콜과 임베딩 기반 지표들을 포함한 기존 자동 평가 패러다임들은 대부분 평면적이거나 턴이 격리된 표현에 기반하여 작동합니다. 결과적으로, 이러한 방법들은 특히 대화가 몇 턴을 넘어설 때 모순, 주제 이탈, 개체 불일치와 같은 턴 간 실패 모드를 신뢰성 있게 탐지하는 데 어려움을 겪습니다. 또한, LLM 판정자는 비결정성, 긴 기록에 대한 신뢰할 수 없는 주의 패턴, 그리고 재구문화되거나 수치적 충돌에 대한 낮은 회수율로 고통받습니다.

방법론: SKG-Eval

저자들은 대화를 진화하는 **의미 지식 그래프 (Semantic Knowledge Graph, SKG)**로 모델링하는 준결정적이고 해석 가능한 평가 프레임워크인 SKG-Eval을 제안합니다. SKG-Eval 은 평면적인 텍스트 접두사에 대해 응답을 점수화하는 대신, 각 턴에서 개체, 관계, 대화적 약속의 구조화된 그래프를 점진적으로 업데이트합니다. 이 프레임워크는 세 가지 보완적 신호를 계산하여 융합하고 집계함으로써 세션 수준의 점수를 생성합니다.

1. 점진적 의미 지식 그래프 (SKG)

핵심 상태 표현은 매 턴 $t$ 에서 업데이트되는 방향성 다중 그래프 $G_t = (V_t, E_t)$ 입니다.

노드: 정규화된 레이블, 개체 유형 (예: PERSON, OBJECT), 임베딩, 중요도 점수를 포함한 속성을 가진 개체를 나타냅니다.
엣지: 관계, 속성, 의도, 속성 유형과 같은 타입화된 메타데이터를 가진 사실적 주장을 나타냅니다.
업데이트 메커니즘: 새로운 삼중항은 결정론적 LLM 호출을 통해 추출됩니다. 그래프는 고임베딩 유사성을 가진 노드를 병합하는 턴 간 중복 제거를 수행하고, 임베딩 근접성에 기반하여 새 노드와 기존 노드 간의 의미적 엣지를 추가합니다.

2. 세 가지 구성 요소 점수화

각 턴에서 세 가지 점수가 계산됩니다:

국소 관련성 ( $S^{\text{loc}}_t$ ): 현재 프롬프트와 선택적 참조와의 정렬을 측정합니다. "의미 삼각형 (Semantic Triangle)" 접근법을 사용하여 응답 문장과 프롬프트/참조 간의 최대 코사인 유사성을 계산하며, 짧은 응답이나 누락된 참조에 대한 적응형 처리를 포함합니다.
역사적 일관성 ( $S^{\text{cons}}_t$ ): 새로운 정보가 이전 상태와 어떻게 연결되는지 정량화합니다. 이는 다음을 결합합니다:
- 그래프 앵커 점수: 노드 중요도로 가중치를 부여하며, 새로운 노드가 사실적 엣지 (가장 강력함), 의미적 엣지를 통해 연결되는지, 아니면 이탈 (격리) 되었는지를 측정합니다.
- 세션 앵커: 그래프 단절이 구조적으로 예상되는 Q&A 세션에서 주제적 연속성을 포착하기 위해 현재 응답의 임베딩과 첫 턴의 임베딩 간의 유사성을 사용하는 백업 메커니즘입니다.
논리적 일관성 ( $S^{\text{log}}_t$ ): **기하학적 모순 엔진 (Geometric Contradiction Engine)**에 의해 계산되는 주요 혁신입니다. 이 엔진은 NLI 모델이나 추론을 위한 LLM 판정자에 의존하지 않고 불일치를 탐지합니다. 우선순위 캐스케이드 탐지기를 사용하여 현재 엣지를 과거 엣지와 비교합니다:
- 기호적 탐지기: 부정 반전, 반의어 관계, 수치 불일치에 대한 고정밀 검사.
- 기하학적 탐지기: 임베딩 유사성을 사용하여 배타적 개체 충돌과 의미적 이탈을 검사.
- 수정 인식 필터링: 사용자 승인된 수정 (예: "그것을 ...로 변경해") 을 명시적으로 식별하여 정당한 업데이트에 대한 패널티를 피하기 위해 모순 검사에서 제외합니다.

3. 융합 및 집계

영역 적응형 융합: 세 가지 점수는 응답 영역 (짧음, Q&A, 일반) 에 따라 가중치가 결정되는 가중 합을 통해 결합됩니다. 확인된 모순은 높은 관련성 점수에 의해 가려지지 않도록 하드 논리 게이트가 보장합니다.
세션 수준 집계: 최종 세션 점수 $S(D)$ 는 최근성 가중 회귀를 통해 도출됩니다. 이는 현재 품질 수준 (가중 평균) 과 시간적 추세 (기울기) 를 모두 포착하여 세션 길이와 무관하게 대화가 시간이 지남에 따라 저하되거나 개선되는지 여부를 점수가 반영하도록 보장합니다.

주요 기여

명시적 의미 기억을 통한 상태 의존적 대화 평가: 진화하는 SKG 에 대한 추론으로 평가를 공식화하여 턴 간 의존성과 장거리 일관성의 구조화된 분석을 가능하게 합니다.
기하학적 모순 엔진: 관계와 개체의 구조적 비교를 통해 불일치를 탐지하는 결정론적이고 수정 인식적인 프레임워크로, NLI 모델 없이 해석 가능한 모순 증명을 생성합니다.
그래프 앵커 기반 역사적 일관성: 주제적 연속성을 위한 세션 앵커 메커니즘으로 보완된 이전 상태에 대한 의미적 연결성을 평가하는 지표를 도입합니다.
강건한 국소 관련성: 프롬프트 정렬과 참조 커버리지를 고려하고 적응형 백업을 갖춘 삼각측량식 지표입니다.
영역 적응형 융합 및 추세 분석: 장거리 대화 전반에 걸친 품질 추세를 포착하는 동적 가중 전략과 최근성 가중 회귀 집계기입니다.
해석 가능성과 준결정성: LLM 판정자의 비결정성과 대조적으로, 고정된 입력에 대해 명시적인 감사 추적 (모순 증명, 의미 앵커) 과 결정론적 점수를 제공합니다.

실험 결과

저자들은 SKG-Eval 을 MT-Bench(단기) 와 MultiChallenge(장기) 에서 평가하여 ECoh, LLM-Eval, DeepEval, 다양한 GPT-4o 판정자 구성을 포함한 베이스라인과 비교했습니다.

인간 판단과의 정렬: SKG-Eval 은 두 벤치마크 모두에서 인간 평가 점수와 가장 높은 상관관계를 달성했습니다. 성장은 MultiChallenge에서 가장 두드러졌으며, SKG-Eval 은 세션 수준 점수에서 스피어만 상관관계 기준으로 기존 역사 인식 LLM 판정자 베이스라인보다 +0.13만큼 더 높은 성능을 보였습니다.
모순 탐지: 부정, 반의어, 수치 불일치, 이탈과 같은 특정 실패 모드를 대상으로 하는 통제된 진단 벤치마크 (SKG-PROBE) 에서 SKG-Eval 은 평균 F1 점수 **79.8%**를 달성하여 LLM 기반 판정자 (60.4%) 와 기타 베이스라인을 크게 능가했습니다. 수치 치환 및 반의어적 모순 탐지에서 우수한 회수율을 보여주었습니다.
길이 불변성: 베이스라인 평가기들은 세션 길이가 증가함에 따라 성능이 저하되는 반면, SKG-Eval 은 역사적 주장의 그래프 인덱싱 검색 덕분에 모든 길이 구간에서 안정적인 성능을 유지했습니다.
계산 효율성: SKG-Eval 은 LLM-as-a-judge 접근법보다 훨씬 저렴합니다 (1,000 턴당 약 $0.71 대$ 27.1) 그리고 완전히 재현 가능 (결정론적) 합니다. 반면 LLM 판정자는 디코딩 시드에 따라 변이가 발생합니다.

중요성과 주장

이 논문은 구조화된 표현을 통한 외부화된 상태 추적이 장기 대화 시스템을 위한 LLM 기반 평가자들이 사용하는 암묵적 추론에 대한 원칙적인 대안이라고 주장합니다.

격차 해소: SKG-Eval 은 사실적 약속의 명시적이고 타임스탬프가 찍힌 상태를 유지하며, 턴 간 모순을 결정론적이고 해석 가능하게 탐지하고, 길이 불변 방식으로 품질을 집계하는 평가자의 격차를 메웁니다.
해석 가능성: "블랙박스" 판정자와 달리, SKG-Eval 은 충돌하는 엣지, 탐지기 유형, 신뢰도를 명시적으로 식별하는 모순 증명을 생성하여 감사 가능한 평가와 데이터셋 선정을 가능하게 합니다.
확장성: 상태 추적을 점수화 메커니즘에서 분리함으로써, 이 프레임워크는 반복적인 LLM 프롬프팅이 계산적으로 불가능해지고 컨텍스트 창 제한에 취약해지는 긴 대화로 확장됩니다.
한계: 저자들은 이 프레임워크가 상류 의미 삼중항 추출의 품질에 의존하며, 외부 세계 지식이 필요한 심층적 실용적 모순보다는 명시적 의미 불일치에 주로 최적화되어 있음을 인정합니다.

결론적으로, 저자들은 SKG-Eval 이 특히 장거리 논리적 일관성이 중요한 시나리오에서 다중 턴 대화 시스템의 일관성과 일관성을 평가하기 위한 확장 가능하고 재현 가능하며 해석 가능한 방법을 제공한다고 주장합니다.

SKG-Eval: Stateful Evaluation of Multi-Turn Dialogue via Incremental Semantic Knowledge Graphs