SKG-Eval: Stateful Evaluation of Multi-Turn Dialogue via Incremental Semantic Knowledge Graphs

SKG-Eval 은 기존 평면적 또는 턴 단위로 분리된 지표들보다 인간 평가와의 상관관계가 더 높은, 구조화된 상태 추적을 통해 장기적 불일치와 모순을 탐지하기 위해 점진적으로 의미 지식 그래프를 구성함으로써 다턴 대화 시스템을 평가하는 새로운 해석 가능한 프레임워크입니다.

원저자: Avijit Shil, Suman Samui

게시일 2026-05-19✓ Author reviewed
📖 4 분 읽기☕ 가벼운 읽기

원저자: Avijit Shil, Suman Samui

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

친구와 길고 복잡한 대화를 나누고 있다고 상상해 보세요. 당신은 먼저 "커피는 뜨겁다"는 데 동의하며 시작합니다. 두 번의 대화 뒤, 친구는 "커피는 차갑다"고 말하고, 그로부터 다섯 번의 대화 뒤에는 "커피는 고체 암석이다"라고 주장합니다.

만약 당신이 표준 AI 평가자였다면, 각 문장을 고립된 상태로만 살펴볼 것입니다. "커피는 차갑다"는 평범한 문장으로 들리고, "커피는 고체 암석이다"는 문법적으로 올바른 문장으로 들립니다. AI 는 친구가 정중하고 유창하다는 이유로 높은 점수를 줄 수 있지만, 그들이 스스로 모순되고 정신을 잃고 있다는 사실은 전혀 간과할 것입니다.

이것이 바로 SKG-Eval이 해결하는 문제입니다. SKG-Eval 은 AI 대화를 평가하는 새로운 방식으로, 맞춤법 검사기보다는 거대하고 진화하는 화이트보드를 가진 탐정과 같습니다.

다음은 간단한 개념으로 분해된 작동 방식입니다:

1. 문제: "망각증" 판사

현재의 AI 판사들 (다른 AI 를 평가하기 위해 초지능 AI 에게 질문하는 방식 등) 은 보통 한 문장씩만 살펴봅니다. 그들은 5 분 전에 일어난 모든 일을 잊어버리는 판사와 같습니다.

  • 결함: AI 가 1 번째 턴에서 "나는 고양이를 사랑한다"고 말하고 10 번째 턴에서 "나는 고양이를 싫어한다"고 말한다면, 표준 판사는 10 번째 턴의 문법을 보느라 바빠서 이를 놓칠 수 있습니다.
  • 결과: AI 시스템은 주제에서 벗어나거나, 규칙을 잊거나, 스스로 모순되더라도 처벌받지 않을 수 있습니다.

2. 해결책: "살아있는 화이트보드" (의미 지식 그래프)

SKG-Eval 은 단순히 텍스트를 읽는 것이 아니라, 대화 진행 중에 대화의 지도를 구축합니다. 이 지도를 교실의 거대하고 살아있는 화이트보드라고 생각하세요.

  • 노드 (스티키 노트): AI 가 사람, 사물, 사실 (예: "커피", "대사", "아침 거르기") 을 언급할 때마다 스티키 노트에 적어 보드에 붙입니다.
  • 엣지 (실): 이 노트들을 서로 연결하는 실로 묶어 관계를 보여줍니다 (예: "커피" \rightarrow 뜨겁다 \rightarrow "액체").
  • 업데이트: 대화가 계속됨에 따라 AI 는 새로운 페이지를 시작하지 않고 같은 보드에 추가합니다. AI 가 "커피는 차갑다"고 말하려 하면, 시스템은 "커피"와 "뜨겁다"를 연결하는 실을 보고 즉시 충돌을 감지합니다.

3. 세 부분으로 구성된 점수표

SKG-Eval 은 모호한 한 가지 등급을 매기는 대신, AI 가 말하는 새로운 문장마다 세 가지 구체적인 사항을 확인합니다:

  • A. 질문을 답했나요? (지역적 관련성)

    • 유사점: 내가 방금 한 말을 실제로 들었나요?
    • 새로운 문장이 현재 프롬프트와 일치하는지 확인합니다. "날씨가 어때요?"라고 물었는데 AI 가 "나는 피자를 좋아해요"라고 말하면 이 점수는 떨어집니다.
  • B. 과거를 기억하고 있나요? (역사적 일관성)

    • 유사점: 여전히 같은 주제에 대해 이야기하고 있나요, 아니면 딴길로 샀나요?
    • 새로운 "스티키 노트"가 화이트보드 위의 이전 노트들과 연결되는지 확인합니다. 대화가 "커피"에 관한 것이었는데 갑자기 AI 가 "우주 로켓"에 대해 이야기하기 시작하면 (다리 없이), 점수가 떨어집니다.
  • C. 스스로 모순하고 있나요? (논리적 일관성)

    • 유사점: "잡았다!" 순간입니다.
    • 이것이 초능력입니다. 기하학적 모순 엔진을 사용합니다. 사실의 "형태"를 측정하는 로봇을 상상해 보세요. "커피는 뜨겁다"의 형태가 "커피는 차갑다"의 형태와 충돌하면 로봇이 이를 플래그합니다.
    • 중요한 세부 사항: 시스템은 실수수정의 차이를 알고 있습니다. "커피를 차가운 것으로 변경해"라고 말하면, 시스템은 당신이 의도적으로 보드를 업데이트했음을 이해합니다. AI 가 당신의 지시에 따라 사실을 변경했다고 해서 처벌하지 않습니다.

4. "최근 기억" 보너스

시스템은 대화가 시간이 지남에 따라 변한다는 것을 알고 있습니다. 최근성 가중 추이를 사용합니다.

  • 유사점: 학생의 성적표를 생각해보세요. 월요일에 A 를 받고, 화요일에 B 를 받고, 금요일에 F 를 받으면, 선생님은 F 에 더 관심을 가집니다. 이는 나빠지는 추세를 보여주기 때문입니다.
  • SKG-Eval 은 최근 턴에 더 큰 가중치를 두어 최종 점수를 계산하므로, 대화가 나아지고 있는지 서서히 무너지고 있는지 파악할 수 있습니다.

5. 이것이 중요한 이유 ("증명서")

표준 AI 판사가 "이것은 나쁘다"고 말할 때, 그것은 종종 블랙박스입니다. 왜 그런지 알 수 없습니다.
SKG-Eval 은 당신에게 모순 증명서를 제공합니다.

  • 유사점: 단순히 "당신은 낙제했습니다"라고 말하는 대신, 다음과 같은 종이를 건네줍니다: "당신은 4 번째 턴에서 'X 는 Y 이다'라고 말했지만, 1 번째 턴에서 이미 'X 는 Z 이다'라고 확립했기 때문에 낙제했습니다. 이것이 이를 증명하는 화이트보드 위의 정확한 실입니다."

요약

SKG-Eval은 AI 평가자들이 "망각증" 환자가 되는 것을 막는 도구입니다. 대화를 사실과 관계의 구조화된 시각적 지도로 변환함으로써 다음을 포착할 수 있습니다:

  1. 모순 (상반된 말을 함).
  2. 이탈 (경고 없이 주제를 변경함).
  3. 망각 (이전에 설정된 규칙을 무시함).

이는 답을 추측하는 "마법의 블랙박스" AI 가 필요하지 않습니다. 대신, 신뢰하고 감사할 수 있는 점수를 생성하는 명확한 단계별 논리 시스템을 사용합니다. 숙제를 한 번 훑어보는 선생님과 학기 초부터의 노트와 작업을 대조하여 확인하는 선생님의 차이와 같습니다.

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →