SKG-Eval: Stateful Evaluation of Multi-Turn Dialogue via Incremental Semantic Knowledge Graphs

SKG-Eval é um novo framework interpretável que avalia sistemas de diálogo multi-turno construindo incrementalmente um Grafo de Conhecimento Semântico para detectar inconsistências e contradições de longo alcance por meio de rastreamento estruturado de estados, alcançando uma correlação mais alta com julgamentos humanos do que métricas existentes planas ou isoladas por turno.

Autores originais: Avijit Shil, Suman Samui

Publicado 2026-05-19✓ Author reviewed
📖 5 min de leitura🧠 Leitura aprofundada

Autores originais: Avijit Shil, Suman Samui

Artigo original sob licença CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Esta é uma explicação gerada por IA do artigo abaixo. Não foi escrita pelos autores. Para precisão técnica, consulte o artigo original. Ler aviso legal completo

Imagine que você está sentado em uma conversa longa e complexa com um amigo. Você começa concordando que "café é quente". Dois turnos depois, seu amigo diz: "Café é frio", e cinco turnos após isso, ele afirma: "Café é uma rocha sólida".

Se você fosse um avaliador de IA padrão, ele poderia analisar cada frase isoladamente. "Café é frio" soa como uma frase normal. "Café é uma rocha sólida" soa gramaticalmente correta. A IA poderia dar ao seu amigo uma nota alta por ser educado e fluente, perdendo completamente o fato de que ele está se contradizendo e perdendo a cabeça.

Este é o problema que o SKG-Eval resolve. É uma nova maneira de avaliar conversas de IA que age menos como um corretor ortográfico e mais como um detetive com um quadro branco gigante e em evolução.

Veja como funciona, dividido em conceitos simples:

1. O Problema: O Juiz "Amnésico"

Os juízes de IA atuais (como pedir a uma IA superinteligente que avalie outra IA) geralmente olham uma frase de cada vez. Eles são como um juiz que esquece tudo o que aconteceu há cinco minutos.

  • A Falha: Se uma IA diz "Eu amo gatos" no Turno 1 e depois "Eu odeio gatos" no Turno 10, um juiz padrão pode não perceber porque está muito ocupado olhando para a gramática do Turno 10.
  • O Resultado: Sistemas de IA podem se desviar do tema, esquecer regras ou se contradizer sem serem penalizados.

2. A Solução: O "Quadro Branco Vivo" (Grafo de Conhecimento Semântico)

O SKG-Eval não apenas lê o texto; ele constrói um mapa da conversa conforme ela acontece. Pense neste mapa como um quadro branco gigante e vivo em uma sala de aula.

  • Os Nós (Post-its): Toda vez que a IA menciona uma pessoa, objeto ou fato (como "café", "metabolismo" ou "pular o café da manhã"), ela escreve em um post-it e o coloca no quadro.
  • As Arestas (Fio): Ela amarra esses papéis com fio para mostrar como se relacionam (ex: "Café" \rightarrow é quente \rightarrow "Líquido").
  • A Atualização: À medida que a conversa continua, a IA não começa uma nova página; ela adiciona ao mesmo quadro. Se a IA tentar dizer "Café é frio", o sistema vê o fio conectando "Café" a "Quente" e imediatamente detecta o conflito.

3. A Ficha de Avaliação de Três Partes

Em vez de dar uma nota vaga, o SKG-Eval verifica três coisas específicas para cada nova frase que a IA diz:

  • A. Você respondeu à pergunta? (Relevância Local)

    • Analogia: Você realmente ouviu o que acabei de perguntar?
    • Verifica se a nova frase corresponde ao prompt atual. Se você perguntou "Qual é o clima?" e a IA diz "Eu gosto de pizza", essa nota cai.
  • B. Você está lembrando do passado? (Consistência Histórica)

    • Analogia: Você ainda está falando sobre o mesmo tópico ou se desviou?
    • Verifica se os novos "post-its" se conectam aos antigos no quadro branco. Se a conversa era sobre "café" e, de repente, a IA começa a falar sobre "foguetes espaciais" sem uma ponte, a nota cai.
  • C. Você está se contradizendo? (Coerência Lógica)

    • Analogia: O momento "Pegadinha!".
    • Este é o superpoder. Ele usa um Motor de Contradição Geométrica. Imagine um robô que mede a "forma" dos fatos. Se a forma de "Café é quente" colidir com a forma de "Café é frio", o robô sinaliza.
    • Detalhe Crucial: Ele sabe a diferença entre um erro e uma correção. Se você disser "Mude o café para chá", o sistema entende que você intencionalmente atualizou o quadro. Ele não pune a IA por seguir sua ordem de alterar os fatos.

4. O Bônus da "Memória Recente"

O sistema sabe que as conversas mudam ao longo do tempo. Ele usa uma Tendência Ponderada por Recência.

  • Analogia: Pense no boletim de um aluno. Se ele tirar A na segunda-feira, B na terça-feira e F na sexta-feira, o professor se preocupa mais com o F porque isso mostra uma tendência de piora.
  • O SKG-Eval calcula a nota final ponderando os turnos mais recentes com mais peso, para que possa dizer se uma conversa está melhorando ou lentamente desmoronando.

5. Por Que Isso Importa (O "Certificado")

Quando um juiz de IA padrão diz "Isso é ruim", muitas vezes é uma caixa preta. Você não sabe o porquê.
O SKG-Eval fornece um Certificado de Contradição.

  • Analogia: Em vez de apenas dizer "Você reprovou", ele entrega um papel que diz: "Você reprovou porque no Turno 4, você disse 'X é Y', mas no Turno 1, você já havia estabelecido 'X é Z'. Aqui está o fio exato no quadro branco que prova isso."

Resumo

O SKG-Eval é uma ferramenta que impede que avaliadores de IA sejam "amnésticos". Ao transformar conversas em um mapa estruturado e visual de fatos e relacionamentos, ele consegue detectar:

  1. Contradições (Dizer coisas opostas).
  2. Desvios (Mudar de assunto sem aviso).
  3. Esquecimento (Ignorar regras estabelecidas anteriormente).

Ele faz isso sem precisar de uma IA "caixa preta mágica" para adivinhar a resposta. Em vez disso, usa um sistema de lógica claro e passo a passo que produz uma nota da qual você pode realmente confiar e auditar. É a diferença entre um professor que apenas lança um olhar rápido para sua lição de casa e um que verifica seu trabalho contra suas anotações desde o início do semestre.

Afogado em artigos na sua área?

Receba digests diários dos artigos mais recentes que correspondam às suas palavras-chave de pesquisa — com resumos técnicos, no seu idioma.

Experimentar Digest →