Imagine que você está sentado em uma conversa longa e complexa com um amigo. Você começa concordando que "café é quente". Dois turnos depois, seu amigo diz: "Café é frio", e cinco turnos após isso, ele afirma: "Café é uma rocha sólida".

Se você fosse um avaliador de IA padrão, ele poderia analisar cada frase isoladamente. "Café é frio" soa como uma frase normal. "Café é uma rocha sólida" soa gramaticalmente correta. A IA poderia dar ao seu amigo uma nota alta por ser educado e fluente, perdendo completamente o fato de que ele está se contradizendo e perdendo a cabeça.

Este é o problema que o SKG-Eval resolve. É uma nova maneira de avaliar conversas de IA que age menos como um corretor ortográfico e mais como um detetive com um quadro branco gigante e em evolução.

Veja como funciona, dividido em conceitos simples:

1. O Problema: O Juiz "Amnésico"

Os juízes de IA atuais (como pedir a uma IA superinteligente que avalie outra IA) geralmente olham uma frase de cada vez. Eles são como um juiz que esquece tudo o que aconteceu há cinco minutos.

A Falha: Se uma IA diz "Eu amo gatos" no Turno 1 e depois "Eu odeio gatos" no Turno 10, um juiz padrão pode não perceber porque está muito ocupado olhando para a gramática do Turno 10.
O Resultado: Sistemas de IA podem se desviar do tema, esquecer regras ou se contradizer sem serem penalizados.

2. A Solução: O "Quadro Branco Vivo" (Grafo de Conhecimento Semântico)

O SKG-Eval não apenas lê o texto; ele constrói um mapa da conversa conforme ela acontece. Pense neste mapa como um quadro branco gigante e vivo em uma sala de aula.

Os Nós (Post-its): Toda vez que a IA menciona uma pessoa, objeto ou fato (como "café", "metabolismo" ou "pular o café da manhã"), ela escreve em um post-it e o coloca no quadro.
As Arestas (Fio): Ela amarra esses papéis com fio para mostrar como se relacionam (ex: "Café" $\rightarrow$ é quente $\rightarrow$ "Líquido").
A Atualização: À medida que a conversa continua, a IA não começa uma nova página; ela adiciona ao mesmo quadro. Se a IA tentar dizer "Café é frio", o sistema vê o fio conectando "Café" a "Quente" e imediatamente detecta o conflito.

3. A Ficha de Avaliação de Três Partes

Em vez de dar uma nota vaga, o SKG-Eval verifica três coisas específicas para cada nova frase que a IA diz:

A. Você respondeu à pergunta? (Relevância Local)
- Analogia: Você realmente ouviu o que acabei de perguntar?
- Verifica se a nova frase corresponde ao prompt atual. Se você perguntou "Qual é o clima?" e a IA diz "Eu gosto de pizza", essa nota cai.
B. Você está lembrando do passado? (Consistência Histórica)
- Analogia: Você ainda está falando sobre o mesmo tópico ou se desviou?
- Verifica se os novos "post-its" se conectam aos antigos no quadro branco. Se a conversa era sobre "café" e, de repente, a IA começa a falar sobre "foguetes espaciais" sem uma ponte, a nota cai.
C. Você está se contradizendo? (Coerência Lógica)
- Analogia: O momento "Pegadinha!".
- Este é o superpoder. Ele usa um Motor de Contradição Geométrica. Imagine um robô que mede a "forma" dos fatos. Se a forma de "Café é quente" colidir com a forma de "Café é frio", o robô sinaliza.
- Detalhe Crucial: Ele sabe a diferença entre um erro e uma correção. Se você disser "Mude o café para chá", o sistema entende que você intencionalmente atualizou o quadro. Ele não pune a IA por seguir sua ordem de alterar os fatos.

4. O Bônus da "Memória Recente"

O sistema sabe que as conversas mudam ao longo do tempo. Ele usa uma Tendência Ponderada por Recência.

Analogia: Pense no boletim de um aluno. Se ele tirar A na segunda-feira, B na terça-feira e F na sexta-feira, o professor se preocupa mais com o F porque isso mostra uma tendência de piora.
O SKG-Eval calcula a nota final ponderando os turnos mais recentes com mais peso, para que possa dizer se uma conversa está melhorando ou lentamente desmoronando.

5. Por Que Isso Importa (O "Certificado")

Quando um juiz de IA padrão diz "Isso é ruim", muitas vezes é uma caixa preta. Você não sabe o porquê.
O SKG-Eval fornece um Certificado de Contradição.

Analogia: Em vez de apenas dizer "Você reprovou", ele entrega um papel que diz: "Você reprovou porque no Turno 4, você disse 'X é Y', mas no Turno 1, você já havia estabelecido 'X é Z'. Aqui está o fio exato no quadro branco que prova isso."

Resumo

O SKG-Eval é uma ferramenta que impede que avaliadores de IA sejam "amnésticos". Ao transformar conversas em um mapa estruturado e visual de fatos e relacionamentos, ele consegue detectar:

Contradições (Dizer coisas opostas).
Desvios (Mudar de assunto sem aviso).
Esquecimento (Ignorar regras estabelecidas anteriormente).

Ele faz isso sem precisar de uma IA "caixa preta mágica" para adivinhar a resposta. Em vez disso, usa um sistema de lógica claro e passo a passo que produz uma nota da qual você pode realmente confiar e auditar. É a diferença entre um professor que apenas lança um olhar rápido para sua lição de casa e um que verifica seu trabalho contra suas anotações desde o início do semestre.

Resumo Técnico: SKG-Eval

Declaração do Problema

A avaliação de sistemas de diálogo multi-turno apresenta um desafio fundamental: a qualidade da resposta é intrinsecamente dependente de estado e temporal. Uma resposta pode parecer localmente fluente e relevante, mas falhar globalmente ao contradizer compromissos anteriores, desviar-se da intenção original do usuário ou esquecer silenciosamente restrições estabelecidas. Paradigmas de avaliação automática existentes, incluindo protocolos de LLM como juiz e métricas baseadas em embeddings, operam majoritariamente sobre representações planas ou isoladas por turno. Consequentemente, eles lutam para detectar de forma confiável modos de falha entre turnos, como contradição, desvio de tópico e inconsistência de entidades, particularmente à medida que as conversas se estendem além de alguns turnos. Além disso, juízes LLM sofrem de não-determinismo, padrões de atenção pouco confiáveis sobre históricos longos e baixa recuperação para conflitos parafraseados ou numéricos.

Metodologia: SKG-Eval

Os autores propõem o SKG-Eval, um framework de avaliação quase determinístico e interpretável que modela o diálogo como um Grafo de Conhecimento Semântico (SKG) em evolução. Em vez de pontuar uma resposta contra um prefixo de texto plano, o SKG-Eval atualiza incrementalmente um grafo estruturado de entidades, relações e compromissos conversacionais a cada turno. O framework computa três sinais complementares que são fundidos e agregados para produzir uma pontuação ao nível da sessão.

1. Grafo de Conhecimento Semântico Incremental (SKG)

A representação de estado central é um multigrafo direcionado $G_t = (V_t, E_t)$ atualizado a cada turno $t$ .

Nós: Representam entidades com atributos incluindo rótulos normalizados, tipos de entidade (ex: PESSOA, OBJETO), embeddings e pontuações de importância.
Arestas: Representam afirmações factuais com metadados tipificados (relação, atributo, intenção, tipo de propriedade).
Mecanismo de Atualização: Novas tripletas são extraídas via uma chamada determinística a um LLM. O grafo realiza deduplicação entre turnos (mesclando nós com alta similaridade de embedding) e adiciona arestas semânticas entre nós novos e existentes com base na proximidade de embeddings.

2. Pontuação de Três Componentes

A cada turno, três pontuações são computadas:

Relevância Local ( $S^{\text{loc}}_t$ ): Mede o alinhamento com o prompt atual e a referência opcional. Utiliza uma abordagem de "Triângulo Semântico", calculando a máxima similaridade de cosseno entre as frases da resposta e o prompt/referência, com tratamento adaptativo para respostas curtas ou referências ausentes.
Consistência Histórica ( $S^{\text{cons}}_t$ ): Quantifica como novas informações se conectam ao estado anterior. Combina:
- Pontuação de Âncora do Grafo: Ponderada pela importância do nó, medindo se novos nós se conectam via arestas factuais (mais forte), arestas semânticas, ou se estão desviados (isolados).
- Âncora de Sessão: Um mecanismo de fallback usando a similaridade da resposta atual com o embedding do primeiro turno para capturar continuidade temática em sessões de Perguntas e Respostas onde a desconexão do grafo é estruturalmente esperada.
Coerência Lógica ( $S^{\text{log}}_t$ ): A inovação principal, computada por um Motor de Contradição Geométrica. Este motor detecta inconsistências sem depender de modelos NLI ou juízes LLM para raciocínio. Compara arestas atuais contra arestas históricas usando uma cascata priorizada de detectores:
- Detectores Simbólicos: Verificações de alta precisão para inversões de negação, relações antônimas e incompatibilidades numéricas.
- Detectores Geométricos: Verificações para conflitos de objeto exclusivo e desvio semântico usando similaridades de embeddings.
- Filtragem Consciente de Revisão: Identifica explicitamente revisões autorizadas pelo usuário (ex: "mude isso para...") e as exclui das verificações de contradição para evitar penalizar atualizações legítimas.

3. Fusão e Agregação

Fusão Adaptativa ao Regime: As três pontuações são combinadas via uma soma ponderada onde os pesos dependem do regime de resposta (Curto, Perguntas e Respostas, ou Geral). Portas lógicas rígidas garantem que contradições confirmadas não possam ser mascaradas por pontuações de alta relevância.
Agregação ao Nível de Sessão: A pontuação final da sessão $S(D)$ é derivada via uma regressão ponderada pela recência. Isso captura tanto o nível de qualidade atual (média ponderada) quanto a tendência temporal (inclinação), garantindo que a pontuação reflita se a conversa está degradando ou melhorando ao longo do tempo, independentemente do comprimento da sessão.

Contribuições Principais

Avaliação de Diálogo com Estado via Memória Semântica Explícita: Formula a avaliação como raciocínio sobre um SKG em evolução, permitindo análise estruturada de dependências entre turnos e consistência de longo alcance.
Motor de Contradição Geométrica: Um framework determinístico e consciente de revisões para detectar inconsistências através da comparação estruturada de relações e objetos, produzindo certificados de contradição interpretáveis sem modelos NLI.
Consistência Histórica Ancorada em Grafos: Introduz uma métrica que avalia a conectividade semântica com estados anteriores, aumentada por um mecanismo de âncora de sessão para continuidade temática.
Relevância Local Robusta: Uma métrica triangulada que considera conjuntamente o alinhamento com o prompt e a cobertura de referência com fallbacks adaptativos.
Fusão Adaptativa ao Regime e Análise de Tendência: Uma estratégia de ponderação dinâmica e um agregador de regressão ponderada pela recência que captura tendências de qualidade em conversas longas.
Interpretabilidade e Quase-Determinismo: Fornece trilhas de auditoria explícitas (certificados de contradição, âncoras semânticas) e pontuações determinísticas dadas entradas fixas, contrastando com o não-determinismo de juízes LLM.

Resultados Experimentais

Os autores avaliaram o SKG-Eval no MT-Bench (horizonte curto) e no MultiChallenge (horizonte longo), comparando-o com baselines incluindo ECoh, LLM-Eval, DeepEval e várias configurações de Juiz GPT-4o.

Alinhamento com Julgamentos Humanos: O SKG-Eval alcançou a maior correlação com classificações humanas em ambos os benchmarks. Os ganhos foram mais significativos no MultiChallenge, onde o SKG-Eval superou a melhor baseline de juiz LLM consciente de histórico em +0,13 na correlação de Spearman para pontuações ao nível da sessão.
Detecção de Contradição: Em um benchmark diagnóstico controlado (SKG-PROBE) visando modos de falha específicos (negação, antônimos, incompatibilidade numérica, desvio), o SKG-Eval alcançou um F1 médio de 79,8%, superando significativamente juízes baseados em LLM (60,4%) e outras baselines. Demonstrou recuperação superior na detecção de substituições numéricas e contradições antônimas.
Invariância de Comprimento: Enquanto avaliadores de baseline degradavam-se à medida que o comprimento da sessão aumentava, o SKG-Eval manteve desempenho estável em todas as faixas de comprimento devido à sua recuperação indexada por grafo de afirmações históricas.
Eficiência Computacional: O SKG-Eval é significativamente mais barato que abordagens de LLM como juiz (aproximadamente $0,71 vs $27,1 para 1.000 turnos) e é totalmente reproduzível (determinístico), enquanto juízes LLM exibem variância entre sementes de decodificação.

Significado e Alegações

O artigo argumenta que o rastreamento de estado externalizado via representações estruturadas é uma alternativa principiante ao raciocínio implícito usado em avaliadores baseados em LLM para sistemas de diálogo de longo horizonte.

Preenchendo a Lacuna: O SKG-Eval preenche a lacuna de um avaliador que mantém um estado explícito e carimbado no tempo de compromissos factuais, detecta contradições entre turnos de forma determinística e interpretável, e agrega qualidade de maneira invariante ao comprimento.
Interpretabilidade: Diferentemente de juízes "caixa preta", o SKG-Eval produz certificados de contradição que identificam explicitamente as arestas conflitantes, o tipo de detector e a confiança, permitindo avaliação auditável e curadoria de conjuntos de dados.
Escalabilidade: Ao desacoplar o rastreamento de estado do mecanismo de pontuação, o framework escala para conversas longas onde o prompt repetido de LLM se torna computacionalmente proibitivo e propenso a limitações de janela de contexto.
Limitações: Os autores reconhecem que o framework depende da qualidade da extração de tripletas semânticas a montante e é otimizado principalmente para inconsistência semântica explícita, em vez de contradições pragmáticas profundas que exigem conhecimento de mundo externo.

Em conclusão, os autores postulam que o SKG-Eval oferece um método escalável, reproduzível e interpretável para avaliar a consistência e coerência de sistemas de diálogo multi-turno, particularmente em cenários onde a consistência lógica de longo alcance é crítica.

SKG-Eval: Stateful Evaluation of Multi-Turn Dialogue via Incremental Semantic Knowledge Graphs