SKG-Eval: Stateful Evaluation of Multi-Turn Dialogue via Incremental Semantic Knowledge Graphs

SKG-Eval est un cadre novateur et interprétable qui évalue les systèmes de dialogue multi-tours en construisant progressivement un graphe de connaissances sémantique pour détecter les incohérences et les contradictions à longue portée grâce à un suivi structuré de l'état, atteignant une corrélation plus élevée avec les jugements humains que les métriques plates ou isolées par tour existantes.

Auteurs originaux : Avijit Shil, Suman Samui

Publié 2026-05-19✓ Author reviewed
📖 6 min de lecture🧠 Analyse approfondie

Auteurs originaux : Avijit Shil, Suman Samui

Article original sous licence CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Ceci est une explication générée par l'IA de l'article ci-dessous. Elle n'a pas été rédigée par les auteurs. Pour une précision technique, consultez l'article original. Lire la clause de non-responsabilité complète

Imaginez que vous êtes assis dans une longue et complexe conversation avec un ami. Vous commencez par convenir que « le café est chaud ». Deux tours plus tard, votre ami dit : « Le café est froid », puis cinq tours après cela, il affirme : « Le café est un rocher solide ».

Si vous étiez un évaluateur d'IA standard, il pourrait examiner chaque phrase isolément. « Le café est froid » ressemble à une phrase normale. « Le café est un rocher solide » semble grammaticalement correct. L'IA pourrait attribuer à votre ami une note élevée pour sa politesse et sa fluidité, manquant complètement le fait qu'il se contredit et perd la tête.

C'est le problème que SKG-Eval résout. C'est une nouvelle façon de noter les conversations d'IA qui agit moins comme un correcteur orthographique et plus comme un détective avec un tableau blanc géant et évolutif.

Voici comment cela fonctionne, décomposé en concepts simples :

1. Le Problème : Le Juge « Amnésique »

Les juges d'IA actuels (comme demander à une IA ultra-intelligente de noter une autre IA) examinent généralement une phrase à la fois. Ils sont comme un juge qui oublie tout ce qui s'est passé il y a cinq minutes.

  • Le Défaut : Si une IA dit « J'aime les chats » au Tour 1, puis « Je déteste les chats » au Tour 10, un juge standard pourrait le manquer car il est trop occupé à examiner la grammaire du Tour 10.
  • Le Résultat : Les systèmes d'IA peuvent dériver hors sujet, oublier des règles ou se contredire sans être pénalisés.

2. La Solution : Le « Tableau Blanc Vivant » (Graphe de Connaissances Sémantiques)

SKG-Eval ne se contente pas de lire le texte ; il construit une carte de la conversation au fur et à mesure qu'elle se déroule. Imaginez cette carte comme un giant tableau blanc vivant dans une salle de classe.

  • Les Nœuds (Post-it) : Chaque fois que l'IA mentionne une personne, un objet ou un fait (comme « café », « métabolisme » ou « sauter le petit-déjeuner »), elle l'écrit sur un post-it et le place sur le tableau.
  • Les Arêtes (Fil) : Elle relie ces notes avec du fil pour montrer comment elles sont liées (par exemple, « Café » \rightarrow est chaud \rightarrow « Liquide »).
  • La Mise à Jour : À mesure que la conversation continue, l'IA ne commence pas une nouvelle page ; elle ajoute au même tableau. Si l'IA tente de dire « Le café est froid », le système voit le fil reliant « Café » à « Chaud » et repère immédiatement le conflit.

3. La Note en Trois Parties

Au lieu de donner une note vague, SKG-Eval vérifie trois éléments spécifiques pour chaque nouvelle phrase que l'IA dit :

  • A. Avez-vous répondu à la question ? (Pertinence Locale)

    • Analogie : Avez-vous réellement écouté ce que je viens de demander ?
    • Il vérifie si la nouvelle phrase correspond à l'invite actuelle. Si vous demandez « Quel temps fait-il ? » et que l'IA répond « J'aime la pizza », cette note baisse.
  • B. Vous souvenez-vous du passé ? (Cohérence Historique)

    • Analogie : Parlez-vous toujours du même sujet, ou avez-vous dérivé ?
    • Il vérifie si les nouveaux « post-it » se connectent aux anciens sur le tableau blanc. Si la conversation portait sur le « café » et que soudainement l'IA commence à parler de « fusées spatiales » sans transition, la note baisse.
  • C. Vous contredisez-vous ? (Cohérence Logique)

    • Analogie : Le moment « Aïe ! ».
    • C'est le super-pouvoir. Il utilise un Moteur de Contradiction Géométrique. Imaginez un robot qui mesure la « forme » des faits. Si la forme de « Le café est chaud » heurte celle de « Le café est froid », le robot l'indique.
    • Détail Crucial : Il fait la différence entre une erreur et une correction. Si vous dites « Changez le café en thé », le système comprend que vous avez intentionnellement mis à jour le tableau. Il ne pénalise pas l'IA pour avoir suivi votre ordre de modifier les faits.

4. Le Bonus « Mémoire Récente »

Le système sait que les conversations évoluent avec le temps. Il utilise une Tendance Pondérée par la Récence.

  • Analogie : Pensez au bulletin scolaire d'un élève. S'il obtient un A lundi, un B mardi et un E vendredi, l'enseignant se soucie davantage de l'E car cela montre une tendance à la détérioration.
  • SKG-Eval calcule la note finale en pondérant les tours les plus récents plus lourdement, afin de déterminer si une conversation s'améliore ou se désintègre lentement.

5. Pourquoi Cela Compte (Le « Certificat »)

Lorsqu'un juge d'IA standard dit « C'est mauvais », c'est souvent une boîte noire. Vous ne savez pas pourquoi.
SKG-Eval vous remet un Certificat de Contradiction.

  • Analogie : Au lieu de simplement dire « Vous avez échoué », il vous remet un papier qui dit : « Vous avez échoué car au Tour 4, vous avez dit « X est Y », mais au Tour 1, vous aviez déjà établi « X est Z ». Voici le fil exact sur le tableau blanc qui le prouve. »

Résumé

SKG-Eval est un outil qui empêche les évaluateurs d'IA d'être des « amnésiques ». En transformant les conversations en une carte structurée et visuelle de faits et de relations, il peut détecter :

  1. Les Contradictions (Dire des choses opposées).
  2. Les Dérives (Changer de sujet sans prévenir).
  3. Les Oublis (Ignorer des règles établies plus tôt).

Il fait cela sans avoir besoin d'une IA « boîte noire magique » pour deviner la réponse. Au lieu de cela, il utilise un système logique clair et étape par étape qui produit une note à laquelle vous pouvez réellement faire confiance et que vous pouvez auditer. C'est la différence entre un enseignant qui jette juste un coup d'œil à vos devoirs et un autre qui vérifie votre travail par rapport à vos notes du début du semestre.

Noyé(e) sous les articles dans votre domaine ?

Recevez des digests quotidiens des articles les plus récents correspondant à vos mots-clés de recherche — avec des résumés techniques, dans votre langue.

Essayer Digest →