Lexara: A User-Centered Toolkit for Evaluating Large Language Models for Conversational Visual Analytics

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen sehr klugen, aber manchmal etwas verwirrten Assistenten, der Ihnen hilft, Daten zu verstehen. Sie sagen ihm: „Zeig mir, welche Produkte im letzten Jahr am meisten verkauft wurden." Er könnte Ihnen eine perfekte Grafik zeigen, aber er könnte auch versehentlich die falschen Zahlen nehmen, eine unpassende Diagrammform wählen oder gar nicht verstehen, dass Sie sich auf das letzte Jahr beziehen, nicht auf das gesamte Jahrzehnt.

Dieser Assistent ist ein KI-Sprachmodell (LLM), und das Werkzeug, das in diesem Papier vorgestellt wird, heißt Lexara.

Hier ist die Geschichte von Lexara, einfach erklärt:

Das Problem: Der blinde Fleck bei KI-Tests

Bisher haben Entwickler KI-Modelle für Datenanalysen getestet, wie man einen Rennwagen auf einer geraden, leeren Teststrecke prüft. Die Fragen waren einfach, die Antworten waren vorhersehbar, und man brauchte viel Programmierwissen, um den Test überhaupt zu starten.

Aber im echten Leben ist die Welt chaotisch!

Die Realität: Ein Analyst fragt nicht nur einmal. Er sagt: „Zeig mir den Umsatz." Dann: „Jetzt nur für Deutschland." Dann: „Und sortiere das nach Gewinn." Das ist ein Gespräch, kein einzelner Befehl.
Das Chaos: Die KI könnte den Kontext verlieren („Welches Land meinten Sie?"), die falsche Grafikart wählen (ein Tortendiagramm statt einer Linie für Trends) oder Fakten erfinden.
Das Problem: Die alten Testmethoden konnten das nicht messen. Sie waren wie ein Lineal, mit dem man versucht, die Temperatur zu messen.

Die Lösung: Lexara – Der „Qualitäts-Check" für Daten-Gespräche

Die Forscher (Srishti Palani und Vidya Setlur) haben sich mit echten Daten-Analysten unterhalten und herausgefunden, worauf diese wirklich achten. Daraufhin bauten sie Lexara.

Man kann sich Lexara wie einen hochmodernen Fahrprüfstand für KI-Assistenten vorstellen, der speziell für den Stadtverkehr (echte Daten-Gespräche) gebaut wurde.

1. Der Fahrprüfstand (Die Testfälle)

Statt theoretischer Fragen nutzt Lexara echte Szenarien aus dem Alltag.

Analogie: Statt zu fragen „Kann das Auto 100 km/h fahren?", gibt Lexara dem KI-Assistenten eine komplexe Route vor: „Fahren Sie zur Bank, holen Sie Geld ab, dann zum Supermarkt, aber nur wenn es offen hat, und vergessen Sie nicht, den Hund im Auto zu lassen."
Lexara hat eine Bibliothek mit solchen echten, mehrstufigen Gesprächen, die Ambiguitäten (Mehrdeutigkeiten) und Kontextwechsel enthalten.

2. Der Bewertungsbogen (Die Metriken)

Früher war die Bewertung einfach: „Richtig" oder „Falsch". Lexara ist wie ein feinfühliger Kritiker, der eine Note von 0 bis 100 gibt.

Daten-Genauigkeit: Hat der Assistent die richtigen Zahlen genommen? (Wie ein Koch, der nicht das Salz durch Zucker ersetzt).
Grafik-Tauglichkeit: Ist das Diagramm sinnvoll? (Ein Tortendiagramm für einen Zeitverlauf ist wie ein Hammer, um eine Schraube zu drehen – technisch möglich, aber falsch).
Gesprächsführung: Hat der Assistent sich gemerkt, was Sie vor 5 Minuten gesagt haben? (Wie ein guter Gesprächspartner, der nicht bei jedem Satz neu anfangen muss).
Fakten-Check: Erfindet der Assistent Dinge oder bleibt er bei den Fakten?

Lexara nutzt dabei eine clevere Mischung: Ein Computer prüft die harten Fakten (z. B. „Sind die Achsen vertauscht?"), und eine andere KI (der „Richter") bewertet die Weichfaktoren (z. B. „War die Erklärung logisch?").

3. Das Cockpit (Das Werkzeug selbst)

Das Beste an Lexara ist, dass man kein Programmierer sein muss, um es zu nutzen.

Analogie: Früher mussten Sie selbst den Motor zerlegen, um zu sehen, ob er läuft. Lexara ist wie ein Dashboard im Auto, das Ihnen sofort anzeigt: „Hier ist der Motor etwas ruckelig" oder „Die Bremsen funktionieren perfekt".
Es zeigt Ihnen die Ergebnisse visuell an: Sie sehen die erwartete Grafik und die tatsächliche Grafik der KI nebeneinander. Wenn etwas schiefgelaufen ist, zeigt das Tool genau an, wo der Fehler liegt (z. B. „Der Assistent hat den Filter für 'Jahr 2023' vergessen").

Warum ist das wichtig?

Stellen Sie sich vor, Sie bauen ein neues Auto. Sie wollen nicht, dass es auf der Teststrecke funktioniert, aber im echten Regen und Schnee versagt.
Lexara hilft Entwicklern und Unternehmen sicherzustellen, dass ihre KI-Assistenten im echten Geschäftsalltag nicht nur „hübsche Bilder" machen, sondern verlässliche, korrekte und sinnvolle Analysen liefern.

Zusammenfassend:
Lexara ist das Werkzeug, das den KI-Assistenten nicht nur auf seine Intelligenz, sondern auf seine Verlässlichkeit im echten Leben prüft. Es macht die Bewertung so einfach wie ein Dashboard und so genau wie ein feiner Mechaniker, damit wir uns darauf verlassen können, dass die KI uns nicht in die Irre führt, wenn es um wichtige Daten geht.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Lexara: A User-Centered Toolkit for Evaluating Large Language Models for Conversational Visual Analytics" auf Deutsch:

1. Problemstellung

Die Integration von Large Language Models (LLMs) in Conversational Visual Analytics (CVA) ermöglicht es Nutzern, Datenanalysen und Visualisierungen über natürliche Sprache zu steuern. Dies demokratisiert jedoch die Datenanalyse und stellt gleichzeitig neue Herausforderungen bei der Evaluierung dieser Systeme dar. Bestehende Ansätze weisen folgende gravierende Mängel auf:

Fehlende Realitätsnähe: Viele Benchmarks basieren auf synthetisch generierten, einstufigen (single-turn) Interaktionen und ignorieren die komplexe, mehrstufige (multi-turn) Natur realer analytischer Dialoge.
Technische Hürden: Die Einrichtung und Auswertung bestehender Benchmarks erfordert oft Programmierkenntnisse, was Product Manager, Designer und andere nicht-technische Stakeholder ausschließt.
Unzureichende Metriken: Traditionelle NLP-Metriken (z. B. BLEU, ROUGE) oder reine Bildvergleichs-Algorithmen erfassen nicht die Nuancen von CVA-Ausgaben. Sie können weder die Qualität der Visualisierung (Datenintegrität, semantische Ausrichtung) noch die analytische Tiefe der textlichen Erklärung angemessen bewerten. Zudem fehlt es an Metriken für „abgestufte Richtigkeit" (graded correctness), da in der CVA oft mehrere korrekte Lösungen möglich sind.
Fehlende Interpretierbarkeit: Die Ergebnisse sind oft in schwer lesbaren JSON-Logs oder Konsolenausgaben versteckt, was eine systematische Diagnose von Modellfehlern erschwert.

2. Methodik

Die Autoren verfolgten einen nutzerzentrierten Ansatz, der in drei Phasen unterteilt ist:

A. Formative Studien (Bedarfserhebung)

Interviews: Semi-strukturierte Interviews mit 22 CVA-Entwicklern (Forscher, Designer, Ingenieure, Product Manager).
Beobachtungsstudie: Eine Studie mit 16 professionellen Datenanalysten, bei der eine Browser-Erweiterung reale CVA-Interaktionen protokollierte.
Ergebnis: Es wurden reale Use-Cases, Evaluierungskriterien und Workflows identifiziert. Dabei zeigte sich, dass Nutzer Visualisierungsqualität (Daten, Chart-Typ, Funktionalität, Design) und Sprachqualität (faktische Verankerung, analytisches Denken, Kohärenz) in mehrstufigen Dialogen bewerten.

B. Entwicklung von Lexara
Basierend auf den Erkenntnissen wurde Lexara als Toolkit entwickelt, das drei Kernkomponenten umfasst:

Test Cases: Eine kuratierte Suite von mehrstufigen Benutzeranfragen aus realen Interaktionen, annotiert mit erwarteten Ausgaben (Visualisierungsspezifikation in JSON/Vega-Lite und natürliche Sprache) und Labels für Ambiguitäten (syntaktisch, semantisch, pragmatisch).
Evaluierungsmetriken: Ein Satz interpretierbarer, abgestufter Metriken, die sowohl regelbasierte als auch „LLM-as-a-Judge"-Methoden nutzen.
- Visualisierung: Datenintegrität, Feldähnlichkeit, Chart-Typ-Übereinstimmung, Achsengenauigkeit, Filter- und Sortiergenauigkeit, visuelle Kodierung und Interaktivität.
- Sprache: Faktische Verankerung, Enthüllung von Annahmen, Einsichtsfähigkeit (Insightfulness) und Kohärenz.
Interaktives Tool: Eine Low-Code-Web-Oberfläche, die es ermöglicht, Experimente ohne Programmierung zu konfigurieren, Ergebnisse mehrformatig (Visualisierung, Text, JSON-Spezifikation) nebeneinander zu vergleichen und von aggregierten Metriken zu detaillierten Diagnosen zu drillen.

C. Validierungsstudie (Tagebuch-Studie)

Teilnehmer: 6 CVA-Entwickler aus der ursprünglichen Kohorte.
Dauer: Zwei Wochen.
Aufgabe: Die Teilnehmer nutzten Lexara in ihrem täglichen Workflow, um Modelle und Prompts zu vergleichen, eigene Testfälle zu erstellen und die Metriken zu bewerten.
Quantitative Validierung: Eine separate Studie mit 120 CVA-Antworten verglich die Lexara-Metriken mit menschlichen Bewertungen (Inter-Rater-Reliability und Korrelation).

3. Schlüsselbeiträge

Lexara Toolkit: Das erste nutzerzentrierte, Low-Code-Toolkit, das speziell für die Evaluierung von LLMs in CVA entwickelt wurde. Es adressiert die Lücke zwischen technischer Evaluierung und praktischem Bedarf.
Realistische Testfälle: Eine Sammlung von Testfällen, die auf echten, mehrstufigen Nutzerinteraktionen basieren und komplexe Szenarien wie Kontextübertragung, Ambiguitäten und iterative Verfeinerung abdecken.
Hybride, abgestufte Metriken: Ein Evaluierungsframework, das nicht nur binär (richtig/falsch) bewertet, sondern abgestufte Scores (0–100 %) für teilweise korrekte Ausgaben liefert. Dies kombiniert regelbasierte Checks (für Daten und Spezifikationen) mit LLM-basierten Urteilen (für analytische Tiefe und Kohärenz), wobei Bias-Minderungstechniken (z. B. externe Judge-Modelle, Randomisierung) integriert sind.
Interaktive Diagnose: Eine Visualisierungsoberfläche, die es ermöglicht, Abweichungen zwischen erwarteter und tatsächlicher Ausgabe auf Ebene der JSON-Spezifikation (Vega-Lite), der gerenderten Grafik und des Textes zu untersuchen.

4. Ergebnisse

Diary-Studie: Die Teilnehmer bestätigten, dass Lexara realistische Komplexität abbildet und die Evaluierung effizienter macht. Besonders geschätzt wurden die interpretierbaren Metriken mit Drill-Down-Funktionen und die Möglichkeit, Abweichungen in den JSON-Spezifikationen (z. B. falsche Filter oder Kodierungen) direkt zu diagnostizieren.
Validierung:
- Inter-Rater-Reliability: Die menschlichen Bewerter zeigten eine moderate bis hohe Übereinstimmung mit den Lexara-Rubriken (Cohen's Kappa zwischen 0,45 und 0,80).
- Korrelation: Die Lexara-Metriken korrelierten stark mit menschlichen Bewertungen (Spearman's $\rho$ zwischen 0,68 und 0,82).
- Modell-Alignment: Die von Lexara berechneten Scores korrelierten signifikant mit den Präferenzen der Teilnehmer für bestimmte Modelle ( $\rho = 0,79$ für Visualisierung, $\rho = 0,74$ für Sprache).
Praktischer Nutzen: Das Tool half den Entwicklern, Modellverhalten zu diagnostizieren, Prompts zu optimieren und fundierte Entscheidungen für den Deployment zu treffen.

5. Bedeutung und Ausblick

Lexara stellt einen bedeutenden Fortschritt für die verantwortungsvolle Entwicklung von KI in der Datenanalyse dar.

Demokratisierung: Es ermöglicht nicht-technischen Stakeholdern (PMs, Designern), LLM-Systeme systematisch zu evaluieren, ohne Programmierkenntnisse zu benötigen.
Vertrauen und Transparenz: Durch die Kombination aus automatisierten Metriken und menschlicher Überprüfbarkeit (Human-in-the-Loop) wird das Vertrauen in die Evaluierungsergebnisse gestärkt.
Rahmenwerk für CVA: Es definiert einen neuen Standard für die Evaluierung von Multi-Format- und Multi-Turn-Interaktionen, der über reine Text- oder reine Bild-Evaluierung hinausgeht.

Zukünftige Arbeiten: Die Autoren sehen Potenzial in der Erweiterung der Testfälle auf weitere Domänen und Visualisierungstypen (z. B. Karten, Sankey-Diagramme), der Vereinfachung der Autoring-Workflows (z. B. durch Point-and-Click-Editoren statt YAML/JSON) und der Integration von Kosten- und Latenzmetriken für den produktiven Einsatz. Das Toolkit ist als Open-Source-Projekt verfügbar, um die Community bei der Weiterentwicklung zu unterstützen.

Lexara: A User-Centered Toolkit for Evaluating Large Language Models for Conversational Visual Analytics

Das Problem: Der blinde Fleck bei KI-Tests

Die Lösung: Lexara – Der „Qualitäts-Check" für Daten-Gespräche

1. Der Fahrprüfstand (Die Testfälle)

2. Der Bewertungsbogen (Die Metriken)

3. Das Cockpit (Das Werkzeug selbst)

Warum ist das wichtig?

1. Problemstellung

2. Methodik

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem