Lexara: A User-Centered Toolkit for Evaluating Large Language Models for Conversational Visual Analytics

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar soms wat verwarde assistent hebt die je helpt met cijfers en grafieken. Je vraagt hem: "Toon me de winst per regio," en hij maakt een plaatje. Maar is dat plaatje goed? Is de data correct? Is de grafiek de juiste keuze? En begrijpt hij wat je bedoelde toen je in de vorige zin over "verlies" sprak?

Dit is precies het probleem waar Lexara voor is bedacht. Het is een toolkit (een gereedschapskist) ontwikkeld door onderzoekers van Salesforce om te testen of deze slimme AI-assistenten (Large Language Models) echt goed zijn in het maken van visuele analyses.

Hier is een uitleg in gewone taal, met een paar creatieve vergelijkingen:

1. Het Probleem: De "Blinde" Test

Vroeger testten mensen AI's met standaardvragen, alsof je een kok testte met alleen maar de vraag: "Kun je een ei bakken?" Maar in de echte wereld vraagt een kok (of een data-analist) niet alleen om een ei, maar om een gerecht met specifieke kruiden, op de juiste temperatuur, en misschien zelfs een bijgerecht.

De oude testmethoden hadden drie grote tekortkomingen:

Ze waren te simpel: Ze keken alleen naar één vraag en één antwoord, terwijl echte gesprekken een lang gesprek zijn waarbij je context onthoudt (zoals: "Maak het kleiner" of "Verander de kleur").
Ze waren te technisch: Alleen programmeurs konden de tests uitvoeren. Een manager of ontwerper kon niet meekijken.
Ze keken niet goed genoeg: Ze keken alleen of de tekst klopte, maar niet of de grafiek er goed uitzag of of de cijfers logisch waren.

2. De Oplossing: Lexara als de "Gereedschapskist voor de Chef"

Lexara is als een moderne keukentest voor deze AI-chefs. In plaats van alleen te vragen of het ei gaar is, kijkt Lexara naar alles: de smaak, de presentatie, of het gerecht past bij de bestelling, en of de chef de eerdere opmerkingen van de klant onthoudt.

Lexara doet dit op drie manieren:

A. De Echte Proef (Testcases)

Lexara gebruikt geen verzonnen vragen, maar echte gesprekken die echte mensen met AI hebben gevoerd.

Vergelijking: Het is alsof je een kok niet test met een theoretisch recept, maar hem laat koken op basis van de echte bestellingen die hij de afgelopen maand heeft gekregen. Zo weet je of hij echt kan omgaan met de chaos van een drukke keuken.

B. De Gedetailleerde Scorekaart (Metrieken)

Lexara geeft geen simpele "Goed" of "Slecht" cijfer. Het gebruikt een gedetailleerde rapportkaart met verschillende categorieën:

De Data (De Ingrediënten): Zijn de cijfers kloppend? (Bijvoorbeeld: is het echt de winst, of telt hij per ongeluk het aantal orders?)
De Grafiek (De Presentatie): Is het de juiste schotel? (Bijvoorbeeld: een lijngrafiek voor trends in de tijd, in plaats van een taartdiagram).
De Tekst (De Uitleg): Legt de AI uit wat er gebeurt? Begrijpt hij de context?
De Conversatie (Het Onthouden): Onthoudt de AI wat je eerder zei? (Bijvoorbeeld: "Toon alleen de data van 2023" en daarna "Vergelijk Oost vs. West" – de AI moet weten dat hij nog steeds in 2023 moet kijken).
Vergelijking: Stel je een restaurantbeoordeling voor. Een oude beoordeling zegt alleen: "Het eten was goed." Lexara zegt: "De vis was vers (Data), maar de saus was te zout (Design), en de ober vergeet dat je vegetariër bent (Context)."

C. De Gebruiksvriendelijke Interface (Het Dashboard)

Het mooiste is dat je geen programmeur hoeft te zijn om Lexara te gebruiken. Het is een interactief dashboard waar je met een paar klikken verschillende AI-modellen kunt vergelijken.

Vergelijking: Het is als een auto-testcircuit waar je niet zelf de motor hoeft te demonteren om te zien wat er mis is. Je ziet direct op een scherm: "Deze auto (AI) heeft een betere remafstand dan die andere," en je kunt zien waarom door op een knop te drukken.

3. Wat hebben ze ontdekt?

De onderzoekers hebben dit systeem getest met echte ontwikkelaars. Ze ontdekten dat Lexara hen hielp om:

Fouten te vinden die ze anders over het hoofd hadden gezien (zoals een grafiek die er mooi uitzag, maar de verkeerde cijfers toonde).
De juiste AI te kiezen voor hun specifieke taak.
Betrouwbare beslissingen te nemen over welke AI ze in hun producten gaan gebruiken.

Samenvatting

Lexara is een slimme, gebruiksvriendelijke testomgeving die ervoor zorgt dat AI-assistenten voor data-analyse niet alleen "leuk" klinken, maar ook betrouwbaar, accuraat en nuttig zijn voor echte mensen. Het maakt de complexe wereld van AI-testen toegankelijk voor iedereen, van programmeurs tot managers, zodat we kunnen vertrouwen op de cijfers en grafieken die deze slimme machines voor ons maken.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Lexara: A User-Centered Toolkit for Evaluating Large Language Models for Conversational Visual Analytics" in het Nederlands.

Probleemstelling

Hoewel Large Language Models (LLM's) de Conversational Visual Analytics (CVA) transformateren door data-analyse via natuurlijke taal mogelijk te maken, blijft de evaluatie van deze systemen een aanzienlijke uitdaging. Bestaande benaderingen hebben drie fundamentele tekortkomingen:

Gebrek aan realisme: Bestaande benchmarks (zoals nvBench of Spider) zijn vaak synthetisch gegenereerd, focussen op single-turn interacties en missen de complexiteit van multi-turn conversaties, contextbehoud en ambigue intenties die kenmerkend zijn voor echte gebruikers.
Technische drempel: Het opzetten en interpreteren van evaluaties vereist vaak programmeerkennis, wat productmanagers, ontwerpers en andere niet-technische stakeholders uitsluit.
Onduidelijke metrics: Traditionele NLP-metrics (zoals BLEU, ROUGE) en zelfs recente visualisatie-specifieke metrics zijn vaak binair (goed/slecht), negeren de nuance van "gedeeltelijke correctheid" en kunnen de kwaliteit van multi-format outputs (gecombineerde visualisaties, code en tekst) niet adequaat beoordelen.

Methodologie

De auteurs hanteerden een iteratieve, user-centered benadering bestaande uit drie fasen:

1. Formative Studies (Ontwerpgrondslag)

Interviews: Semi-gestructureerde interviews met 22 CVA-ontwikkelaars (onderzoekers, engineers, productmanagers) om workflows, evaluatiecriteria en uitdagingen te identificeren.
Observatiestudie: Een lab-sessie met 16 professionele data-analisten die CVA-tools gebruikten. Een browser-extensie logde hun multi-turn interacties in real-time.
Analyse: Thematische analyse onthulde dat CVA-interacties inherent multi-format en multi-turn zijn. Gebruikers eisen zowel visuele kwaliteit (data-fideliteit, chart-type, functionaliteit) als taal-kwaliteit (feitelijke onderbouwing, analytisch redeneren, coherentie).

2. Ontwikkeling van Lexara
Gebaseerd op de inzichten uit de formative studies, ontwikkelden de auteurs Lexara, een toolkit die de volgende componenten integreert:

Real-world Test Cases: Een verzameling van gecureerde, multi-turn conversaties afgeleid van de logbestanden van de formative studie, inclusief annotaties voor ambiguïteit (syntactisch, semantisch, pragmatisch) en contextbehoud.
Gedetailleerde Evaluatiemetrics: Een set van interpreteerbare, graduele metrics (0-100%) die zowel regelgebaseerde checks als "LLM-as-a-Judge" methoden combineren.
- Visualisatiekwaliteit: Data-fideliteit, veldgelijkenis, chart-type geschiktheid, as-nauwkeurigheid, filter- en sorteernauwkeurigheid, en visuele codering/interactiviteit.
- Taal-kwaliteit: Feitelijke onderbouwing, openbaarmaking van aannames, inzichtelijkheid en conversatie-coherentie.
Interactieve Interface: Een low-code webinterface (React/Flask) die het opzetten van experimenten, het vergelijken van modellen en het drill-down naar specifieke fouten mogelijk maakt zonder programmeerkennis.

3. Validatie en Veldstudie

Diary Study: Een twee-weekse studie met 6 CVA-ontwikkelaars die Lexara gebruikten in hun dagelijkse werk. Ze voerden 38 evaluatie-experimenten uit met 57 unieke testcases.
Kwantitatieve Validatie: Een studie waarbij twee experts 120 CVA-antwoorden beoordeelden om de correlatie te meten tussen menselijke beoordelingen en de Lexara-metrics (gebruikmakend van Cohen's Kappa en Spearman's rho).

Belangrijkste Bijdragen

Lexara Toolkit: Een open-source, low-code platform voor het evalueren van LLM's in CVA-contexten, beschikbaar voor de gemeenschap.
Graduele, Interpretabele Metrics: In plaats van binair "pass/fail", introduceert Lexara metrics die gedeeltelijke correctheid waarderen (bijv. een chart met de juiste data maar verkeerde as-oriëntatie krijgt een lagere maar niet-nul score). Dit omarmt de complexiteit van CVA.
Multi-format Evaluatie: De toolkit evalueert simultaan de visuele output (rendered charts), de onderliggende specificatie (JSON/Vega-Lite) en de natuurlijke taalverklaringen, en koppelt deze aan elkaar.
Contextbewuste Diagnostiek: Het systeem is ontworpen om multi-turn dynamieken te evalueren, waarbij het controleert of filters, context en intenties over conversaties heen behouden blijven.
Hybride Mens-AI Evaluatie: Lexara gebruikt "LLM-as-a-Judge" voor schaalbaarheid, maar met strenge safeguards (zoals few-shot prompts met menselijke voorbeelden, randomisatie van positie en het gebruik van externe modellen als rechter) om bias te minimaliseren. Mensen kunnen de resultaten inspecteren en overschrijven.

Resultaten

Validatie van Metrics: Er werd een sterke correlatie gevonden tussen de Lexara-metrics en menselijke beoordelingen.
- Voor visuele metrics (Data Fidelity, Field Similarity) lag de rangcorrelatie (Spearman's $\rho$ ) tussen 0,68 en 0,79.
- Voor taal-metrics was de correlatie voor "Factual Grounding" het hoogst ( $\rho = 0,82$ ).
- De inter-rater betrouwbaarheid tussen menselijke beoordelaars was hoog (Cohen's $\kappa$ gemiddeld 0,65 voor visuele metrics).
Diary Study Feedback: De deelnemers bevestigden dat Lexara:
- Realistische complexiteit vastlegt die bestaande benchmarks missen.
- Meer interpreteerbare metrics biedt dan traditionele tools.
- Effectief is bij het diagnosticeren van model- en prompt-gedrag (bijv. het identificeren van verborgen fouten in JSON-specificaties die niet zichtbaar zijn in de render).
- De keuze van modellen en prompts helpt sturen op basis van data-gedreven inzichten.
Beperkingen: De YAML/JSON-authoring workflow bleek nog een drempel voor niet-technische gebruikers (zoals productmanagers), wat suggereert dat toekomstige versies visuele editors nodig hebben.

Significantie

Lexara vertegenwoordigt een verschuiving in de evaluatie van LLM's voor data-analyse:

Van Synthetisch naar Realistisch: Het verlegt de focus van synthetische benchmarks naar workflows die gebaseerd zijn op daadwerkelijk gebruikersgedrag.
Democratisering van Evaluatie: Door een low-code interface te bieden, maakt het systematische evaluatie toegankelijk voor een breder spectrum van stakeholders (ontwerpers, productmanagers), niet alleen engineers.
Verantwoordelijke AI: Het biedt een raamwerk om de betrouwbaarheid, transparantie en bruikbaarheid van CVA-systemen te waarborgen voordat ze in productie gaan, wat essentieel is voor het opbouwen van vertrouwen in AI-gestuurde besluitvorming.
Methodologische Vooruitgang: Het introduceert een hybride aanpak die de schaalbaarheid van geautomatiseerde beoordeling combineert met de nuance van menselijke waarden en graduele correctheid, een noodzakelijke stap voor het evalueren van complexe, multi-modal systemen.

De toolkit is open-source beschikbaar gesteld om verdere adoptie en verbetering door de HCI- en visual analytics-gemeenschap te stimuleren.

Lexara: A User-Centered Toolkit for Evaluating Large Language Models for Conversational Visual Analytics

1. Het Probleem: De "Blinde" Test

2. De Oplossing: Lexara als de "Gereedschapskist voor de Chef"

A. De Echte Proef (Testcases)

B. De Gedetailleerde Scorekaart (Metrieken)

C. De Gebruiksvriendelijke Interface (Het Dashboard)

3. Wat hebben ze ontdekt?

Samenvatting

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Significantie

Meer zoals dit

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem