AutoChecklist: Composable Pipelines for Checklist Generation and Scoring with LLM-as-a-Judge

Dit paper introduceert AutoChecklist, een open-source bibliotheek die modulaire, samenstellbare pijplijnen biedt voor het genereren en scoren van checklists met LLMs als rechter, waarmee interpreteerbare evaluatie, modeluitlijning en zelfcorrectie worden ondersteund.

Karen Zhou, Chenhao Tan

Gepubliceerd 2026-03-10
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een kok bent die een nieuwe maaltijd heeft bereid. Je wilt weten of het lekker is. Je kunt de maaltijd gewoon proeven en zeggen: "Ja, het is goed" of "Nee, het is slecht." Maar dat is vaag. Is het te zout? Te droog? Ontbreekt er een smaak?

AutoChecklist is een slimme tool die helpt om die "proef" veel specifieker en eerlijker te maken, vooral wanneer je een kunstmatige intelligentie (AI) laat oordelen in plaats van een mens.

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De "Vage" AI

Vaak laten mensen AI's oordelen over teksten (zoals een samenvatting of een antwoord op een vraag). De AI zegt dan vaak: "Dit antwoord is 8/10." Maar waarom? En is die 8/10 eerlijk?
Soms is de AI bevooroordeeld (bijvoorbeeld: "Ik hou van lange antwoorden, dus die krijgen een hogere score"). Of de AI is gewoon niet duidelijk over wat hij precies goed vond.

2. De Oplossing: Een Keukensjabloon (De Checklist)

In plaats van een willekeurige score te geven, maakt AutoChecklist een checklist aan. Denk hierbij aan een recept met stappen:

  • Is de ingrediëntenlijst compleet?
  • Is de saus niet te dun?
  • Is het gerecht warm geserveerd?

Als de AI deze lijst afvinkt (Ja/Nee), krijg je een heel duidelijk beeld: "Ah, het gerecht was warm, maar de saus was te dun." Dat is veel eerlijker dan een willekeurige 8/10.

3. De Magie: De "Bouwpakket"-Stijl

Het coolste aan AutoChecklist is dat het een Bouwpakket is.
Stel je voor dat je een lego-set hebt. In plaats van dat je elke keer een heel nieuw huis moet bouwen met losse steentjes, heb je hier al kant-en-klare muren, ramen en deuren.

De auteurs hebben vijf verschillende manieren bedacht om die lijsten (checklists) te maken:

  • De Directe Manier: De AI kijkt naar de vraag en zegt direct: "Hier zijn 5 dingen om op te letten."
  • De Vergelijkende Manier: De AI maakt een "goede" en een "slechte" versie van een antwoord, en kijkt naar het verschil om te zien wat belangrijk is.
  • De Verzamelde Manier: De AI kijkt naar duizenden oude antwoorden en mensenfeedback om een algemene lijst te maken voor alle vragen van dat type.
  • De Ontledende Manier: De AI neemt een groot doel (bijv. "Goed schrijven") en breekt dit op in kleine, specifieke regels.
  • De Gespreks-Manier: De AI simuleert een gesprek waarbij iemand hardop nadenkt over een tekst, en haalt daar de regels uit.

Je kunt deze "muren" (generators) koppelen aan verschillende "deuren" (scorers) om te zien welke combinatie het beste werkt voor jouw specifieke taak.

4. Wat kun je er mee doen?

De tool is niet alleen voor programmeurs. Je hebt drie manieren om het te gebruiken:

  • De Knop (Command Line): Je typt een commando en de AI doet het werk.
  • De Speelplek (Web Interface): Je opent een mooie website, kiest je regels, en ziet direct hoe verschillende methodes hun werk doen. Je kunt zelfs twee methodes naast elkaar zetten om te zien wie de beste checklist maakt.
  • De Bouwmeester (Python Code): Voor wie alles zelf wil regelen en aanpassen.

5. Waarom is dit belangrijk? (Het Experiment)

De makers hebben getest of hun lijsten werken.

  • Ze lieten de AI oordelen over antwoorden van andere AI's. De lijsten die AutoChecklist maakte, kwamen heel dicht in de buurt van wat mensen zouden vinden.
  • Ze testten het zelfs op een heel nieuw gebied: academische kritieken (waarbij auteurs reageren op commentaar van reviewers). Zelfs zonder dat ze de software hoefden aan te passen (alleen de instructies veranderden), werkte het perfect.

Samenvattend

AutoChecklist is als een slimme keukenassistent die niet zomaar zegt "lekker", maar een gedetailleerde lijst maakt van wat er goed en fout ging. Het maakt het makkelijker om AI-oordelen te controleren, te vergelijken en te verbeteren, zodat we kunnen vertrouwen op wat de computer ons vertelt.

Het is gratis, openbaar beschikbaar, en maakt het voor iedereen mogelijk om hun eigen "keukensjablonen" te maken voor het beoordelen van tekst.