Each language version is independently generated for its own context, not a direct translation.
Stel je voor dat je een zeer slimme, maar soms wat verwarde assistent hebt die alles wat je zegt letterlijk neemt, maar soms de bedoeling mist. Je vraagt: "Schrijf een kort verhaal over een kat, maar gebruik geen woorden met de letter 'e'." De assistent schrijft een verhaal, maar vergeet de regel over de 'e' of schrijft een te lang verhaal.
Hoe weten we of de assistent het goed heeft gedaan? Tot nu toe moesten mensen dit handmatig nakijken, wat veel tijd kost en waarbij twee mensen vaak tot andere conclusies komen.
Het paper DIALEVAL introduceert een slimme, geautomatiseerde manier om dit te controleren. Hier is hoe het werkt, vertaald naar alledaagse taal:
1. De Twee Slimme Agenten (Het Koppel)
In plaats van één grote computer die alles in één keer beoordeelt, gebruikt DIALEVAL een team van twee gespecialiseerde "AI-agenten" (denk aan twee verschillende experts):
Agent 1: De Ontleder (De Chef-kok)
Deze agent neemt je complexe opdracht en snijdt hem op in kleine, losse stukjes.- Voorbeeld: Als je zegt "Schrijf een e-mail aan de baas, houd het kort en gebruik een vriendelijke toon", ziet deze agent drie losse taken:
- Inhoud: Een e-mail schrijven.
- Formaat: Korte tekst.
- Stijl: Vriendelijke toon.
Deze agent zorgt ervoor dat de taken niet door elkaar lopen en dat elk stukje apart gecontroleerd kan worden.
- Voorbeeld: Als je zegt "Schrijf een e-mail aan de baas, houd het kort en gebruik een vriendelijke toon", ziet deze agent drie losse taken:
Agent 2: De Keurmeester (De Smaaktester)
Deze agent kijkt naar het antwoord van de assistent en controleert elk stukje apart. Maar hier komt het slimme deel: hij gebruikt verschillende regels voor verschillende soorten taken.- Voor inhoud: Hij is vrijgevig. Als je vraagt om "een appel" en de assistent zegt "een rode fruitsoort", is dat goed. De betekenis is hetzelfde.
- Voor cijfers: Hij is streng. Als je vraagt om "precies 5 euro" en de assistent zegt "ongeveer 5 euro", is dat fout. Hier moet het exact kloppen.
- Voor stijl: Hij kijkt naar de "sfeer". Is het vriendelijk of niet?
2. Waarom is dit beter dan oude methoden?
Vroeger behandelden computers alle regels alsof ze allemaal even streng of even los waren. Dat is alsof je een chef-kok beoordeelt op basis van één regel: "Is het eten warm?"
- Als je een soep bestelt (inhoud), maakt het niet uit of je het "soep" of "bouillon" noemt.
- Maar als je een recept vraagt met "300 gram suiker", dan maakt het wel uit of je "300 gram" of "een beetje suiker" zegt.
DIALEVAL begrijpt dit verschil. Het weet dat mensen bij inhoud soepel zijn, maar bij cijfers streng. Hierdoor komt de beoordeling veel dichter bij wat een mens zou zeggen.
3. Het Gesprek (Meerdere Rondes)
Veel oude systemen keken alleen naar één vraag en één antwoord. Maar in een echt gesprek (zoals met een klantenservice) bouwt alles op elkaar voort.
DIALEVAL kan een heel gesprek volgen. Als je in ronde 1 zegt "Ik wil een blauwe auto" en in ronde 2 zegt "Maak hem groen", dan weet DIALEVAL dat de assistent nu een groene auto moet leveren, gebaseerd op wat er eerder is gezegd. Het houdt rekening met de "geschiedenis" van het gesprek.
4. Wat hebben ze ontdekt?
Toen ze dit systeem testten op verschillende grote AI-modellen (zoals GPT-4 en Mixtral), zagen ze interessante patronen:
- De "Inhoud" is moeilijk: Alle modellen hadden moeite om de inhoud van een opdracht perfect te volgen als er ook nog andere regels waren (zoals "korte tekst" of "vriendelijke toon"). Het is alsof ze zo druk zijn met de vorm, dat ze de boodschap vergeten.
- Cijfers zijn een zwak punt: Sommige modellen (zoals Mixtral) waren heel goed in logica en stijl, maar faalden volledig als het om exacte cijfers of lengte-eisen ging.
- Starten is lastig: Alle modellen vonden het moeilijk om het gesprek zelf te starten (bijvoorbeeld: "Vraag de klant wie hij is"). Ze wachten vaak tot de mens iets zegt.
Conclusie
DIALEVAL is als het invoeren van een slimme, eerlijke beoordelingscommissie die weet dat niet alle regels even belangrijk of even streng zijn. Het maakt het mogelijk om AI-assistenten automatisch, snel en nauwkeurig te testen, zodat we in de toekomst betrouwbaardere chatbots en assistenten kunnen bouwen die echt begrijpen wat we bedoelen, niet alleen wat we zeggen.