Enhancing Tool Calling in LLMs with the International Tool Calling Dataset

Dit paper introduceert het International Tool Calling (ITC)-dataset, een grootschalig meerlinguïstisch benchmark met duizenden echte API's uit veertig landen, dat de prestaties van grote taalmodellen verbetert bij het gebruik van tools in realistische, internationale scenario's.

Zuoyu Zhang, Yancheng Zhu

Gepubliceerd Mon, 09 Ma
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat een Grote Taalmodel (LLM) een superintelligente, maar iets verwarde assistent is. Deze assistent kan fantastisch praten, verhalen schrijven en vragen beantwoorden. Maar er is een groot probleem: hij zit vast in een kamer met alleen boeken. Hij kan niet naar buiten, geen bankafschriften bekijken, geen weerbericht opzoeken of een taxi bestellen. Hij kan alleen praten over die dingen, maar niet doen.

"Tool Calling" (het aanroepen van hulpmiddelen) is als het geven van een sleutelbos aan deze assistent. Plotseling kan hij de deur openen, naar de bank gaan, het weerchecken en een taxi bellen. Hij wordt niet alleen een prater, maar een doener.

Maar tot nu toe waren de "trainingssessies" voor deze assistenten een beetje nep. Ze oefenden met simulaties: denk aan een virtuele supermarkt waar de producten niet echt bestaan, of een weerapp die alleen maar fictieve data toont. Het is alsof je iemand leert zwemmen in een zwembad met plastic vissen. Als ze dan echt in de oceaan terechtkomen (de echte wereld), gaan ze onderuit.

Hier komt het nieuwe onderzoek van Zuoyu Zhang en Yancheng Zhu (van de Shenzhen Universiteit) om de hoek kijken. Ze hebben iets nieuws bedacht: ITC (International Tool Calling).

Wat is ITC eigenlijk?

Stel je voor dat je in plaats van een zwembad met plastic vissen, je assistent meeneemt naar 40 verschillende landen in de echte wereld.

  • De "Gym" (De Dataset): Ze hebben 3.571 echte, werkende hulpmiddelen (API's) verzameld. Denk aan echte weerapps, echte vertalers, echte bank-API's en echte reisboekingssystemen.
  • De "Oefeningen" (De Taken): Ze hebben 17.540 specifieke opdrachten gemaakt. Niet alleen in het Engels, maar in 29 verschillende talen.
    • Voorbeeld: Een Japanse toerist vraagt in het Japans om het weer in Lijiang (China) te checken. De assistent moet dan de Chinese weer-API vinden en het antwoord in het Japans geven.

Waarom is dit zo belangrijk?

Tot nu toe waren de tests voor deze AI's vaak:

  1. Te makkelijk: Ze deden alleen maar in het Engels.
  2. Te nep: Ze gebruikten gesimuleerde data.
  3. Te beperkt: Ze keken niet naar culturele verschillen (bijvoorbeeld: hoe vraag je om een taxi in Tokio versus in New York?).

De auteurs zeggen: "Als we AI willen die de wereld kan helpen, moeten we ze trainen in de echte wereld, met echte problemen en echte talen."

Wat hebben ze ontdekt? (De resultaten)

Ze hebben 24 verschillende AI-modellen (zowel gratis open-source als dure gesloten modellen) getest op deze nieuwe "wereldreis".

  1. Het gat is groot: De dure, gesloten modellen (zoals GPT-4o) deden het over het algemeen beter dan de gratis modellen. Maar zelfs de beste modellen maakten veel fouten, zoals het kiezen van het verkeerde hulpmiddel of het vergeten van belangrijke details.
  2. Training werkt wonderen: Toen ze de gratis modellen trainden met hun nieuwe ITC-dataset, werden ze plotseling veel slimmer.
    • Het was alsof je de assistent een jaar lang hebt laten werken in 40 landen.
    • Ze konden nu veel beter omgaan met vragen in andere talen.
    • Ze maakten minder fouten bij het kiezen van de juiste knop (API).
    • Ze werden robuuster: als ze een hulpmiddel tegenkwamen dat ze nog nooit hadden gezien, konden ze het toch vaak goed gebruiken.

De Grootste Les

De belangrijkste ontdekking is dat taal en cultuur cruciaal zijn. Als je een AI alleen in het Engels traint, faalt hij vaak als hij in het Spaans, Chinees of Swahili moet werken. Door ze te trainen met een wereldwijd, meertalig dataset, worden ze niet alleen slimmer, maar ook eerlijker en betrouwbaarder voor iedereen, niet alleen voor Engelstaligen.

Samenvatting in één zin

De auteurs hebben een gigantische, wereldwijde "trainingscamp" gebouwd met echte hulpmiddelen en 29 talen, waardoor AI-assistenten leren om niet alleen te praten, maar daadwerkelijk te werken in onze complexe, multiculturele wereld.

Waarom zou je dit willen?
Omdat dit de stap is van "AI die een chatbot is" naar "AI die je echt kan helpen met je bankzaken, reisplannen en data-analyse, ongeacht waar je woont of welke taal je spreekt."