Tool-Genesis: A Task-Driven Tool Creation Benchmark for Self-Evolving Language Agent
Il paper presenta Tool-Genesis, un benchmark diagnostico che valuta la capacità degli agenti linguistici di creare e utilizzare strumenti autonomamente da requisiti astratti, rivelando come le imperfezioni iniziali nei modelli più avanzati compromettano drasticamente le prestazioni a valle.