Multimodal Behavior Tree Generation: A Small Vision-Language Model for Robot Task Planning
Cet article présente une méthode utilisant un petit modèle vision-langage (VLM) de 4 milliards de paramètres, affiné sur un nouveau dataset généré à partir d'épisodes robotiques, pour produire des arbres de comportement exécutables qui atteignent un taux de réussite de 87 % dans des tâches ménagères simulées, rivalisant ainsi avec des modèles fermés beaucoup plus coûteux.