Seed2Scale: A Self-Evolving Data Engine for Embodied AI via Small to Large Model Synergy and Multimodal Evaluation

Seed2Scale est un moteur de données auto-évoluant qui surmonte les goulots d'étranglement de la génération de données pour l'IA incarnée en exploitant la synergie entre un petit modèle collecteur et un grand modèle évaluateur pour transformer quatre démonstrations initiales en un apprentissage itératif robuste, augmentant ainsi les performances de 131,2 %.

Cong Tai, Zhaoyu Zheng, Haixu Long, Hansheng Wu, Zhengbin Long, Haodong Xiang, Rong Shi, Zhuo Cui, Shizhuang Zhang, Gang Qiu, He Wang, Ruifeng Li, Biao Liu, Zhenzhe Sun, Tao Shen

Publié 2026-03-10
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous voulez apprendre à un robot à faire le ménage dans une cuisine, mais vous n'avez que quatre petites vidéos de quelqu'un qui le fait. C'est très peu ! D'habitude, pour qu'un robot devienne intelligent, il faut des milliers d'heures de démonstrations humaines, ce qui est long, cher et épuisant.

C'est là que Seed2Scale (qui signifie "De la graine à l'échelle") intervient. C'est une nouvelle méthode qui permet à un robot de s'entraîner tout seul, de manière infinie, en partant de ce tout petit début.

Voici comment cela fonctionne, expliqué avec des images simples :

1. La Graine (Les 4 vidéos)

Tout commence avec une toute petite "graine" : seulement 4 exemples humains. C'est comme si vous donniez à un enfant 4 dessins pour lui apprendre à dessiner des chats.

2. Le Petit Apprenti (Le modèle "SuperTiny")

Au lieu d'utiliser un super-ordinateur géant pour essayer de faire le travail tout de suite, le système utilise un petit robot très rapide et léger, qu'on appelle "SuperTiny".

  • L'analogie : Imaginez un apprenti cuisinier très rapide qui a une mémoire courte mais qui adore répéter les gestes. Il prend vos 4 vidéos et se lance dans des milliers d'essais en parallèle, comme s'il avait 100 bras qui cuisinent en même temps.
  • Le problème : Comme il est petit et qu'il apprend vite, il fait beaucoup d'erreurs. Il renverse le sel, il casse les œufs, il rate la poêle. Si on utilisait toutes ces erreurs pour l'entraîner, il deviendrait de plus en plus bête (c'est ce qu'on appelle l'effondrement du modèle).

3. Le Chef Expert (Le modèle "VLV")

C'est ici que la magie opère. Le système utilise un gros chef cuisinier très expérimenté (un grand modèle d'intelligence artificielle pré-entraîné) qui ne cuisine pas, mais qui regarde et juge.

  • Son rôle : Il regarde les milliers de tentatives du petit apprenti.
    • Si l'apprenti renverse tout : Le chef dit "Non, ça ne compte pas, c'est raté".
    • Si l'apprenti réussit à mettre l'assiette dans le panier, mais un peu mal : Le chef dit "C'est correct, mais on peut faire mieux".
    • Si l'apprenti fait un mouvement fluide et parfait : Le chef dit "Excellent ! C'est une leçon parfaite".
  • Le filtre : Le chef ne garde que les meilleures tentatives. Il agit comme un garde-barrière très strict.

4. L'Entraînement Final (Le Robot "SmolVLA")

Une fois que le chef a trié les meilleures tentatives parmi les milliers d'essais, il crée un livre de recettes parfait.

  • C'est ce livre de recettes (les données de haute qualité) qui est utilisé pour entraîner le vrai robot final (le modèle cible).
  • Ce robot final apprend uniquement sur les meilleurs exemples, sans jamais voir les erreurs.

Pourquoi c'est génial ?

Imaginez que vous essayiez d'apprendre à nager.

  • Les anciennes méthodes : Vous vous jetez dans l'eau et vous vous noyez un peu, puis vous vous noyez encore plus, jusqu'à ce que vous détestiez l'eau.
  • Seed2Scale : Vous avez un petit nageur qui fait des milliers de mouvements dans une piscine. Un coach très attentif regarde tout et ne vous donne que les vidéos des mouvements parfaits. Vous apprenez donc à nager comme un champion, en vous entraînant uniquement sur l'excellence.

Les résultats ?
Grâce à cette méthode, le robot a pu passer d'un taux de réussite de 22 % (il échouait souvent) à 68 % (il réussit la plupart du temps), juste en partant de 4 vidéos de départ. C'est une amélioration de plus de 200 % !

En résumé, Seed2Scale est une usine à données intelligente qui transforme une toute petite graine d'information en une forêt d'expériences, en s'assurant que seules les meilleures graines sont plantées pour faire grandir le robot.