Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

Le papier présente Vision-DeepResearch, un nouveau paradigme de recherche profonde multimodale qui intègre des capacités de recherche itérative multi-tours, multi-entités et multi-échelles dans les grands modèles de langage multimodaux via un entraînement par supervision et renforcement, surpassant ainsi les modèles existants et les flux de travail basés sur des modèles propriétaires avancés dans des scénarios réels bruyants.

Wenxuan Huang, Yu Zeng, Qiuchen Wang, Zhen Fang, Shaosheng Cao, Zheng Chu, Qingyu Yin, Shuang Chen, Zhenfei Yin, Lin Chen, Zehui Chen, Xu Tang, Yao Hu, Philip Torr, Feng Zhao, Wanli Ouyang

Publié 2026-03-03
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous demandez à un ami très intelligent, mais qui n'a jamais quitté sa chambre, de vous raconter une histoire sur un match de basket récent. Il connaît les règles du jeu par cœur (c'est son "savoir interne"), mais il ne sait pas qui a gagné hier soir, ni quel joueur a fait la dernière panier.

Si vous lui dites : "Regarde cette photo du match et dis-moi qui a marqué", il va essayer de deviner en se basant sur ce qu'il voit. Mais souvent, il se trompe car l'image est floue, ou il y a trop de gens sur la photo, ou il ne voit pas le panneau d'affichage. C'est le problème des modèles d'intelligence artificielle actuels : ils sont brillants, mais ils ne savent pas bien chercher l'information quand ils en ont besoin.

Voici comment le papier "Vision-DeepResearch" résout ce problème, expliqué simplement :

1. Le Problème : "Le coup de chance" (Hit-Rate Problem)

Les anciens systèmes fonctionnaient comme quelqu'un qui lance une photo entière dans un moteur de recherche et espère que ça marche du premier coup.

  • L'analogie : C'est comme essayer de trouver une aiguille dans une botte de foin en jetant toute la botte dans un tas de paille. Si l'aiguille est cachée sous un brin de foin, vous ne la trouverez pas.
  • La réalité : Sur une photo, il y a souvent du "bruit" (des gens, des objets, des ombres). Si on cherche juste "l'image entière", le moteur de recherche se perd. De plus, même si on cherche un objet précis (comme un joueur), le moteur peut ne pas le trouver si on ne précise pas il est sur la photo.

2. La Solution : L'Enquêteur Privé (Vision-DeepResearch)

Les auteurs ont créé un nouveau modèle, Vision-DeepResearch, qui ne se contente pas de regarder la photo. Il agit comme un détective privé très méthodique.

Au lieu de lancer une seule recherche, il fait ceci :

  1. Il découpe la photo : Il ne regarde pas la photo entière d'un coup. Il prend une loupe et découpe la photo en petits morceaux (les "crops"). Il cherche le joueur dans un coin, puis dans un autre, puis zoome sur son maillot.
  2. Il fait des allers-retours : Si la première recherche ne donne rien, il ne lâche pas. Il change sa question, il cherche sur le web, il compare les résultats, il revient en arrière.
  3. Il combine les indices : Il utilise à la fois ce qu'il voit (la photo) et ce qu'il lit sur internet (des articles, des stats) pour reconstituer l'histoire.

C'est comme si, au lieu de demander "Qui a gagné ?", votre ami détective disait : "Attends, je regarde le maillot du joueur... il porte le numéro 23. Je vais chercher sur Google 'Joueur numéro 23 des Lakers'. Ah, c'est LeBron. Maintenant, je vérifie s'il a joué hier. Oui, et il a marqué 30 points."

3. Comment l'ont-ils entraîné ? (L'École de Détectives)

Pour apprendre à ce modèle à être un si bon détective, les chercheurs n'ont pas juste donné des manuels. Ils ont créé une école d'entraînement spéciale :

  • La fabrication de cas complexes : Ils ont créé des milliers de "fausses affaires" (des questions sur des images) où la réponse n'est pas évidente. Ils ont caché les réponses et les noms des personnages pour forcer le modèle à faire des recherches en plusieurs étapes (comme un jeu de piste).
  • L'entraînement par essai-erreur (RL) : Le modèle a essayé de résoudre ces milliers d'affaires. S'il trouvait la bonne réponse, il avait un "bon point". S'il se trompait ou s'il s'arrêtait trop vite, il reprenait sa recherche. Au fil du temps, il a appris à ne jamais abandonner et à creuser profondément.

4. Le Résultat : Un Super-Héros de la Recherche

Le résultat est impressionnant.

  • Avant : Les modèles s'arrêtaient après 2 ou 3 recherches et donnaient souvent une réponse approximative.
  • Aujourd'hui (Vision-DeepResearch) : Le modèle peut faire des dizaines d'étapes de réflexion et des centaines de recherches sur internet pour une seule question.

Même avec un modèle de taille moyenne (pas le plus gros et le plus cher du marché), ils battent des géants comme GPT-5 ou Gemini dans ces tâches complexes.

En résumé

Imaginez la différence entre un touriste qui regarde une carte touristique et dit "Je pense que la tour Eiffel est là" (ancien modèle), et un guide local qui, s'il ne voit pas la tour, va demander à un passant, vérifier sur son téléphone, regarder une photo de l'angle opposé, et enfin vous dire exactement où elle est et pourquoi elle est rouge ce soir-là.

Vision-DeepResearch, c'est ce guide local. Il ne devine pas, il enquête. Et grâce à cette méthode, il devient le meilleur détective visuel du monde.