DeepEyes: Incentivizing "Thinking with Images" via Reinforcement Learning

DeepEyes est un modèle vision-langage entraîné par apprentissage par renforcement qui apprend nativement à « réfléchir avec des images » en intégrant activement l'information visuelle dans son raisonnement, améliorant ainsi ses performances en perception, en raisonnement mathématique et en réduction des hallucinations sans nécessiter de données de raisonnement préalables.

Ziwei Zheng, Michael Yang, Jack Hong + 5 more2026-03-03💻 cs

Seek-CAD: A Self-refined Generative Modeling for 3D Parametric CAD Using Local Inference via DeepSeek

L'article présente Seek-CAD, une méthode sans entraînement pionnière qui utilise le modèle de langage ouvert DeepSeek-R1 couplé à un mécanisme d'auto-affinement basé sur la rétroaction visuelle et le raisonnement en chaîne de pensée pour générer des modèles CAO paramétriques 3D, validé par un nouveau jeu de données structuré selon le paradigme SSR.

Xueyang Li, Jiahao Li, Yu Song + 2 more2026-03-03🤖 cs.AI

Point-MoE: Large-Scale Multi-Dataset Training with Mixture-of-Experts for 3D Semantic Segmentation

Le papier présente Point-MoE, une architecture de type Mixture-of-Experts qui permet l'entraînement conjoint à grande échelle de modèles de segmentation sémantique 3D sur des ensembles de données hétérogènes sans étiquettes de jeu de données, en utilisant des experts spécialisés activés de manière parcimonieuse pour surmonter les biais inhérents aux différentes sources de nuages de points.

Xuweiyi Chen, Wentao Zhou, Aruni RoyChowdhury + 1 more2026-03-03💻 cs

SenseFlow: Scaling Distribution Matching for Flow-based Text-to-Image Distillation

Le papier présente SenseFlow, une méthode de distillation qui surmonte les difficultés de convergence de la distillation par correspondance de distribution sur les grands modèles de génération d'images basés sur le flux (comme SD 3.5 et FLUX) grâce à une alignement de distribution implicite et un guidage intra-segment, permettant d'obtenir des performances supérieures.

Xingtong Ge, Xin Zhang, Tongda Xu + 4 more2026-03-03💻 cs

Harnessing Chain-of-Thought Reasoning in Multimodal Large Language Models for Face Anti-Spoofing

Cette étude présente FaceCoT, le premier jeu de données VQA à grande échelle pour la détection de falsification faciale, enrichi par un modèle de légende optimisé par apprentissage par renforcement et une stratégie d'apprentissage progressif (CEPL) qui exploitent le raisonnement par chaîne de pensée pour améliorer la robustesse et l'interprétabilité des modèles multimodaux.

Honglu Zhang, Zhiqin Fang, Ningning Zhao + 4 more2026-03-03💻 cs

Improving Wildlife Out-of-Distribution Detection: Africas Big Five

Cette étude propose une méthode améliorée de détection hors distribution pour les animaux sauvages, démontrant que l'approche paramétrique Nearest Class Mean (NCM) combinée à des caractéristiques préentraînées sur ImageNet surpasse significativement les méthodes existantes pour identifier les membres de la « Big Five » africaine et ainsi atténuer les conflits homme-faune.

Mufhumudzi Muthivhi, Jiahao Huo, Fredrik Gustafsson + 1 more2026-03-03🤖 cs.AI

BitVLA: 1-bit Vision-Language-Action Models for Robotics Manipulation

Ce papier présente BitVLA, un modèle entièrement natif en 1 bit pour la manipulation robotique qui, grâce à une conception optimisée et une stratégie d'entraînement « Quantize-then-Distill », atteint des performances comparables aux modèles pleine précision tout en réduisant la mémoire de 11 fois et la latence de 4,4 fois pour un déploiement efficace sur des dispositifs embarqués.

Hongyu Wang, Chuyan Xiong, Ruiping Wang + 1 more2026-03-03💻 cs

PD2^{2}GS: Part-Level Decoupling and Continuous Deformation of Articulated Objects via Gaussian Splatting

Le papier présente PD²GS, un cadre novateur utilisant le Gaussian Splatting pour modéliser la déformation continue d'objets articulés via un champ gaussien canonique partagé, permettant une découpe précise au niveau des parties et un contrôle fluide sans supervision manuelle, tout en étant validé par le nouveau jeu de données réel-to-sim RS-Art.

Haowen Wang, Xiaoping Yuan, Zhao Jin + 6 more2026-03-03💻 cs

VITA: Zero-Shot Value Functions via Test-Time Adaptation of Vision-Language Models

Le papier présente VITA, une méthode d'apprentissage de fonctions de valeur sans échantillon qui améliore la généralisation et le raisonnement temporel des modèles vision-langage grâce à une adaptation au moment du test et une stratégie d'échantillonnage diversifié, surpassant les méthodes existantes dans des tâches de manipulation robotique et le renforcement hors ligne.

Christos Ziakas, Alessandra Russo2026-03-03🤖 cs.AI