REACT++: Efficient Cross-Attention for Real-Time Scene Graph Generation

Le papier présente REACT++, un modèle de pointe pour la génération de graphes de scène en temps réel qui, en exploitant une extraction de caractéristiques efficace et une attention croisée sujet-objet dans l'espace des prototypes, atteint une vitesse d'inférence supérieure de 20 % et une précision de prédiction des relations améliorée de 10 % par rapport à la version précédente, tout en maintenant les performances de détection d'objets.

Maëlic Neau, Zoe Falomir2026-03-09💻 cs

What if? Emulative Simulation with World Models for Situated Reasoning

Ce papier présente WanderDream, le premier grand ensemble de données conçu pour l'emulation de la simulation mentale permettant aux agents de raisonner sur des situations situées sans exploration active, en générant des trajectoires imaginées et des questions-réponses pour évaluer et améliorer les capacités de raisonnement spatial des modèles du monde et des LMM.

Ruiping Liu, Yufan Chen, Yuheng Zhang, Junwei Zheng, Kunyu Peng, Chengzhi Wu, Chenguang Huang, Di Wen, Jiaming Zhang, Kailun Yang, Rainer Stiefelhagen2026-03-09💻 cs

Pinterest Canvas: Large-Scale Image Generation at Pinterest

Ce papier présente Pinterest Canvas, un système d' génération d'images à grande échelle qui, après un entraînement initial sur un modèle de diffusion fondamental, utilise un fine-tuning rapide sur des variantes spécialisées pour répondre à des exigences produit strictes, démontrant ainsi des améliorations significatives de l'engagement et des performances supérieures aux modèles tiers.

Yu Wang, Eric Tzeng, Raymond Shiau, Jie Yang, Dmitry Kislyuk, Charles Rosenberg2026-03-09💻 cs

Training Flow Matching: The Role of Weighting and Parameterization

Cette étude analyse systématiquement l'impact du choix de la pondération et de la paramétrisation sur l'entraînement des modèles de Flow Matching, en examinant leurs interactions avec la dimensionnalité des données, l'architecture du modèle et la taille du jeu de données afin d'offrir des recommandations pratiques pour l'optimisation de la qualité générative et de la précision du débruitage.

Anne Gagneux, Ségolène Martin, Rémi Gribonval, Mathurin Massias2026-03-09💻 cs

Do Foundation Models Know Geometry? Probing Frozen Features for Continuous Physical Measurement

Cette étude démontre que les modèles fondationnels visuels-fonctionnels contiennent une géométrie continue riche dans leurs caractéristiques figées, accessible via des sondes linéaires légères, révélant ainsi que les limitations de précision proviennent principalement de l'entraînement du chemin textuel et non d'une absence de représentation géométrique.

Yakov Pyotr Shkolnikov2026-03-09🤖 cs.AI

GreenRFM: Toward a resource-efficient radiology foundation model

Le papier présente GreenRFM, un cadre d'entraînement efficace en ressources pour les modèles fondamentaux de radiologie qui, grâce à une supervision optimisée (MUST), atteint des performances de pointe avec une fraction de la puissance de calcul requise par les approches actuelles, démocratisant ainsi le développement de modèles avancés pour les cliniciens.

Yingtai Li, Shuai Ming, Mingyue Zhao, Haoran Lai, Rongsheng Wang, Rui Zhou, Rundong Wang, Yujia Li, Wei Wei, Shaohua Kevin Zhou2026-03-09💻 cs

Match4Annotate: Propagating Sparse Video Annotations via Implicit Neural Feature Matching

Le papier présente Match4Annotate, un cadre léger qui propage des annotations vidéo éparses (points et masques) à l'intérieur et entre les vidéos en ajustant une représentation neuronale implicite aux caractéristiques DINOv3 pour assurer une correspondance fluide et précise, offrant ainsi une solution efficace pour l'annotation à grande échelle dans des domaines spécialisés comme l'imagerie médicale.

Zhuorui Zhang, Roger Pallarès-López, Praneeth Namburi, Brian W. Anthony2026-03-09💻 cs

Self-Supervised Flow Matching for Scalable Multi-Modal Synthesis

Le papier présente Self-Flow, une approche d'apprentissage auto-supervisé par matching de flux qui intègre l'apprentissage de représentations sémantiques directement dans le cadre génératif via un calendrier à double pas de temps, permettant ainsi une synthèse multi-modale évolutive et performante sans dépendre de modèles externes.

Hila Chefer, Patrick Esser, Dominik Lorenz, Dustin Podell, Vikash Raja, Vinh Tong, Antonio Torralba, Robin Rombach2026-03-09✓ Author reviewed 💻 cs

Artificial Intelligence for Detecting Fetal Orofacial Clefts and Advancing Medical Education

Cette étude présente un système d'intelligence artificielle entraîné sur plus de 45 000 images échographiques qui détecte les fentes oro-faciales fœtales avec une précision égale à celle des radiologues seniors, améliore la sensibilité des praticiens juniors et accélère leur formation dans le diagnostic de pathologies rares.

Yuanji Zhang, Yuhao Huang, Haoran Dou, Xiliang Zhu, Chen Ling, Zhong Yang, Lianying Liang, Jiuping Li, Siying Liang, Rui Li, Yan Cao, Yuhan Zhang, Jiewei Lai, Yongsong Zhou, Hongyu Zheng, Xinru Gao, Cheng Yu, Liling Shi, Mengqin Yuan, Honglong Li, Xiaoqiong Huang, Chaoyu Chen, Jialin Zhang, Wenxiong Pan, Alejandro F. Frangi, Guangzhi He, Xin Yang, Yi Xiong, Linliang Yin, Xuedong Deng, Dong Ni2026-03-09🤖 cs.AI