What if? Emulative Simulation with World Models for Situated Reasoning

Ce papier présente WanderDream, le premier grand ensemble de données conçu pour l'emulation de la simulation mentale permettant aux agents de raisonner sur des situations situées sans exploration active, en générant des trajectoires imaginées et des questions-réponses pour évaluer et améliorer les capacités de raisonnement spatial des modèles du monde et des LMM.

Ruiping Liu, Yufan Chen, Yuheng Zhang, Junwei Zheng, Kunyu Peng, Chengzhi Wu, Chenguang Huang, Di Wen, Jiaming Zhang, Kailun Yang, Rainer Stiefelhagen2026-03-09💻 cs

Pinterest Canvas: Large-Scale Image Generation at Pinterest

Ce papier présente Pinterest Canvas, un système d' génération d'images à grande échelle qui, après un entraînement initial sur un modèle de diffusion fondamental, utilise un fine-tuning rapide sur des variantes spécialisées pour répondre à des exigences produit strictes, démontrant ainsi des améliorations significatives de l'engagement et des performances supérieures aux modèles tiers.

Yu Wang, Eric Tzeng, Raymond Shiau, Jie Yang, Dmitry Kislyuk, Charles Rosenberg2026-03-09💻 cs

Training Flow Matching: The Role of Weighting and Parameterization

Cette étude analyse systématiquement l'impact du choix de la pondération et de la paramétrisation sur l'entraînement des modèles de Flow Matching, en examinant leurs interactions avec la dimensionnalité des données, l'architecture du modèle et la taille du jeu de données afin d'offrir des recommandations pratiques pour l'optimisation de la qualité générative et de la précision du débruitage.

Anne Gagneux, Ségolène Martin, Rémi Gribonval, Mathurin Massias2026-03-09💻 cs

Do Foundation Models Know Geometry? Probing Frozen Features for Continuous Physical Measurement

Cette étude démontre que les modèles fondationnels visuels-fonctionnels contiennent une géométrie continue riche dans leurs caractéristiques figées, accessible via des sondes linéaires légères, révélant ainsi que les limitations de précision proviennent principalement de l'entraînement du chemin textuel et non d'une absence de représentation géométrique.

Yakov Pyotr Shkolnikov2026-03-09🤖 cs.AI

GreenRFM: Toward a resource-efficient radiology foundation model

Le papier présente GreenRFM, un cadre d'entraînement efficace en ressources pour les modèles fondamentaux de radiologie qui, grâce à une supervision optimisée (MUST), atteint des performances de pointe avec une fraction de la puissance de calcul requise par les approches actuelles, démocratisant ainsi le développement de modèles avancés pour les cliniciens.

Yingtai Li, Shuai Ming, Mingyue Zhao, Haoran Lai, Rongsheng Wang, Rui Zhou, Rundong Wang, Yujia Li, Wei Wei, Shaohua Kevin Zhou2026-03-09💻 cs

Match4Annotate: Propagating Sparse Video Annotations via Implicit Neural Feature Matching

Le papier présente Match4Annotate, un cadre léger qui propage des annotations vidéo éparses (points et masques) à l'intérieur et entre les vidéos en ajustant une représentation neuronale implicite aux caractéristiques DINOv3 pour assurer une correspondance fluide et précise, offrant ainsi une solution efficace pour l'annotation à grande échelle dans des domaines spécialisés comme l'imagerie médicale.

Zhuorui Zhang, Roger Pallarès-López, Praneeth Namburi, Brian W. Anthony2026-03-09💻 cs

Self-Supervised Flow Matching for Scalable Multi-Modal Synthesis

Le papier présente Self-Flow, une approche d'apprentissage auto-supervisé par matching de flux qui intègre l'apprentissage de représentations sémantiques directement dans le cadre génératif via un calendrier à double pas de temps, permettant ainsi une synthèse multi-modale évolutive et performante sans dépendre de modèles externes.

Hila Chefer, Patrick Esser, Dominik Lorenz, Dustin Podell, Vikash Raja, Vinh Tong, Antonio Torralba, Robin Rombach2026-03-09✓ Author reviewed 💻 cs

Artificial Intelligence for Detecting Fetal Orofacial Clefts and Advancing Medical Education

Cette étude présente un système d'intelligence artificielle entraîné sur plus de 45 000 images échographiques qui détecte les fentes oro-faciales fœtales avec une précision égale à celle des radiologues seniors, améliore la sensibilité des praticiens juniors et accélère leur formation dans le diagnostic de pathologies rares.

Yuanji Zhang, Yuhao Huang, Haoran Dou, Xiliang Zhu, Chen Ling, Zhong Yang, Lianying Liang, Jiuping Li, Siying Liang, Rui Li, Yan Cao, Yuhan Zhang, Jiewei Lai, Yongsong Zhou, Hongyu Zheng, Xinru Gao, Cheng Yu, Liling Shi, Mengqin Yuan, Honglong Li, Xiaoqiong Huang, Chaoyu Chen, Jialin Zhang, Wenxiong Pan, Alejandro F. Frangi, Guangzhi He, Xin Yang, Yi Xiong, Linliang Yin, Xuedong Deng, Dong Ni2026-03-09🤖 cs.AI

SurgFormer: Scalable Learning of Organ Deformation with Resection Support and Real-Time Inference

Le papier présente SurgFormer, un transformateur multirésolution à portes conçu pour simuler en temps réel la déformation des tissus mous et les résections chirurgicales sur des maillages volumétriques grâce à un apprentissage supervisé par XFEM.

Ashkan Shahbazi, Elaheh Akbari, Kyvia Pereira, Jon S. Heiselman, Annie C. Benson, Garrison L. H. Johnston, Jie Ying Wu, Nabil Simaan, Michael I. Miga, Soheil Kolouri2026-03-09💻 cs

EgoReasoner: Learning Egocentric 4D Reasoning via Task-Adaptive Structured Thinking

Le papier présente EgoReasoner, un cadre en deux étapes qui aligne les structures de raisonnement et les signaux de récompense sur les spécificités cognitives de différentes tâches de raisonnement 4D en vidéo egocentrique, permettant à un modèle de 3 milliards de paramètres d'atteindre des performances supérieures à celles de modèles plus grands sur le benchmark HD-EPIC.

Fangrui Zhu, Yunfeng Xi, Jianmo Ni, Mu Cai, Boqing Gong, Long Zhao, Chen Qu, Ian Miao, Yi Li, Cheng Zhong, Huaizu Jiang, Shwetak Patel2026-03-09💻 cs

Penguin-VL: Exploring the Efficiency Limits of VLM with LLM-based Vision Encoders

Le papier présente Penguin-VL, une architecture de modèle vision-langage compacte qui remplace les encodeurs visuels pré-entraînés par contraste traditionnels par un encodeur initialisé à partir d'un grand modèle de langage textuel, démontrant ainsi qu'une meilleure représentation visuelle permet d'atteindre des performances supérieures à celles des modèles plus volumineux sur des tâches complexes tout en étant adaptée aux dispositifs à ressources limitées.

Boqiang Zhang, Lei Ke, Ruihan Yang, Qi Gao, Tianyuan Qu, Rossell Chen, Dong Yu, Leoweiliang2026-03-09💻 cs

SUREON: A Benchmark and Vision-Language-Model for Surgical Reasoning

Le papier présente SUREON, un vaste ensemble de données et deux modèles de vision-langage qui exploitent les narrations pédagogiques issues de vidéos chirurgicales pour doter l'IA d'une capacité de raisonnement chirurgical, surpassant ainsi les modèles généraux existants sur des tâches de sécurité, de justification de décision et de prévision.

Alejandra Perez, Anita Rau, Lee White, Busisiwe Mlambo, Chinedu Nwoye, Muhammad Abdullah Jamal, Omid Mohareri2026-03-09🤖 cs.AI