cs.CV articles | Gist.Science

CLoPA: Continual Low Parameter Adaptation of Interactive Segmentation for Medical Image Annotation

Le papier présente CLoPA, une stratégie d'adaptation continue qui affine un faible nombre de paramètres du modèle nnInteractive sur les données d'annotation pour atteindre des performances expertes sur huit tâches de segmentation médicale sans modifier le pipeline d'inférence.

Parhom Esmaeili, Chayanin Tangwiriyasakul, Eli Gibson, Sebastien Ourselin, M. Jorge Cardoso2026-03-09🤖 cs.AI

What if? Emulative Simulation with World Models for Situated Reasoning

Ce papier présente WanderDream, le premier grand ensemble de données conçu pour l'emulation de la simulation mentale permettant aux agents de raisonner sur des situations situées sans exploration active, en générant des trajectoires imaginées et des questions-réponses pour évaluer et améliorer les capacités de raisonnement spatial des modèles du monde et des LMM.

Ruiping Liu, Yufan Chen, Yuheng Zhang, Junwei Zheng, Kunyu Peng, Chengzhi Wu, Chenguang Huang, Di Wen, Jiaming Zhang, Kailun Yang, Rainer Stiefelhagen2026-03-09💻 cs

CaTok: Taming Mean Flows for One-Dimensional Causal Image Tokenization

Le papier présente CaTok, un nouveau tokeniseur d'images causal unidimensionnel couplé à un décodeur MeanFlow et à une régularisation REPA-A, qui surpasse les méthodes actuelles en reconstruction d'images ImageNet tout en permettant une génération autoregressive efficace.

Yitong Chen, Zuxuan Wu, Xipeng Qiu, Yu-Gang Jiang2026-03-09💻 cs

Pinterest Canvas: Large-Scale Image Generation at Pinterest

Ce papier présente Pinterest Canvas, un système d' génération d'images à grande échelle qui, après un entraînement initial sur un modèle de diffusion fondamental, utilise un fine-tuning rapide sur des variantes spécialisées pour répondre à des exigences produit strictes, démontrant ainsi des améliorations significatives de l'engagement et des performances supérieures aux modèles tiers.

Yu Wang, Eric Tzeng, Raymond Shiau, Jie Yang, Dmitry Kislyuk, Charles Rosenberg2026-03-09💻 cs

Training Flow Matching: The Role of Weighting and Parameterization

Cette étude analyse systématiquement l'impact du choix de la pondération et de la paramétrisation sur l'entraînement des modèles de Flow Matching, en examinant leurs interactions avec la dimensionnalité des données, l'architecture du modèle et la taille du jeu de données afin d'offrir des recommandations pratiques pour l'optimisation de la qualité générative et de la précision du débruitage.

Anne Gagneux, Ségolène Martin, Rémi Gribonval, Mathurin Massias2026-03-09💻 cs

Do Foundation Models Know Geometry? Probing Frozen Features for Continuous Physical Measurement

Cette étude démontre que les modèles fondationnels visuels-fonctionnels contiennent une géométrie continue riche dans leurs caractéristiques figées, accessible via des sondes linéaires légères, révélant ainsi que les limitations de précision proviennent principalement de l'entraînement du chemin textuel et non d'une absence de représentation géométrique.

Yakov Pyotr Shkolnikov2026-03-09🤖 cs.AI

GreenRFM: Toward a resource-efficient radiology foundation model

Le papier présente GreenRFM, un cadre d'entraînement efficace en ressources pour les modèles fondamentaux de radiologie qui, grâce à une supervision optimisée (MUST), atteint des performances de pointe avec une fraction de la puissance de calcul requise par les approches actuelles, démocratisant ainsi le développement de modèles avancés pour les cliniciens.

Yingtai Li, Shuai Ming, Mingyue Zhao, Haoran Lai, Rongsheng Wang, Rui Zhou, Rundong Wang, Yujia Li, Wei Wei, Shaohua Kevin Zhou2026-03-09💻 cs

Match4Annotate: Propagating Sparse Video Annotations via Implicit Neural Feature Matching

Le papier présente Match4Annotate, un cadre léger qui propage des annotations vidéo éparses (points et masques) à l'intérieur et entre les vidéos en ajustant une représentation neuronale implicite aux caractéristiques DINOv3 pour assurer une correspondance fluide et précise, offrant ainsi une solution efficace pour l'annotation à grande échelle dans des domaines spécialisés comme l'imagerie médicale.

Zhuorui Zhang, Roger Pallarès-López, Praneeth Namburi, Brian W. Anthony2026-03-09💻 cs

Self-Supervised Flow Matching for Scalable Multi-Modal Synthesis

Le papier présente Self-Flow, une approche d'apprentissage auto-supervisé par matching de flux qui intègre l'apprentissage de représentations sémantiques directement dans le cadre génératif via un calendrier à double pas de temps, permettant ainsi une synthèse multi-modale évolutive et performante sans dépendre de modèles externes.

Hila Chefer, Patrick Esser, Dominik Lorenz, Dustin Podell, Vikash Raja, Vinh Tong, Antonio Torralba, Robin Rombach2026-03-09✓ Author reviewed ⓘ💻 cs

SG-DOR: Learning Scene Graphs with Direction-Conditioned Occlusion Reasoning for Pepper Plants

Le papier présente SG-DOR, un cadre relationnel qui infère des graphes de scène avec un raisonnement sur l'occlusion conditionnée par la direction pour améliorer la planification de la récolte robotique de poivrons dans des canopées denses.

Rohit Menon, Niklas Mueller-Goldingen, Sicong Pan, Gokul Krishna Chenchani, Maren Bennewitz2026-03-09💻 cs

Artificial Intelligence for Detecting Fetal Orofacial Clefts and Advancing Medical Education

Cette étude présente un système d'intelligence artificielle entraîné sur plus de 45 000 images échographiques qui détecte les fentes oro-faciales fœtales avec une précision égale à celle des radiologues seniors, améliore la sensibilité des praticiens juniors et accélère leur formation dans le diagnostic de pathologies rares.

Yuanji Zhang, Yuhao Huang, Haoran Dou, Xiliang Zhu, Chen Ling, Zhong Yang, Lianying Liang, Jiuping Li, Siying Liang, Rui Li, Yan Cao, Yuhan Zhang, Jiewei Lai, Yongsong Zhou, Hongyu Zheng, Xinru Gao, Cheng Yu, Liling Shi, Mengqin Yuan, Honglong Li, Xiaoqiong Huang, Chaoyu Chen, Jialin Zhang, Wenxiong Pan, Alejandro F. Frangi, Guangzhi He, Xin Yang, Yi Xiong, Linliang Yin, Xuedong Deng, Dong Ni2026-03-09🤖 cs.AI

SCAN: Visual Explanations with Self-Confidence and Analysis Networks

Ce papier présente SCAN, un cadre universel fondé sur les principes de l'auto-encodeur et du goulot d'étranglement de l'information, qui génère des cartes de confiance haute résolution pour fournir des explications visuelles fidèles et comparables à la fois pour les réseaux de neurones convolutifs et les architectures Transformer.

Gwanghee Lee, Sungyoon Jeong, Kyoungson Jhang2026-03-09💻 cs

AV-Unified: A Unified Framework for Audio-visual Scene Understanding

Ce papier présente AV-Unified, un cadre unifié qui permet l'apprentissage conjoint de multiples tâches de compréhension de scènes audio-visuelles en standardisant leurs entrées et sorties sous forme de tokens discrets et en intégrant des modules de perception spatio-temporelle multi-échelle et de guidage intermodale.

Guangyao Li, Xin Wang, Wenwu Zhu2026-03-09💻 cs

Spatial Calibration of Diffuse LiDARs

Cet article présente une méthode de calibration spatiale simple pour les LiDARs à temps de vol diffus, permettant d'établir une correspondance explicite entre chaque pixel LiDAR et son image RGB en estimant sa zone d'impact et sa sensibilité relative grâce à l'utilisation d'un patch rétroréfléchissant balayé.

Nikhil Behari, Ramesh Raskar2026-03-09💻 cs

NEGATE: Constrained Semantic Guidance for Linguistic Negation in Text-to-Video Diffusion

Le papier présente NEGATE, une méthode sans réentraînement qui traite la négation linguistique dans les modèles de diffusion vidéo comme une contrainte de faisabilité structurée, permettant d'assurer la conformité aux négations tout en préservant la fidélité visuelle grâce à une projection géométrique des mises à jour sémantiques.

Taewon Kang, Ming C. Lin2026-03-09💻 cs

SurgFormer: Scalable Learning of Organ Deformation with Resection Support and Real-Time Inference

Le papier présente SurgFormer, un transformateur multirésolution à portes conçu pour simuler en temps réel la déformation des tissus mous et les résections chirurgicales sur des maillages volumétriques grâce à un apprentissage supervisé par XFEM.

Ashkan Shahbazi, Elaheh Akbari, Kyvia Pereira, Jon S. Heiselman, Annie C. Benson, Garrison L. H. Johnston, Jie Ying Wu, Nabil Simaan, Michael I. Miga, Soheil Kolouri2026-03-09💻 cs

Modeling and Measuring Redundancy in Multisource Multimodal Data for Autonomous Driving

Cette étude démontre que la réduction sélective des redondances dans les données multisources et multimodales des véhicules autonomes améliore les performances de détection d'objets, soulignant ainsi l'importance d'une approche centrée sur la qualité des données.

Yuhan Zhou, Mehri Sattari, Haihua Chen, Kewei Sha2026-03-09💻 cs

EgoReasoner: Learning Egocentric 4D Reasoning via Task-Adaptive Structured Thinking

Le papier présente EgoReasoner, un cadre en deux étapes qui aligne les structures de raisonnement et les signaux de récompense sur les spécificités cognitives de différentes tâches de raisonnement 4D en vidéo egocentrique, permettant à un modèle de 3 milliards de paramètres d'atteindre des performances supérieures à celles de modèles plus grands sur le benchmark HD-EPIC.

Fangrui Zhu, Yunfeng Xi, Jianmo Ni, Mu Cai, Boqing Gong, Long Zhao, Chen Qu, Ian Miao, Yi Li, Cheng Zhong, Huaizu Jiang, Shwetak Patel2026-03-09💻 cs

Penguin-VL: Exploring the Efficiency Limits of VLM with LLM-based Vision Encoders

Le papier présente Penguin-VL, une architecture de modèle vision-langage compacte qui remplace les encodeurs visuels pré-entraînés par contraste traditionnels par un encodeur initialisé à partir d'un grand modèle de langage textuel, démontrant ainsi qu'une meilleure représentation visuelle permet d'atteindre des performances supérieures à celles des modèles plus volumineux sur des tâches complexes tout en étant adaptée aux dispositifs à ressources limitées.

Boqiang Zhang, Lei Ke, Ruihan Yang, Qi Gao, Tianyuan Qu, Rossell Chen, Dong Yu, Leoweiliang2026-03-09💻 cs

SUREON: A Benchmark and Vision-Language-Model for Surgical Reasoning

Le papier présente SUREON, un vaste ensemble de données et deux modèles de vision-langage qui exploitent les narrations pédagogiques issues de vidéos chirurgicales pour doter l'IA d'une capacité de raisonnement chirurgical, surpassant ainsi les modèles généraux existants sur des tâches de sécurité, de justification de décision et de prévision.

Alejandra Perez, Anita Rau, Lee White, Busisiwe Mlambo, Chinedu Nwoye, Muhammad Abdullah Jamal, Omid Mohareri2026-03-09🤖 cs.AI

← Précédent Suivant →