cs.CV articles | Gist.Science

REACT++: Efficient Cross-Attention for Real-Time Scene Graph Generation

Le papier présente REACT++, un modèle de pointe pour la génération de graphes de scène en temps réel qui, en exploitant une extraction de caractéristiques efficace et une attention croisée sujet-objet dans l'espace des prototypes, atteint une vitesse d'inférence supérieure de 20 % et une précision de prédiction des relations améliorée de 10 % par rapport à la version précédente, tout en maintenant les performances de détection d'objets.

Maëlic Neau, Zoe Falomir2026-03-09💻 cs

Solving Jigsaw Puzzles in the Wild: Human-Guided Reconstruction of Cultural Heritage Fragments

Cet article propose un cadre de résolution de puzzles intégrant une boucle humaine pour reconstruire efficacement des fragments d'artefacts culturels érodés et complexes, surpassant les méthodes entièrement automatiques ou manuelles en précision et en efficacité.

Omidreza Safaei, Sinem Aslan, Sebastiano Vascon, Luca Palmieri, Marina Khoroshiltseva, Marcello Pelillo2026-03-09💻 cs

DiffInf: Influence-Guided Diffusion for Supervision Alignment in Facial Attribute Learning

Le papier présente DiffInf, un cadre d'apprentissage guidé par l'influence qui utilise la diffusion générative pour corriger les incohérences d'annotation dans les données d'entraînement et ainsi améliorer la classification des attributs faciaux sans réduire la couverture de la distribution.

Basudha Pal, Rama Chellappa2026-03-09💻 cs

Locating and Editing Figure-Ground Organization in Vision Transformers

Cette étude identifie les mécanismes internes du modèle BEiT qui résolvent l'ambiguïté figure-fond en faveur d'une complétion convexe, révélant que ce processus se cristallise dans les couches tardives et est initialement amorcé par une attention spécifique (L0H9) dont la modulation permet de basculer la perception vers une complétion concave.

Stefan Arnold, René Gröbner2026-03-09💻 cs

Physical Simulator In-the-Loop Video Generation

Ce papier présente PSIVG, un cadre innovant intégrant un simulateur physique dans le processus de génération vidéo par diffusion pour garantir le respect des lois physiques tout en préservant la qualité visuelle grâce à une optimisation de la cohérence des textures.

Lin Geng Foo, Mark He Huang, Alexandros Lattas, Stylianos Moschoglou, Thabo Beeler, Christian Theobalt2026-03-09🤖 cs.AI

Non-invasive Growth Monitoring of Small Freshwater Fish in Home Aquariums via Stereo Vision

Cet article propose une méthode de vision stéréoscopique non invasive et consciente de la réfraction, basée sur un réseau YOLOv11-Pose, pour estimer avec précision la longueur des petits poissons d'aquarium en surmontant les distorsions optiques et en filtrant les détections de faible qualité.

Clemens Seibold, Anna Hilsmann, Peter Eisert2026-03-09💻 cs

CLoPA: Continual Low Parameter Adaptation of Interactive Segmentation for Medical Image Annotation

Le papier présente CLoPA, une stratégie d'adaptation continue qui affine un faible nombre de paramètres du modèle nnInteractive sur les données d'annotation pour atteindre des performances expertes sur huit tâches de segmentation médicale sans modifier le pipeline d'inférence.

Parhom Esmaeili, Chayanin Tangwiriyasakul, Eli Gibson, Sebastien Ourselin, M. Jorge Cardoso2026-03-09🤖 cs.AI

What if? Emulative Simulation with World Models for Situated Reasoning

Ce papier présente WanderDream, le premier grand ensemble de données conçu pour l'emulation de la simulation mentale permettant aux agents de raisonner sur des situations situées sans exploration active, en générant des trajectoires imaginées et des questions-réponses pour évaluer et améliorer les capacités de raisonnement spatial des modèles du monde et des LMM.

Ruiping Liu, Yufan Chen, Yuheng Zhang, Junwei Zheng, Kunyu Peng, Chengzhi Wu, Chenguang Huang, Di Wen, Jiaming Zhang, Kailun Yang, Rainer Stiefelhagen2026-03-09💻 cs

CaTok: Taming Mean Flows for One-Dimensional Causal Image Tokenization

Le papier présente CaTok, un nouveau tokeniseur d'images causal unidimensionnel couplé à un décodeur MeanFlow et à une régularisation REPA-A, qui surpasse les méthodes actuelles en reconstruction d'images ImageNet tout en permettant une génération autoregressive efficace.

Yitong Chen, Zuxuan Wu, Xipeng Qiu, Yu-Gang Jiang2026-03-09💻 cs

Pinterest Canvas: Large-Scale Image Generation at Pinterest

Ce papier présente Pinterest Canvas, un système d' génération d'images à grande échelle qui, après un entraînement initial sur un modèle de diffusion fondamental, utilise un fine-tuning rapide sur des variantes spécialisées pour répondre à des exigences produit strictes, démontrant ainsi des améliorations significatives de l'engagement et des performances supérieures aux modèles tiers.

Yu Wang, Eric Tzeng, Raymond Shiau, Jie Yang, Dmitry Kislyuk, Charles Rosenberg2026-03-09💻 cs

Training Flow Matching: The Role of Weighting and Parameterization

Cette étude analyse systématiquement l'impact du choix de la pondération et de la paramétrisation sur l'entraînement des modèles de Flow Matching, en examinant leurs interactions avec la dimensionnalité des données, l'architecture du modèle et la taille du jeu de données afin d'offrir des recommandations pratiques pour l'optimisation de la qualité générative et de la précision du débruitage.

Anne Gagneux, Ségolène Martin, Rémi Gribonval, Mathurin Massias2026-03-09💻 cs

Do Foundation Models Know Geometry? Probing Frozen Features for Continuous Physical Measurement

Cette étude démontre que les modèles fondationnels visuels-fonctionnels contiennent une géométrie continue riche dans leurs caractéristiques figées, accessible via des sondes linéaires légères, révélant ainsi que les limitations de précision proviennent principalement de l'entraînement du chemin textuel et non d'une absence de représentation géométrique.

Yakov Pyotr Shkolnikov2026-03-09🤖 cs.AI

GreenRFM: Toward a resource-efficient radiology foundation model

Le papier présente GreenRFM, un cadre d'entraînement efficace en ressources pour les modèles fondamentaux de radiologie qui, grâce à une supervision optimisée (MUST), atteint des performances de pointe avec une fraction de la puissance de calcul requise par les approches actuelles, démocratisant ainsi le développement de modèles avancés pour les cliniciens.

Yingtai Li, Shuai Ming, Mingyue Zhao, Haoran Lai, Rongsheng Wang, Rui Zhou, Rundong Wang, Yujia Li, Wei Wei, Shaohua Kevin Zhou2026-03-09💻 cs

Match4Annotate: Propagating Sparse Video Annotations via Implicit Neural Feature Matching

Le papier présente Match4Annotate, un cadre léger qui propage des annotations vidéo éparses (points et masques) à l'intérieur et entre les vidéos en ajustant une représentation neuronale implicite aux caractéristiques DINOv3 pour assurer une correspondance fluide et précise, offrant ainsi une solution efficace pour l'annotation à grande échelle dans des domaines spécialisés comme l'imagerie médicale.

Zhuorui Zhang, Roger Pallarès-López, Praneeth Namburi, Brian W. Anthony2026-03-09💻 cs

Self-Supervised Flow Matching for Scalable Multi-Modal Synthesis

Le papier présente Self-Flow, une approche d'apprentissage auto-supervisé par matching de flux qui intègre l'apprentissage de représentations sémantiques directement dans le cadre génératif via un calendrier à double pas de temps, permettant ainsi une synthèse multi-modale évolutive et performante sans dépendre de modèles externes.

Hila Chefer, Patrick Esser, Dominik Lorenz, Dustin Podell, Vikash Raja, Vinh Tong, Antonio Torralba, Robin Rombach2026-03-09✓ Author reviewed ⓘ💻 cs

SG-DOR: Learning Scene Graphs with Direction-Conditioned Occlusion Reasoning for Pepper Plants

Le papier présente SG-DOR, un cadre relationnel qui infère des graphes de scène avec un raisonnement sur l'occlusion conditionnée par la direction pour améliorer la planification de la récolte robotique de poivrons dans des canopées denses.

Rohit Menon, Niklas Mueller-Goldingen, Sicong Pan, Gokul Krishna Chenchani, Maren Bennewitz2026-03-09💻 cs

Artificial Intelligence for Detecting Fetal Orofacial Clefts and Advancing Medical Education

Cette étude présente un système d'intelligence artificielle entraîné sur plus de 45 000 images échographiques qui détecte les fentes oro-faciales fœtales avec une précision égale à celle des radiologues seniors, améliore la sensibilité des praticiens juniors et accélère leur formation dans le diagnostic de pathologies rares.

Yuanji Zhang, Yuhao Huang, Haoran Dou, Xiliang Zhu, Chen Ling, Zhong Yang, Lianying Liang, Jiuping Li, Siying Liang, Rui Li, Yan Cao, Yuhan Zhang, Jiewei Lai, Yongsong Zhou, Hongyu Zheng, Xinru Gao, Cheng Yu, Liling Shi, Mengqin Yuan, Honglong Li, Xiaoqiong Huang, Chaoyu Chen, Jialin Zhang, Wenxiong Pan, Alejandro F. Frangi, Guangzhi He, Xin Yang, Yi Xiong, Linliang Yin, Xuedong Deng, Dong Ni2026-03-09🤖 cs.AI

SCAN: Visual Explanations with Self-Confidence and Analysis Networks

Ce papier présente SCAN, un cadre universel fondé sur les principes de l'auto-encodeur et du goulot d'étranglement de l'information, qui génère des cartes de confiance haute résolution pour fournir des explications visuelles fidèles et comparables à la fois pour les réseaux de neurones convolutifs et les architectures Transformer.

Gwanghee Lee, Sungyoon Jeong, Kyoungson Jhang2026-03-09💻 cs

AV-Unified: A Unified Framework for Audio-visual Scene Understanding

Ce papier présente AV-Unified, un cadre unifié qui permet l'apprentissage conjoint de multiples tâches de compréhension de scènes audio-visuelles en standardisant leurs entrées et sorties sous forme de tokens discrets et en intégrant des modules de perception spatio-temporelle multi-échelle et de guidage intermodale.

Guangyao Li, Xin Wang, Wenwu Zhu2026-03-09💻 cs

Spatial Calibration of Diffuse LiDARs

Cet article présente une méthode de calibration spatiale simple pour les LiDARs à temps de vol diffus, permettant d'établir une correspondance explicite entre chaque pixel LiDAR et son image RGB en estimant sa zone d'impact et sa sensibilité relative grâce à l'utilisation d'un patch rétroréfléchissant balayé.

Nikhil Behari, Ramesh Raskar2026-03-09💻 cs

← Précédent Suivant →