cs.CV articles | Gist.Science

Cross-Resolution Distribution Matching for Diffusion Distillation

L'article propose RMD, un nouveau cadre de distillation qui comble les écarts de distribution entre résolutions grâce à une correspondance logarithmique du rapport signal-sur-bruit et à une réinjection de bruit, permettant ainsi d'accélérer considérablement la génération d'images et de vidéos tout en préservant une haute fidélité visuelle.

Feiyang Chen, Hongpeng Pan, Haonan Xu, Xinyu Duan, Yang Yang, Zhefeng Wang2026-03-09💻 cs

Place-it-R1: Unlocking Environment-aware Reasoning Potential of MLLM for Video Object Insertion

Le papier présente Place-it-R1, un cadre end-to-end qui exploite le raisonnement de type « chaîne de pensée » des modèles de langage multimodaux pour orchestrer l'insertion d'objets dans des vidéos, garantissant ainsi une cohérence physique et causale avec l'environnement grâce à une boucle de rétroaction itérative et à des modes de contrôle adaptatifs.

Bohai Gu, Taiyi Wu, Dazhao Du, Jian Liu, Shuai Yang, Xiaotong Zhao, Alan Zhao, Song Guo2026-03-09🤖 cs.AI

Spatial Colour Mixing Illusions as a Perception Stress Test for Vision-Language Models

Cette étude révèle que les modèles vision-langage échouent systématiquement face à des distorsions chromatiques spatiales qui ne perturbent pas la perception humaine, démontrant ainsi la nécessité d'intégrer des prétraitements inspirés de la perception pour améliorer leur robustesse.

Nicoleta-Nina Basoc, Adrian Cosma, Emilian Radoi2026-03-09💻 cs

Longitudinal NSCLC Treatment Progression via Multimodal Generative Models

Cette étude propose un cadre de traitement virtuel basé sur des modèles génératifs multimodaux pour prédire l'évolution des tumeurs du cancer du poumon non à petites cellules sous radiothérapie, démontrant que les modèles de diffusion surpassent les GAN en produisant des trajectoires d'évolution tumorale plus stables et anatomiquement plausibles grâce à une conditionnement sensible à la dose.

Massimiliano Mantegna, Elena Mulero Ayllón, Alice Natalina Caragliano, Francesco Di Feola, Claudia Tacconi, Michele Fiore, Edy Ippolito, Carlo Greco, Sara Ramella, Philippe C. Cattin, Paolo Soda, Matteo Tortora, Valerio Guarrasi2026-03-09💻 cs

VLM-RobustBench: A Comprehensive Benchmark for Robustness of Vision-Language Models

Le papier présente VLM-RobustBench, un benchmark complet évaluant la robustesse des modèles vision-langage face à 133 types de perturbations, révélant que ces modèles, bien que sémantiquement puissants, sont spatialement fragiles et que les déformations géométriques et de rééchantillonnage dégradent leurs performances bien plus que les corruptions photométriques sévères.

Rohit Saxena, Alessandro Suglia, Pasquale Minervini2026-03-09🤖 cs.AI

Reflective Flow Sampling Enhancement

Cet article propose RF-Sampling, une méthode d'amélioration de l'inférence sans entraînement et théoriquement fondée, conçue spécifiquement pour optimiser la qualité de génération et l'alignement avec le texte des modèles de flux comme FLUX en effectuant une ascension de gradient implicite sur le score d'alignement.

Zikai Zhou, Muyao Wang, Shitong Shao, Lichen Bai, Haoyi Xiong, Bo Han, Zeke Xie2026-03-09🤖 cs.AI

FreeOcc: Training-free Panoptic Occupancy Prediction via Foundation Models

Le papier présente FreeOcc, une méthode d'occurrence panoptique sans entraînement qui exploite des modèles de fondation pré-entraînés pour reconstruire la géométrie et la sémantique 3D à partir d'images multi-vues, atteignant des performances comparables aux méthodes supervisées faiblement sur le jeu de données Occ3D-nuScenes.

Andrew Caunes, Thierry Chateau, Vincent Fremont2026-03-09💻 cs

A Semi-Supervised Framework for Breast Ultrasound Segmentation with Training-Free Pseudo-Label Generation and Label Refinement

Cet article propose un cadre d'apprentissage semi-supervisé pour la segmentation des ultrasons mammaires qui génère des pseudo-étiquettes sans entraînement grâce à des modèles vision-langage, les affine par des mécanismes d'apprentissage contrastif et atteint des performances comparables aux modèles entièrement supervisés avec seulement 2,5 % de données annotées.

Ruili Li, Jiayi Ding, Ruiyu Li, Yilun Jin, Shiwen Ge, Yuwen Zeng, Xiaoyong Zhang, Eichi Takaya, Jan Vrba, Noriyasu Homma2026-03-09💻 cs

JOPP-3D: Joint Open Vocabulary Semantic Segmentation on Point Clouds and Panoramas

Ce papier présente JOPP-3D, un cadre de segmentation sémantique à vocabulaire ouvert qui fusionne des données panoramiques et des nuages de points 3D pour permettre une compréhension de scène pilotée par le langage et surpasser les méthodes actuelles sur les deux modalités.

Sandeep Inuganti, Hideaki Kanayama, Kanta Shimizu, Mahdi Chamseddine, Soichiro Yokota, Didier Stricker, Jason Rambach2026-03-09💻 cs

Optimizing 3D Diffusion Models for Medical Imaging via Multi-Scale Reward Learning

Cet article présente une méthode optimisant les modèles de diffusion 3D pour l'imagerie médicale en utilisant un apprentissage par renforcement avec des récompenses multi-échelles, améliorant ainsi la qualité des images synthétiques et leur utilité pour les tâches de classification des tumeurs.

Yueying Tian, Xudong Han, Meng Zhou, Rodrigo Aviles-Espinosa, Rupert Young, Philip Birch2026-03-09💻 cs

Making Training-Free Diffusion Segmentors Scale with the Generative Power

Ce papier propose deux techniques, l'agrégation automatique et le recalage par pixel, pour surmonter les limitations d'échelle des segmenteurs de diffusion sans entraînement et mieux exploiter la puissance générative des modèles.

Benyuan Meng, Qianqian Xu, Zitai Wang, Xiaochun Cao, Longtao Huang, Qingming Huang2026-03-09💻 cs

Contrastive-to-Self-Supervised: A Two-Stage Framework for Script Similarity Learning

Cet article propose un cadre en deux étapes pour l'apprentissage de similarités entre écritures, combinant un apprentissage contrastif supervisé sur des alphabets inventés et une distillation non supervisée vers des scripts historiques afin de découvrir des similarités latentes sans dépendre de relations évolutives certifiées.

Claire Roman, Philippe Meyer2026-03-09🤖 cs.AI

Towards Motion Turing Test: Evaluating Human-Likeness in Humanoid Robots

Cet article propose le « Motion Turing Test » et le jeu de données HHMotion pour évaluer la ressemblance humaine des mouvements de robots humanoïdes, révélant que les modèles de langage actuels sont insuffisants pour cette tâche et introduisant une nouvelle méthode de base plus performante.

Mingzhe Li, Mengyin Liu, Zekai Wu, Xincheng Lin, Junsheng Zhang, Ming Yan, Zengye Xie, Changwang Zhang, Chenglu Wen, Lan Xu, Siqi Shen, Cheng Wang2026-03-09💻 cs

CRIMSON: A Clinically-Grounded LLM-Based Metric for Generative Radiology Report Evaluation

Ce papier présente CRIMSON, un cadre d'évaluation cliniquement fondé pour les rapports de radiologie générés par IA, qui intègre le contexte complet du patient et une pondération basée sur la gravité clinique pour mieux s'aligner sur le jugement des radiologues que les métriques précédentes.

Mohammed Baharoon, Thibault Heintz, Siavash Raissi, Mahmoud Alabbad, Mona Alhammad, Hassan AlOmaish, Sung Eun Kim, Oishi Banerjee, Pranav Rajpurkar2026-03-09🤖 cs.AI

SpaCRD: Multimodal Deep Fusion of Histology and Spatial Transcriptomics for Cancer Region Detection

Le papier présente SpaCRD, une méthode d'apprentissage par transfert qui fusionne profondément l'histologie et la transcriptomique spatiale via un réseau d'attention croisée bidirectionnelle pour détecter avec précision les régions cancéreuses et généraliser les résultats à travers différents échantillons, plateformes et lots, surpassant ainsi les méthodes existantes.

Shuailin Xue, Jun Wan, Lihua Zhang, Wenwen Min2026-03-09💻 cs

Adaptive Language-Aware Image Reflection Removal Network

Ce papier propose ALANet, un réseau adaptatif qui élimine les réflexions complexes dans les images en utilisant des descriptions textuelles, même imprécises, grâce à des stratégies de filtrage et d'optimisation, tout en introduisant le nouveau jeu de données CRLAV pour évaluer ces performances.

Siyan Fang, Yuntao Wang, Jinpu Zhang, Ziwen Li, Yuehuan Wang2026-03-09💻 cs

Point-Supervised Skeleton-Based Human Action Segmentation

Cet article présente un cadre novateur pour la segmentation d'actions humaines basé sur le squelette et supervisé par points, qui atteint des performances compétitives, parfois supérieures aux méthodes entièrement supervisées, tout en réduisant considérablement l'effort d'annotation grâce à l'utilisation de données multimodales et à des techniques avancées de génération de pseudo-étiquettes.

Hongsong Wang, Yiqin Shen, Pengbo Yan, Jie Gui2026-03-09💻 cs

VG3S: Visual Geometry Grounded Gaussian Splatting for Semantic Occupancy Prediction

Le papier présente VG3S, un cadre novateur qui améliore la prédiction d'occupation sémantique 3D en intégrant des repères géométriques robustes issus de modèles de fondation visuels via un adaptateur hiérarchique, permettant d'obtenir des performances significativement supérieures sur le benchmark nuScenes.

Xiaoyang Yan, Muleilan Pei, Shaojie Shen2026-03-09💻 cs

Cut to the Chase: Training-free Multimodal Summarization via Chain-of-Events

L'article présente CoE, un cadre de résumé multimodal sans entraînement qui surpasse les méthodes actuelles en utilisant un graphe d'événements hiérarchique pour structurer le raisonnement temporel et l'alignement intermodal.

Xiaoxing You, Qiang Huang, Lingyu Li, Xiaojun Chang, Jun Yu2026-03-09🤖 cs.AI

EntON: Eigenentropy-Optimized Neighborhood Densification in 3D Gaussian Splatting

L'article présente EntON, une nouvelle stratégie de densification de voisinage optimisée par l'entropie des valeurs propres pour le splatting gaussien 3D, qui améliore la précision géométrique et la qualité de rendu tout en réduisant le nombre de gaussiennes et le temps d'entraînement grâce à une alternance entre densification par gradient et densification guidée par la structure locale.

Miriam Jäger, Boris Jutzi2026-03-09💻 cs

← Précédent Suivant →