cs.CV articles | Gist.Science

Toward Early Quality Assessment of Text-to-Image Diffusion Models

Ce travail propose Probe-Select, un module plug-in qui évalue la qualité des images dès les premières étapes de la génération par diffusion ou matching de flux en exploitant les activations intermédiaires, permettant ainsi d'arrêter précocement les échantillons peu prometteurs et de réduire les coûts de calcul de plus de 60 % tout en améliorant la qualité finale.

Huanlei Guo, Hongxin Wei, Bingyi Jing2026-03-05🤖 cs.LG

Generalized non-exponential Gaussian splatting

Cet article généralise le splattage gaussien 3D (3DGS) à des opérateurs de mélange alpha non exponentiels, permettant de réduire considérablement le nombre de surdessins et d'obtenir des accélérations allant jusqu'à 4 fois dans le rendu de scènes complexes tout en maintenant une qualité d'image équivalente.

Sébastien Speierer, Adrian Jarabo2026-03-05💻 cs

TRACE: Task-Adaptive Reasoning and Representation Learning for Universal Multimodal Retrieval

Le papier présente TRACE, une méthode innovante qui unifie le raisonnement génératif et l'apprentissage de représentations discriminatives pour la recherche multimodale universelle, permettant au modèle d'activer dynamiquement un processus de réflexion structuré pour les requêtes complexes tout en maintenant une efficacité optimale et une forte transférabilité zéro-shot.

Xiangzhao Hao, Shijie Wang, Tianyu Yang + 3 more2026-03-05💻 cs

MoECLIP: Patch-Specialized Experts for Zero-shot Anomaly Detection

Le papier présente MoECLIP, une architecture à mélange d'experts qui améliore la détection d'anomalies sans apprentissage préalable en acheminant dynamiquement chaque patch d'image vers un expert LoRA spécialisé, tout en utilisant des techniques de séparation orthogonale et de régularisation ETF pour éviter la redondance fonctionnelle.

Jun Yeong Park, JunYoung Seo, Minji Kang + 1 more2026-03-05🤖 cs.AI

ProSMA-UNet: Decoder Conditioning for Proximal-Sparse Skip Feature Selection

Le papier présente ProSMA-UNet, une architecture de segmentation médicale qui reformule la sélection des connexions de saut comme un problème de sélection de caractéristiques parcimonieuse conditionnée par le décodeur, utilisant un opérateur de seuillage proximal pour éliminer explicitement le bruit et améliorer significativement les performances sur des tâches d'imagerie clinique difficiles.

Chun-Wun Cheng, Yanqi Cheng, Peiyuan Jing + 4 more2026-03-05💻 cs

Specificity-aware reinforcement learning for fine-grained open-world classification

Cet article présente SpeciaRL, un cadre d'apprentissage par renforcement conscient de la spécificité qui affine les grands modèles multimodaux de raisonnement pour améliorer la classification fine d'images en monde ouvert en favorisant des prédictions précises sans compromettre leur exactitude.

Samuele Angheben, Davide Berasi, Alessandro Conti + 2 more2026-03-05💻 cs

Deep Sketch-Based 3D Modeling: A Survey

Cet article présente une enquête complète sur la modélisation 3D basée sur des croquis assistée par l'intelligence artificielle, en introduisant l'espace de conception MORPHEUS pour catégoriser les méthodes actuelles et identifier les opportunités de recherche interdisciplinaire visant à mieux répondre à l'intention des utilisateurs.

Alberto Tono, Jiajun Wu, Gordon Wetzstein + 4 more2026-03-05💻 cs

The Influence of Iconicity in Transfer Learning for Sign Language Recognition

Cette étude démontre que l'utilisation de la transférence d'apprentissage basée sur l'iconicité entre des paires de langues des signes spécifiques (chinois-arabe et grec-flamand) améliore significativement les performances de reconnaissance, avec des gains allant jusqu'à 7,02 % pour l'arabe.

Keren Artiaga, Conor Lynch, Haithem Afli + 1 more2026-03-05🤖 cs.AI

mHC-HSI: Clustering-Guided Hyper-Connection Mamba for Hyperspectral Image Classification

Cet article présente mHC-HSI, un modèle de classification d'images hyperspectrales basé sur Mamba et guidé par le clustering, qui améliore l'apprentissage des caractéristiques spatio-spectrales et l'interprétabilité grâce à une connexion hyper-hybride contrainte par la variété et à une intégration de connaissances physiques spectrales.

Yimin Zhu, Zack Dewis, Quinn Ledingham + 6 more2026-03-05💻 cs

Beyond Accuracy: Evaluating Visual Grounding In Multimodal Medical Reasoning

Cette étude révèle que l'apprentissage par renforcement basé uniquement sur le texte améliore la précision des modèles de raisonnement médical multimodal tout en dégradant leur ancrage visuel, démontrant ainsi la nécessité d'évaluations qui mesurent la dépendance réelle aux images au-delà de la simple exactitude.

Anas Zafar, Leema Krishna Murali, Ashish Vashist2026-03-05💻 cs

Proact-VL: A Proactive VideoLLM for Real-Time AI Companions

Ce papier présente Proact-VL, un cadre général pour des agents interactifs en temps réel capables de perception proactive, évalué via le Live Gaming Benchmark qui démontre des performances supérieures en latence et en qualité pour des applications d'accompagnement humain.

Weicai Yan, Yuhong Dai, Qi Ran + 6 more2026-03-05💻 cs

Impact of Localization Errors on Label Quality for Online HD Map Construction

Cette étude analyse l'impact des erreurs de localisation sur la qualité des étiquettes pour la construction de cartes HD en ligne, démontrant que les erreurs d'orientation dégradent les performances du modèle plus que les erreurs de position et que l'ajout de données bruitées entraîne une baisse de performance plus que linéaire.

Alexander Blumberg, Jonas Merkert, Richard Fehler + 4 more2026-03-05💻 cs

Beyond Pixel Histories: World Models with Persistent 3D State

Le papier présente PERSIST, un nouveau modèle de monde qui simule l'évolution d'une scène 3D latente persistante (environnement, caméra et rendu) pour surmonter les limites de cohérence spatiale et de mémoire des modèles vidéo interactifs actuels, permettant ainsi une génération de mondes 3D cohérents et une édition géométrique fine.

Samuel Garcin, Thomas Walker, Steven McDonagh + 5 more2026-03-05🤖 cs.AI

Phys4D: Fine-Grained Physics-Consistent 4D Modeling from Video Diffusion

L'article présente Phys4D, une méthode en trois étapes qui transforme les modèles de diffusion vidéo en représentations 4D cohérentes sur le plan physique en combinant un pré-entraînement pseudo-supervisé, un affinage supervisé basé sur la simulation et un apprentissage par renforcement pour corriger les violations physiques résiduelles.

Haoran Lu, Shang Wu, Jianshu Zhang + 9 more2026-03-05🤖 cs.AI

Geographically-Weighted Weakly Supervised Bayesian High-Resolution Transformer for 200m Resolution Pan-Arctic Sea Ice Concentration Mapping and Uncertainty Estimation using Sentinel-1, RCM, and AMSR2 Data

Cette étude propose une approche novatrice de Transformer bayésien à haute résolution, combinant des modules locaux et globaux, une fonction de perte faiblement supervisée pondérée géographiquement et une fusion de données multi-sources (Sentinel-1, RCM, AMSR2) pour produire des cartes de concentration de la glace de mer à l'échelle pan-arctique à 200 mètres avec une estimation fiable des incertitudes.

Mabel Heffring, Lincoln Linlin Xu2026-03-05🤖 cs.LG

PhyPrompt: RL-based Prompt Refinement for Physically Plausible Text-to-Video Generation

Le papier présente PhyPrompt, un cadre d'apprentissage par renforcement à deux étapes qui affine automatiquement les prompts pour générer des vidéos text-to-video physiquement plausibles, surpassant les modèles plus grands tout en améliorant simultanément la fidélité sémantique et le respect des lois physiques.

Shang Wu, Chenwei Xu, Zhuofan Xia + 6 more2026-03-05🤖 cs.AI

PinCLIP: Large-scale Foundational Multimodal Representation at Pinterest

Ce papier présente PinCLIP, une approche d'apprentissage de représentations visuelles multimodales à grande échelle développée par Pinterest qui, grâce à une architecture hybride novatrice et un objectif d'alignement de voisinage, améliore significativement la récupération et le classement du contenu tout en résolvant le problème du démarrage à froid, comme le démontrent des gains substantiels lors de tests en ligne.

Josh Beal, Eric Kim, Jinfeng Rao + 3 more2026-03-05💻 cs

Modeling Cross-vision Synergy for Unified Large Vision Model

Ce papier présente PolyV, un modèle de vision unifié qui réalise une synergie inter-visuelle grâce à une architecture de mélange d'experts et une formation adaptative, surpassant ainsi les modèles existants sur des tâches d'images, de vidéos et de données 3D.

Shengqiong Wu, Lanhu Wu, Mingyang Bao + 5 more2026-03-05💻 cs

Confidence-aware Monocular Depth Estimation for Minimally Invasive Surgery

Cet article présente un cadre innovant d'estimation de profondeur monoculaire sensible à la confiance pour la chirurgie mini-invasive, qui améliore la précision et la fiabilité clinique en quantifiant l'incertitude des prédictions face aux artefacts endoscopiques tels que la fumée et les reflets.

Muhammad Asad, Emanuele Colleoni, Pritesh Mehta + 7 more2026-03-05💻 cs

From Local Matches to Global Masks: Novel Instance Detection in Open-World Scenes

Ce papier présente L2G-Det, un cadre de détection d'instances novateur qui, en évitant les propositions d'objets explicites et en exploitant une correspondance dense de patchs locaux pour alimenter un modèle SAM augmenté, permet une segmentation robuste d'objets spécifiques dans des scènes ouvertes encombrées à partir de quelques images modèles.

Qifan Zhang, Sai Haneesh Allu, Jikai Wang + 2 more2026-03-05💻 cs

← Précédent Suivant →