cs.CV articles | Gist.Science

DISC: Dense Integrated Semantic Context for Large-Scale Open-Set Semantic Mapping

Le papier présente DISC, une méthode de cartographie sémantique open-set à grande échelle qui surpasse les approches actuelles en éliminant l'extraction de caractéristiques par recadrage grâce à un mécanisme d'extraction dense et pondéré par la distance, permettant une cartographie sémantique précise et en temps réel directement sur GPU.

Felix Igelbrink, Lennart Niecksch, Martin Atzmueller + 1 more2026-03-05💻 cs

Cross-Modal Mapping and Dual-Branch Reconstruction for 2D-3D Multimodal Industrial Anomaly Detection

Ce papier présente CMDR-IAD, un cadre d'apprentissage non supervisé léger et flexible qui améliore la détection d'anomalies industrielles en combinant une cartographie bidirectionnelle 2D-3D et une reconstruction à double branche pour intégrer de manière robuste les données d'apparence et de géométrie, atteignant ainsi des performances de pointe sur les benchmarks MVTec 3D-AD et des ensembles de données industriels réels.

Radia Daci, Vito Renò, Cosimo Patruno + 4 more2026-03-05🤖 cs.AI

Slice-wise quality assessment of high b-value breast DWI via deep learning-based artifact detection

Cette étude démontre qu'un réseau de neurones convolutionnel de type DenseNet121 permet de détecter avec une grande précision les artefacts d'intensité hyper- et hypointense sur des images de résonance magnétique mammaire pondérées en diffusion à haut b-value, offrant ainsi une solution prometteuse pour l'évaluation de la qualité des images par tranches.

Ameya Markale, Luise Brock, Ihor Horishnyi + 10 more2026-03-05💻 cs

Spatial Causal Prediction in Video

Cet article introduit la prédiction causale spatiale (SCP) et le benchmark SCP-Bench pour évaluer la capacité des modèles à inférer des états spatiaux non observés, révélant ainsi d'importantes lacunes par rapport aux performances humaines et proposant des stratégies pour améliorer l'intelligence causale spatiale.

Yanguang Zhao, Jie Yang, Shengqiong Wu + 9 more2026-03-05💻 cs

RVN-Bench: A Benchmark for Reactive Visual Navigation

Ce papier présente RVN-Bench, un nouveau benchmark conçu pour évaluer la navigation visuelle réactive et sans collision d'agents mobiles dans des environnements intérieurs complexes et non vus, en s'appuyant sur le simulateur Habitat 2.0 et des scènes réalistes HM3D.

Jaewon Lee, Jaeseok Heo, Gunmin Lee + 3 more2026-03-05🤖 cs.AI

Towards Generalized Multimodal Homography Estimation

Cet article propose une méthode de synthèse de données d'entraînement et un réseau neuronal novateur pour améliorer la robustesse et la généralisation de l'estimation d'homographie multimodale face à des modalités non vues.

Jinkun You, Jiaxin Cheng, Jie Zhang + 1 more2026-03-05🤖 cs.AI

Structural Action Transformer for 3D Dexterous Manipulation

Ce papier présente le Structural Action Transformer (SAT), une nouvelle politique de manipulation dextre 3D qui surpasse les méthodes existantes en reformulant les actions comme des séquences structurelles de trajectoires articulaires plutôt que temporelles, permettant ainsi un transfert de compétences efficace entre différents robots grâce à un codebook articulaire et un apprentissage par flux continu sur des nuages de points 3D.

Xiaohan Lei, Min Wang, Bohong Weng + 2 more2026-03-05💻 cs

ProFound: A moderate-sized vision foundation model for multi-task prostate imaging

Ce papier présente ProFound, un modèle de fondation spécialisé en vision pour l'IRM multiparamétrique de la prostate, pré-entraîné sur un vaste ensemble de données multi-institutionnelles et démontrant des performances supérieures ou compétitives par rapport aux modèles spécialisés sur onze tâches cliniques distinctes.

Yipei Wang, Yinsong Xu, Weixi Yi + 11 more2026-03-05💻 cs

BLOCK: An Open-Source Bi-Stage MLLM Character-to-Skin Pipeline for Minecraft

Le papier présente BLOCK, un pipeline open-source en deux étapes qui génère des skins Minecraft parfaits à partir de concepts de personnages en utilisant un modèle multimodal pour créer un aperçu 3D et un modèle FLUX.2 affiné via une méthode EvolveLoRA pour convertir cet aperçu en atlas de skin.

Hengquan Guo2026-03-05🤖 cs.AI

UniRain: Unified Image Deraining with RAG-based Dataset Distillation and Multi-objective Reweighted Optimization

Ce papier présente UniRain, un cadre unifié de dérainage d'images qui améliore la généralisation grâce à une distillation de données basée sur la génération augmentée par récupération (RAG) et une stratégie d'optimisation repondérée multi-objectifs intégrée à une architecture de mélange d'experts asymétrique, permettant ainsi de restaurer efficacement des images dégradées par la pluie et les gouttes dans diverses conditions diurnes et nocturnes.

Qianfeng Yang, Qiyuan Guan, Xiang Chen + 3 more2026-03-05💻 cs

Scaling Dense Event-Stream Pretraining from Visual Foundation Models

Cet article présente une méthode d'apprentissage auto-supervisé innovante qui distille des modèles visuels de fondation pour surmonter les défis de l'annotation et améliorer la représentation dense des flux d'événements visuels grâce à une perte d'alignement structurel.

Zhiwen Chen, Junhui Hou, Zhiyu Zhu + 2 more2026-03-05💻 cs

Dual-Solver: A Generalized ODE Solver for Diffusion Models with Dual Prediction

Le papier présente Dual-Solver, un solveur d'équations différentielles généralisé pour les modèles de diffusion qui, grâce à des paramètres appris via une classification, optimise l'interpolation des types de prédiction et le domaine d'intégration pour améliorer la qualité des images générées avec un nombre réduit d'évaluations de fonctions.

Soochul Park, Yeon Ju Lee2026-03-05🤖 cs.LG

Phi-4-reasoning-vision-15B Technical Report

Ce rapport technique présente Phi-4-reasoning-vision-15B, un modèle multimodal de raisonnement compact et open-weight qui démontre que des choix architecturaux rigoureux, une curation de données systématique et un encodage haute résolution permettent d'obtenir des performances compétitives avec moins de ressources de calcul.

Jyoti Aneja, Michael Harrison, Neel Joshi + 3 more2026-03-05🤖 cs.AI

GeoSeg: Training-Free Reasoning-Driven Segmentation in Remote Sensing Imagery

Le papier présente GeoSeg, un cadre de segmentation en télédétection sans entraînement ni supervision qui surpasse les méthodes existantes en couplant le raisonnement des MLLM à des mécanismes de raffinement de coordonnées et de prompting pour surmonter les défis spécifiques au domaine.

Lifan Jiang, Yuhang Pei, oxi Wu + 5 more2026-03-05🤖 cs.AI

RIVER: A Real-Time Interaction Benchmark for Video LLMs

Ce papier présente RIVER, un nouveau benchmark conçu pour évaluer et améliorer les capacités des modèles de langage multimodaux à comprendre et interagir en temps réel avec des vidéos, en introduisant des tâches de mémoire rétrospective, de perception en direct et d'anticipation proactive.

Yansong Shi, Qingsong Zhao, Tianxiang Jiang + 3 more2026-03-05💻 cs

When Visual Evidence is Ambiguous: Pareidolia as a Diagnostic Probe for Vision Models

Cette étude propose un cadre diagnostique basé sur la paréidolie faciale pour révéler comment les choix de représentation, plutôt que les seuils de score, déterminent si les modèles de vision interprètent les ambiguïtés visuelles par une suractivation sémantique (comme les VLM), une abstention par incertitude (comme ViT) ou une suppression conservatrice (comme les détecteurs).

Qianpu Chen, Derya Soydaner, Rob Saunders2026-03-05🤖 cs.AI

Weakly Supervised Patch Annotation for Improved Screening of Diabetic Retinopathy

Ce papier présente SAFE, un cadre d'apprentissage en deux étapes qui utilise l'inférence d'embeddings et l'apprentissage contrastif pour générer automatiquement des annotations de lésions faiblement supervisées, améliorant ainsi significativement la précision du dépistage de la rétinopathie diabétique.

Shramana Dey, Abhirup Banerjee, B. Uma Shankar + 2 more2026-03-05💻 cs

Discriminative Perception via Anchored Description for Reasoning Segmentation

Ce papier présente DPAD, une méthode qui améliore la segmentation par raisonnement en intégrant une perception discriminative via la génération de descriptions ancrées, permettant ainsi d'obtenir des chaînes de raisonnement plus concises et précises tout en augmentant significativement les performances sur les benchmarks.

Tao Yang, Qing Zhou, Yanliang Li + 1 more2026-03-05🤖 cs.AI

Rethinking the Efficiency and Effectiveness of Reinforcement Learning for Radiology Report Generation

Cet article propose un cadre d'apprentissage par renforcement pour la génération de rapports radiologiques qui améliore l'efficacité et l'efficacité clinique en introduisant une stratégie d'échantillonnage basée sur la diversité diagnostique et une optimisation de politique pondérée par les tokens diagnostiques (DiTPO), permettant d'atteindre des performances de pointe avec moins de données d'entraînement.

Zilin Lu, Ruifeng Yuan, Weiwei Cao + 6 more2026-03-05💻 cs

Volumetric Directional Diffusion: Anchoring Uncertainty Quantification in Anatomical Consensus for Ambiguous Medical Image Segmentation

Le papier propose le modèle de Diffusion Directionnelle Volumétrique (VDD), qui ancre la génération d'incertitudes dans un consensus anatomique déterministe pour quantifier précisément la variabilité inter-observateur dans la segmentation de lésions médicales 3D ambiguës, tout en évitant les hallucinations structurelles et en garantissant la cohérence topologique.

Chao Wu, Kangxian Xie, Mingchen Gao2026-03-05🤖 cs.AI

← Précédent Suivant →