cs.CV articles | Gist.Science

ProFound: A moderate-sized vision foundation model for multi-task prostate imaging

Ce papier présente ProFound, un modèle de fondation spécialisé en vision pour l'IRM multiparamétrique de la prostate, pré-entraîné sur un vaste ensemble de données multi-institutionnelles et démontrant des performances supérieures ou compétitives par rapport aux modèles spécialisés sur onze tâches cliniques distinctes.

Yipei Wang, Yinsong Xu, Weixi Yi + 11 more2026-03-05💻 cs

BLOCK: An Open-Source Bi-Stage MLLM Character-to-Skin Pipeline for Minecraft

Le papier présente BLOCK, un pipeline open-source en deux étapes qui génère des skins Minecraft parfaits à partir de concepts de personnages en utilisant un modèle multimodal pour créer un aperçu 3D et un modèle FLUX.2 affiné via une méthode EvolveLoRA pour convertir cet aperçu en atlas de skin.

Hengquan Guo2026-03-05🤖 cs.AI

UniRain: Unified Image Deraining with RAG-based Dataset Distillation and Multi-objective Reweighted Optimization

Ce papier présente UniRain, un cadre unifié de dérainage d'images qui améliore la généralisation grâce à une distillation de données basée sur la génération augmentée par récupération (RAG) et une stratégie d'optimisation repondérée multi-objectifs intégrée à une architecture de mélange d'experts asymétrique, permettant ainsi de restaurer efficacement des images dégradées par la pluie et les gouttes dans diverses conditions diurnes et nocturnes.

Qianfeng Yang, Qiyuan Guan, Xiang Chen + 3 more2026-03-05💻 cs

Scaling Dense Event-Stream Pretraining from Visual Foundation Models

Cet article présente une méthode d'apprentissage auto-supervisé innovante qui distille des modèles visuels de fondation pour surmonter les défis de l'annotation et améliorer la représentation dense des flux d'événements visuels grâce à une perte d'alignement structurel.

Zhiwen Chen, Junhui Hou, Zhiyu Zhu + 2 more2026-03-05💻 cs

Dual-Solver: A Generalized ODE Solver for Diffusion Models with Dual Prediction

Le papier présente Dual-Solver, un solveur d'équations différentielles généralisé pour les modèles de diffusion qui, grâce à des paramètres appris via une classification, optimise l'interpolation des types de prédiction et le domaine d'intégration pour améliorer la qualité des images générées avec un nombre réduit d'évaluations de fonctions.

Soochul Park, Yeon Ju Lee2026-03-05🤖 cs.LG

Phi-4-reasoning-vision-15B Technical Report

Ce rapport technique présente Phi-4-reasoning-vision-15B, un modèle multimodal de raisonnement compact et open-weight qui démontre que des choix architecturaux rigoureux, une curation de données systématique et un encodage haute résolution permettent d'obtenir des performances compétitives avec moins de ressources de calcul.

Jyoti Aneja, Michael Harrison, Neel Joshi + 3 more2026-03-05🤖 cs.AI

GeoSeg: Training-Free Reasoning-Driven Segmentation in Remote Sensing Imagery

Le papier présente GeoSeg, un cadre de segmentation en télédétection sans entraînement ni supervision qui surpasse les méthodes existantes en couplant le raisonnement des MLLM à des mécanismes de raffinement de coordonnées et de prompting pour surmonter les défis spécifiques au domaine.

Lifan Jiang, Yuhang Pei, oxi Wu + 5 more2026-03-05🤖 cs.AI

RIVER: A Real-Time Interaction Benchmark for Video LLMs

Ce papier présente RIVER, un nouveau benchmark conçu pour évaluer et améliorer les capacités des modèles de langage multimodaux à comprendre et interagir en temps réel avec des vidéos, en introduisant des tâches de mémoire rétrospective, de perception en direct et d'anticipation proactive.

Yansong Shi, Qingsong Zhao, Tianxiang Jiang + 3 more2026-03-05💻 cs

When Visual Evidence is Ambiguous: Pareidolia as a Diagnostic Probe for Vision Models

Cette étude propose un cadre diagnostique basé sur la paréidolie faciale pour révéler comment les choix de représentation, plutôt que les seuils de score, déterminent si les modèles de vision interprètent les ambiguïtés visuelles par une suractivation sémantique (comme les VLM), une abstention par incertitude (comme ViT) ou une suppression conservatrice (comme les détecteurs).

Qianpu Chen, Derya Soydaner, Rob Saunders2026-03-05🤖 cs.AI

Weakly Supervised Patch Annotation for Improved Screening of Diabetic Retinopathy

Ce papier présente SAFE, un cadre d'apprentissage en deux étapes qui utilise l'inférence d'embeddings et l'apprentissage contrastif pour générer automatiquement des annotations de lésions faiblement supervisées, améliorant ainsi significativement la précision du dépistage de la rétinopathie diabétique.

Shramana Dey, Abhirup Banerjee, B. Uma Shankar + 2 more2026-03-05💻 cs

Discriminative Perception via Anchored Description for Reasoning Segmentation

Ce papier présente DPAD, une méthode qui améliore la segmentation par raisonnement en intégrant une perception discriminative via la génération de descriptions ancrées, permettant ainsi d'obtenir des chaînes de raisonnement plus concises et précises tout en augmentant significativement les performances sur les benchmarks.

Tao Yang, Qing Zhou, Yanliang Li + 1 more2026-03-05🤖 cs.AI

Rethinking the Efficiency and Effectiveness of Reinforcement Learning for Radiology Report Generation

Cet article propose un cadre d'apprentissage par renforcement pour la génération de rapports radiologiques qui améliore l'efficacité et l'efficacité clinique en introduisant une stratégie d'échantillonnage basée sur la diversité diagnostique et une optimisation de politique pondérée par les tokens diagnostiques (DiTPO), permettant d'atteindre des performances de pointe avec moins de données d'entraînement.

Zilin Lu, Ruifeng Yuan, Weiwei Cao + 6 more2026-03-05💻 cs

Volumetric Directional Diffusion: Anchoring Uncertainty Quantification in Anatomical Consensus for Ambiguous Medical Image Segmentation

Le papier propose le modèle de Diffusion Directionnelle Volumétrique (VDD), qui ancre la génération d'incertitudes dans un consensus anatomique déterministe pour quantifier précisément la variabilité inter-observateur dans la segmentation de lésions médicales 3D ambiguës, tout en évitant les hallucinations structurelles et en garantissant la cohérence topologique.

Chao Wu, Kangxian Xie, Mingchen Gao2026-03-05🤖 cs.AI

DQE-CIR: Distinctive Query Embeddings through Learnable Attribute Weights and Target Relative Negative Sampling in Composed Image Retrieval

Ce papier propose DQE-CIR, une méthode de recherche d'images composée qui améliore la discrimination des requêtes en intégrant des pondérations d'attributs apprissables et un échantillonnage de négatifs relatifs à la cible pour mieux gérer les modifications d'attributs fins.

Geon Park, Ji-Hoon Park, Seong-Whan Lee2026-03-05🤖 cs.AI

Long-Term Visual Localization in Dynamic Benthic Environments: A Dataset, Footprint-Based Ground Truth, and Visual Place Recognition Benchmark

Cet article présente un jeu de données curaté, une méthode de vérité terrain basée sur l'empreinte d'image et un benchmark de reconnaissance de lieu visuel pour améliorer la localisation visuelle à long terme dans les environnements benthiques dynamiques.

Martin Kvisvik Larsen, Oscar Pizarro2026-03-05💻 cs

Tuning Just Enough: Lightweight Backdoor Attacks on Multi-Encoder Diffusion Models

Cet article propose l'attaque légère MELT, qui démontre qu'il est possible de réaliser des attaques par porte dérobée efficaces sur le modèle multi-encodeur Stable Diffusion 3 en ajustant moins de 0,2 % des paramètres des encodeurs de texte.

Ziyuan Chen, Yujin Jeong, Tobias Braun + 1 more2026-03-05🤖 cs.LG

Revisiting the Role of Foundation Models in Cell-Level Histopathological Image Analysis under Small-Patch Constraints -- Effects of Training Data Scale and Blur Perturbations on CNNs and Vision Transformers

Cette étude démontre que, pour l'analyse de cellules dans des images histopathologiques de très faible résolution, les architectures spécifiques entraînées sur des données suffisantes surpassent les modèles de fondation en termes de précision et d'efficacité, sans offrir d'avantage en robustesse au flou.

Hiroki Kagiyama, Toru Nagasaka, Yukari Adachi + 5 more2026-03-05💻 cs

EgoPoseFormer v2: Accurate Egocentric Human Motion Estimation for AR/VR

Le papier présente EgoPoseFormer v2, une méthode basée sur les transformateurs et un système d'auto-étiquetage qui améliore considérablement l'estimation du mouvement humain en vue égocentrique pour la réalité augmentée et virtuelle, en surmontant les défis d'occlusion et de données limitées pour atteindre une précision et une stabilité temporelle supérieures aux méthodes actuelles.

Zhenyu Li, Sai Kumar Dwivedi, Filip Maric + 11 more2026-03-05💻 cs

CLIP-Guided Multi-Task Regression for Multi-View Plant Phenotyping

Cet article propose un cadre vision-langage guidé par CLIP pour la phénotypage végétal multi-vues, qui améliore significativement la précision de la prédiction de l'âge et du nombre de feuilles en générant des représentations invariantes à l'angle et en conditionnant les caractéristiques visuelles sur des priors textuels de niveau de vue.

Simon Warmers, Muhammad Zawish, Fayaz Ali Dharejo + 2 more2026-03-05💻 cs

Real Eyes Realize Faster: Gaze Stability and Pupil Novelty for Efficient Egocentric Learning

Cet article propose un sélecteur de trames « Dual-Criterion » exploitant la stabilité du regard et la réponse pupillaire pour filtrer efficacement les flux vidéo egocentriques, permettant d'atteindre des performances de classification équivalentes à celles du flux complet avec seulement 10 % des données tout en évitant l'inférence de modèles.

Ajan Subramanian, Sumukh Bettadapura, Rohan Sathish2026-03-05💻 cs

← Précédent Suivant →