cs.CV articles | Gist.Science

Volumetric Directional Diffusion: Anchoring Uncertainty Quantification in Anatomical Consensus for Ambiguous Medical Image Segmentation

Le papier propose le modèle de Diffusion Directionnelle Volumétrique (VDD), qui ancre la génération d'incertitudes dans un consensus anatomique déterministe pour quantifier précisément la variabilité inter-observateur dans la segmentation de lésions médicales 3D ambiguës, tout en évitant les hallucinations structurelles et en garantissant la cohérence topologique.

Chao Wu, Kangxian Xie, Mingchen Gao2026-03-05🤖 cs.AI

DQE-CIR: Distinctive Query Embeddings through Learnable Attribute Weights and Target Relative Negative Sampling in Composed Image Retrieval

Ce papier propose DQE-CIR, une méthode de recherche d'images composée qui améliore la discrimination des requêtes en intégrant des pondérations d'attributs apprissables et un échantillonnage de négatifs relatifs à la cible pour mieux gérer les modifications d'attributs fins.

Geon Park, Ji-Hoon Park, Seong-Whan Lee2026-03-05🤖 cs.AI

Long-Term Visual Localization in Dynamic Benthic Environments: A Dataset, Footprint-Based Ground Truth, and Visual Place Recognition Benchmark

Cet article présente un jeu de données curaté, une méthode de vérité terrain basée sur l'empreinte d'image et un benchmark de reconnaissance de lieu visuel pour améliorer la localisation visuelle à long terme dans les environnements benthiques dynamiques.

Martin Kvisvik Larsen, Oscar Pizarro2026-03-05💻 cs

Tuning Just Enough: Lightweight Backdoor Attacks on Multi-Encoder Diffusion Models

Cet article propose l'attaque légère MELT, qui démontre qu'il est possible de réaliser des attaques par porte dérobée efficaces sur le modèle multi-encodeur Stable Diffusion 3 en ajustant moins de 0,2 % des paramètres des encodeurs de texte.

Ziyuan Chen, Yujin Jeong, Tobias Braun + 1 more2026-03-05🤖 cs.LG

Revisiting the Role of Foundation Models in Cell-Level Histopathological Image Analysis under Small-Patch Constraints -- Effects of Training Data Scale and Blur Perturbations on CNNs and Vision Transformers

Cette étude démontre que, pour l'analyse de cellules dans des images histopathologiques de très faible résolution, les architectures spécifiques entraînées sur des données suffisantes surpassent les modèles de fondation en termes de précision et d'efficacité, sans offrir d'avantage en robustesse au flou.

Hiroki Kagiyama, Toru Nagasaka, Yukari Adachi + 5 more2026-03-05💻 cs

EgoPoseFormer v2: Accurate Egocentric Human Motion Estimation for AR/VR

Le papier présente EgoPoseFormer v2, une méthode basée sur les transformateurs et un système d'auto-étiquetage qui améliore considérablement l'estimation du mouvement humain en vue égocentrique pour la réalité augmentée et virtuelle, en surmontant les défis d'occlusion et de données limitées pour atteindre une précision et une stabilité temporelle supérieures aux méthodes actuelles.

Zhenyu Li, Sai Kumar Dwivedi, Filip Maric + 11 more2026-03-05💻 cs

CLIP-Guided Multi-Task Regression for Multi-View Plant Phenotyping

Cet article propose un cadre vision-langage guidé par CLIP pour la phénotypage végétal multi-vues, qui améliore significativement la précision de la prédiction de l'âge et du nombre de feuilles en générant des représentations invariantes à l'angle et en conditionnant les caractéristiques visuelles sur des priors textuels de niveau de vue.

Simon Warmers, Muhammad Zawish, Fayaz Ali Dharejo + 2 more2026-03-05💻 cs

Real Eyes Realize Faster: Gaze Stability and Pupil Novelty for Efficient Egocentric Learning

Cet article propose un sélecteur de trames « Dual-Criterion » exploitant la stabilité du regard et la réponse pupillaire pour filtrer efficacement les flux vidéo egocentriques, permettant d'atteindre des performances de classification équivalentes à celles du flux complet avec seulement 10 % des données tout en évitant l'inférence de modèles.

Ajan Subramanian, Sumukh Bettadapura, Rohan Sathish2026-03-05💻 cs

Efficient Point Cloud Processing with High-Dimensional Positional Encoding and Non-Local MLPs

Cet article présente HPENet, une nouvelle architecture de réseaux de neurones basée sur MLP qui améliore l'efficacité et les performances du traitement des nuages de points grâce à un encodage positionnel haute dimension (HPE) et à des mécanismes non locaux, surpassant ainsi des modèles de référence comme PointNeXt avec une fraction significative de la complexité computationnelle.

Yanmei Zou, Hongshan Yu, Yaonan Wang + 4 more2026-03-05🤖 cs.AI

Understanding Sources of Demographic Predictability in Brain MRI via Disentangling Anatomy and Contrast

Cette étude propose un cadre d'apprentissage de représentations désenchevêtrées pour démontrer que la prédictibilité des attributs démographiques dans les IRM cérébraux provient principalement de variations anatomiques plutôt que de différences de contraste liées à l'acquisition, soulignant ainsi la nécessité de stratégies d'atténuation du biais qui distinguent ces deux sources.

Mehmet Yigit Avci, Akshit Achara, Andrew King + 1 more2026-03-05🤖 cs.AI

Any2Any: Unified Arbitrary Modality Translation for Remote Sensing

Le papier présente Any2Any, un cadre unifié de diffusion latente qui permet la traduction arbitraire entre multiples modalités de télédétection en projetant les données dans un espace latent partagé, tout en introduisant le jeu de données RST-1M pour soutenir l'apprentissage de ces tâches complexes.

Haoyang Chen, Jing Zhang, Hebaixu Wang + 7 more2026-03-05💻 cs

TextBoost: Boosting Scene Text Fidelity in Ultra-low Bitrate Image Compression

Le papier présente TextBoost, une méthode de compression d'images ultra-bas débit qui améliore la fidélité du texte de scène en intégrant des informations sémantiques extraites par OCR comme guide pour le décodeur, permettant ainsi de préserver la lisibilité des petits caractères sans compromettre la qualité globale de l'image.

Bingxin Wang, Yuan Lan, Zhaoyi Sun + 2 more2026-03-05💻 cs

A Baseline Study and Benchmark for Few-Shot Open-Set Action Recognition with Feature Residual Discrimination

Cet article propose une nouvelle méthode basée sur un discriminateur de résidus de caractéristiques (FR-Disc) pour la reconnaissance d'actions en régime few-shot et en ensemble ouvert, établissant un nouvel état de l'art sur cinq jeux de données vidéo tout en fournissant un benchmark complet.

Stefano Berti, Giulia Pasquale, Lorenzo Natale2026-03-05💻 cs

Crab $^{+}$ : A Scalable and Unified Audio-Visual Scene Understanding Model with Explicit Cooperation

Le papier présente Crab⁺, un modèle audio-visuel unifié et évolutif qui surmonte le transfert négatif entre tâches hétérogènes grâce à une coopération explicite via un nouveau jeu de données d'instruction (AV-UIE v2) et une architecture d'apprentissage par LoRA interactionnelle (I-LoRA), permettant ainsi d'atteindre des performances supérieures à celles des modèles spécialisés sur la majorité des tâches.

Dongnuan Cai, Henghui Du, Chang Zhou + 5 more2026-03-05🤖 cs.AI

Mask-Guided Attention Regulation for Anatomically Consistent Counterfactual CXR Synthesis

Cet article présente un cadre d'inférence régulant l'attention pour synthétiser des radiographies thoraciques contrefactuelles anatomiquement cohérentes, en combinant une régularisation guidée par des masques pour préserver la structure et un module orienté pathologie pour contrôler précisément la localisation et l'étendue des lésions.

Zichun Zhang, Weizhi Nie, Honglin Guo + 1 more2026-03-05💻 cs

HBRB-BoW: A Retrained Bag-of-Words Vocabulary for ORB-SLAM via Hierarchical BRB-KMeans

Cet article propose HBRB-BoW, un algorithme d'entraînement de vocabulaire visuel hiérarchique qui intègre un flux réel global pour préserver la fidélité des descripteurs avant la binarisation finale, améliorant ainsi la précision et la robustesse des tâches de bouclage et de relocalisation dans le système ORB-SLAM.

Minjae Lee, Sang-Min Choi, Gun-Woo Kim + 1 more2026-03-05💻 cs

LISTA-Transformer Model Based on Sparse Coding and Attention Mechanism and Its Application in Fault Diagnosis

Cet article propose le modèle LISTA-Transformer, qui intègre le codage parcimonieux basé sur l'algorithme LISTA et le mécanisme d'attention pour améliorer l'extraction de caractéristiques locales et globales dans le diagnostic de défauts industriels, atteignant un taux de reconnaissance de 98,5 % sur le jeu de données CWRU.

Shuang Liu, Lina Zhao, Tian Wang + 1 more2026-03-05💻 cs

Degradation-based augmented training for robust individual animal re-identification

Cet article présente un cadre d'entraînement augmenté par des dégradations artificielles qui améliore significativement la robustesse et la précision du ré-identification individuel des animaux sauvages, même pour des espèces non vues lors de l'entraînement, tout en fournissant de nouveaux benchmarks et données publiques pour ce domaine.

Thanos Polychronou, Lukáš Adam, Viktor Penchev + 1 more2026-03-05💻 cs

PlaneCycle: Training-Free 2D-to-3D Lifting of Foundation Models Without Adapters

Le papier présente PlaneCycle, une méthode sans entraînement ni adaptateur qui permet de transformer n'importe quel modèle fondation 2D pré-entraîné en un modèle 3D performant en réutilisant son architecture originale via une fusion spatiale cyclique sur des plans orthogonaux.

Yinghong Yu, Guangyuan Li, Jiancheng Yang2026-03-05🤖 cs.AI

Beyond Mixtures and Products for Ensemble Aggregation: A Likelihood Perspective on Generalized Means

Cet article propose une justification théorique fondée sur la vraisemblance pour l'agrégation d'ensembles via les moyennes généralisées, démontrant que seules les configurations d'ordre $r \in [0,1]$ garantissent systématiquement une amélioration par rapport aux distributions individuelles, ce qui valide ainsi les pratiques courantes de pooling linéaire et géométrique.

Raphaël Razafindralambo, Rémy Sun, Frédéric Precioso + 2 more2026-03-05🤖 cs.LG

← Précédent Suivant →

cs.CV