cs.CV articles | Gist.Science

Cross-view geo-localization, Image retrieval, Multiscale geometric modeling, Frequency domain enhancement

Cet article présente SFDE, un réseau d'apprentissage profond innovant qui améliore la géolocalisation cross-view en fusionnant des représentations complémentaires des domaines spatial et fréquentiel au sein d'une architecture à trois branches pour surmonter les asymétries géométriques et les incohérences de texture.

Hongying Zhang, ShuaiShuai Ma2026-03-04💻 cs

Seeing Clearly without Training: Mitigating Hallucinations in Multimodal LLMs for Remote Sensing

Cet article présente RSHBench, un nouveau protocole d'évaluation pour diagnostiquer les hallucinations dans les modèles multimodaux appliqués à la télédétection, ainsi que RADAR, une méthode d'inférence sans entraînement qui exploite l'attention intrinsèque pour améliorer la précision du raisonnement local et réduire ces hallucinations.

Yi Liu, Jing Zhang, Di Wang + 3 more2026-03-04💻 cs

HiLoRA: Hierarchical Low-Rank Adaptation for Personalized Federated Learning

Ce papier propose HiLoRA, un cadre d'adaptation hiérarchique à faible rang qui améliore l'apprentissage fédéré personnalisé sur les Vision Transformers en intégrant des adaptateurs à trois niveaux et un mécanisme de clustering adaptatif pour capturer efficacement les structures latentes des clients.

Zihao Peng, Nan Zou, Jiandian Zeng + 4 more2026-03-04💻 cs

Designing UNICORN: a Unified Benchmark for Imaging in Computational Pathology, Radiology, and Natural Language

Le papier présente UNICORN, un benchmark public et unifié conçu pour évaluer systématiquement les modèles de fondation médicaux à travers diverses modalités, tâches et régions anatomiques en utilisant un protocole standardisé de few-shot learning et une métrique agrégée appelée UNICORN Score.

Michelle Stegeman, Lena Philipp, Fennie van der Graaf + 19 more2026-03-04💻 cs

R3GW: Relightable 3D Gaussians for Outdoor Scenes in the Wild

L'article présente R3GW, une méthode novatrice qui reconstruit des scènes extérieures non contraintes en séparant le premier plan relightable du fond (ciel) pour permettre un rendu photoréaliste sous un éclairage arbitraire grâce à l'intégration du rendu basé sur la physique avec les Gaussiens 3D.

Margherita Lea Corona, Wieland Morgenstern, Peter Eisert + 1 more2026-03-04💻 cs

NOVA: Sparse Control, Dense Synthesis for Pair-Free Video Editing

Le papier présente NOVA, un cadre d'édition vidéo sans données appariées qui combine une branche de contrôle sparse pour la sémantique et une branche de synthèse dense pour la fidélité temporelle, le tout entraîné via une stratégie de simulation de dégradation pour surmonter le manque de données appariées.

Tianlin Pan, Jiayi Dai, Chenpu Yuan + 7 more2026-03-04💻 cs

Structure-Aware Text Recognition for Ancient Greek Critical Editions

Cet article présente une nouvelle approche de reconnaissance textuelle structurée pour les éditions critiques du grec ancien, basée sur un corpus synthétique et un benchmark réel, démontrant que le modèle Qwen3VL-8B atteint des performances de pointe avec un taux d'erreur de caractères médian de 1,0 % sur des scans historiques.

Nicolas Angleraud, Antonia Karamolegkou, Benoît Sagot + 1 more2026-03-04💻 cs

ScribeTokens: Fixed-Vocabulary Tokenization of Digital Ink

Le papier présente ScribeTokens, une méthode de tokenisation à vocabulaire fixe pour l'encre numérique qui, en décomposant le mouvement du stylo en pas de pixels unitaires et en utilisant une prédiction de token auto-supervisée, surpasse les représentations vectorielles existantes tant pour la génération que pour la reconnaissance de texte manuscrit.

Douglass Wang2026-03-04💻 cs

Scale-invariant Gaussian derivative residual networks

Cet article présente les GaussDerResNets, des réseaux de neurones résiduels fondés sur des dérivées gaussiennes qui, grâce à leurs propriétés de covariance et d'invariance d'échelle prouvées, permettent d'atteindre une forte précision tout en assurant une excellente généralisation à des échelles d'image non vues lors de l'entraînement.

Andrzej Perzanowski, Tony Lindeberg2026-03-04🤖 cs.LG

Nodes Are Early, Edges Are Late: Probing Diagram Representations in Large Vision-Language Models

Cette étude révèle que, contrairement aux informations sur les nœuds qui sont encodées précocement dans l'encodeur visuel des modèles de langage-vision, les informations relatives aux arêtes ne deviennent linéairement séparables qu'au niveau des jetons textuels, ce qui explique leurs difficultés à comprendre les relations directionnelles dans les diagrammes.

Haruto Yoshida, Keito Kudo, Yoichi Aoki + 4 more2026-03-04💬 cs.CL

Multimodal-Prior-Guided Importance Sampling for Hierarchical Gaussian Splatting in Sparse-View Novel View Synthesis

Cette présentation propose une méthode de synthèse de vues nouvelles à partir de vues éparses qui utilise un échantillonnage d'importance guidé par des priors multimodaux pour optimiser la représentation hiérarchique des Gaussiennes 3D, permettant ainsi d'obtenir des reconstructions de pointe en évitant le surajustement et en concentrant le raffinement sur les régions géométriquement critiques.

Kaiqiang Xiong, Zhanke Wang, Ronggang Wang2026-03-04💻 cs

SIGMark: Scalable In-Generation Watermark with Blind Extraction for Video Diffusion

SIGMark est un cadre de filigrane scalable et sans distorsion pour la génération de vidéos par diffusion, qui permet une extraction aveugle efficace et robuste grâce à un codage pseudo-aléatoire global et à un module d'ordonnancement de groupes de segments adapté aux VAE 3D causaux.

Xinjie Zhu, Zijing Zhao, Hui Jin + 5 more2026-03-04💻 cs

SemanticDialect: Semantic-Aware Mixed-Format Quantization for Video Diffusion Transformers

Le papier présente SemanticDialect, une méthode de quantisation mixte sémantiquement consciente qui améliore l'efficacité et la qualité de la génération vidéo sur les Transformers de diffusion en sélectionnant dynamiquement des formats optimaux par bloc, en décomposant les activations pour réduire l'erreur et en assurant la cohérence des tokens sémantiquement corrélés.

Wonsuk Jang, Thierry Tambe2026-03-04💻 cs

StegaFFD: Privacy-Preserving Face Forgery Detection via Fine-Grained Steganographic Domain Lifting

Le papier propose StegaFFD, un cadre de détection de falsification faciale qui préserve la vie privée en dissimulant les images dans des supports naturels via la stéganographie, tout en maintenant une haute précision grâce à des mécanismes d'attention fréquentielle et d'alignement de domaine.

Guoqing Ma, Xun Lin, Hui Ma + 6 more2026-03-04🤖 cs.AI

LLandMark: A Multi-Agent Framework for Landmark-Aware Multimodal Interactive Video Retrieval

Ce papier présente LLandMark, un cadre multi-agents modulaire conçu pour la recherche interactive de vidéos multimodales axée sur les repères, qui intègre une analyse sémantique avancée, une reconnaissance de texte et une génération autonome de requêtes visuelles pour améliorer la précision des recherches dans des contextes vietnamiens complexes.

Minh-Chi Phung, Thien-Bao Le, Cam-Tu Tran-Thi + 2 more2026-03-04💻 cs

Intrinsic Geometry-Appearance Consistency Optimization for Sparse-View Gaussian Splatting

Ce travail présente MVD-HuGaS, une méthode innovante qui permet la reconstruction 3D haute fidélité d'humains à partir d'une seule image en utilisant un modèle de diffusion multi-vues pour générer des vues synthétiques, un module d'alignement pour estimer les poses caméra, et une atténuation des distorsions faciales pour optimiser des gaussiennes 3D.

Kaiqiang Xiong, Rui Peng, Jiahao Wu + 5 more2026-03-04💻 cs

3D-DRES: Detailed 3D Referring Expression Segmentation

Ce papier présente 3D-DRES, une nouvelle tâche de segmentation d'expressions de référence 3D détaillée, accompagnée du jeu de données DetailRefer et de l'architecture de base DetailBase, qui permettent une cartographie phrase-instance pour améliorer la compréhension vision-langage 3D fine et surpasser les benchmarks existants.

Qi Chen, Changli Wu, Jiayi Ji + 2 more2026-03-04💻 cs

ProGIC: Progressive and Lightweight Generative Image Compression with Residual Vector Quantization

Le papier présente ProGIC, un codec d'compression d'images génératif progressif et léger basé sur la quantification vectorielle résiduelle, qui offre une qualité perceptuelle supérieure, une transmission flexible et une efficacité de calcul accrue par rapport aux méthodes existantes.

Hao Cao, Chengbin Liang, Wenqi Guo + 2 more2026-03-04💻 cs

Harmonic Beltrami Signature Network: a Shape Prior Module in Deep Learning Framework

Cet article présente le Harmonic Beltrami Signature Network (HBSN), une architecture d'apprentissage profond innovante qui calcule efficacement la signature de Beltrami harmonique pour normaliser et intégrer des informations de forme géométrique dans les modèles de segmentation, améliorant ainsi leurs performances grâce à l'utilisation de priors de forme.

Chenran Lin, Lok Ming Lui2026-03-04💻 cs

Articulation in Motion: Prior-free Part Mobility Analysis for Articulated Objects By Dynamic-Static Disentanglement

Ce papier présente Articulation in Motion (AiM), une nouvelle méthode sans a priori qui analyse la mobilité des objets articulés et reconstruit leurs répliques 3D interactives à partir d'une vidéo d'interaction et d'un scan initial, en segmentant les pièces et en estimant leur cinématique sans connaissance préalable du nombre de composants.

Hao Ai, Wenjie Chang, Jianbo Jiao + 2 more2026-03-04💻 cs

← Précédent Suivant →