cs.CV articles | Gist.Science

ScribeTokens: Fixed-Vocabulary Tokenization of Digital Ink

Le papier présente ScribeTokens, une méthode de tokenisation à vocabulaire fixe pour l'encre numérique qui, en décomposant le mouvement du stylo en pas de pixels unitaires et en utilisant une prédiction de token auto-supervisée, surpasse les représentations vectorielles existantes tant pour la génération que pour la reconnaissance de texte manuscrit.

Douglass Wang2026-03-04💻 cs

Scale-invariant Gaussian derivative residual networks

Cet article présente les GaussDerResNets, des réseaux de neurones résiduels fondés sur des dérivées gaussiennes qui, grâce à leurs propriétés de covariance et d'invariance d'échelle prouvées, permettent d'atteindre une forte précision tout en assurant une excellente généralisation à des échelles d'image non vues lors de l'entraînement.

Andrzej Perzanowski, Tony Lindeberg2026-03-04🤖 cs.LG

Nodes Are Early, Edges Are Late: Probing Diagram Representations in Large Vision-Language Models

Cette étude révèle que, contrairement aux informations sur les nœuds qui sont encodées précocement dans l'encodeur visuel des modèles de langage-vision, les informations relatives aux arêtes ne deviennent linéairement séparables qu'au niveau des jetons textuels, ce qui explique leurs difficultés à comprendre les relations directionnelles dans les diagrammes.

Haruto Yoshida, Keito Kudo, Yoichi Aoki + 4 more2026-03-04💬 cs.CL

Multimodal-Prior-Guided Importance Sampling for Hierarchical Gaussian Splatting in Sparse-View Novel View Synthesis

Cette présentation propose une méthode de synthèse de vues nouvelles à partir de vues éparses qui utilise un échantillonnage d'importance guidé par des priors multimodaux pour optimiser la représentation hiérarchique des Gaussiennes 3D, permettant ainsi d'obtenir des reconstructions de pointe en évitant le surajustement et en concentrant le raffinement sur les régions géométriquement critiques.

Kaiqiang Xiong, Zhanke Wang, Ronggang Wang2026-03-04💻 cs

SIGMark: Scalable In-Generation Watermark with Blind Extraction for Video Diffusion

SIGMark est un cadre de filigrane scalable et sans distorsion pour la génération de vidéos par diffusion, qui permet une extraction aveugle efficace et robuste grâce à un codage pseudo-aléatoire global et à un module d'ordonnancement de groupes de segments adapté aux VAE 3D causaux.

Xinjie Zhu, Zijing Zhao, Hui Jin + 5 more2026-03-04💻 cs

SemanticDialect: Semantic-Aware Mixed-Format Quantization for Video Diffusion Transformers

Le papier présente SemanticDialect, une méthode de quantisation mixte sémantiquement consciente qui améliore l'efficacité et la qualité de la génération vidéo sur les Transformers de diffusion en sélectionnant dynamiquement des formats optimaux par bloc, en décomposant les activations pour réduire l'erreur et en assurant la cohérence des tokens sémantiquement corrélés.

Wonsuk Jang, Thierry Tambe2026-03-04💻 cs

StegaFFD: Privacy-Preserving Face Forgery Detection via Fine-Grained Steganographic Domain Lifting

Le papier propose StegaFFD, un cadre de détection de falsification faciale qui préserve la vie privée en dissimulant les images dans des supports naturels via la stéganographie, tout en maintenant une haute précision grâce à des mécanismes d'attention fréquentielle et d'alignement de domaine.

Guoqing Ma, Xun Lin, Hui Ma + 6 more2026-03-04🤖 cs.AI

LLandMark: A Multi-Agent Framework for Landmark-Aware Multimodal Interactive Video Retrieval

Ce papier présente LLandMark, un cadre multi-agents modulaire conçu pour la recherche interactive de vidéos multimodales axée sur les repères, qui intègre une analyse sémantique avancée, une reconnaissance de texte et une génération autonome de requêtes visuelles pour améliorer la précision des recherches dans des contextes vietnamiens complexes.

Minh-Chi Phung, Thien-Bao Le, Cam-Tu Tran-Thi + 2 more2026-03-04💻 cs

Intrinsic Geometry-Appearance Consistency Optimization for Sparse-View Gaussian Splatting

Ce travail présente MVD-HuGaS, une méthode innovante qui permet la reconstruction 3D haute fidélité d'humains à partir d'une seule image en utilisant un modèle de diffusion multi-vues pour générer des vues synthétiques, un module d'alignement pour estimer les poses caméra, et une atténuation des distorsions faciales pour optimiser des gaussiennes 3D.

Kaiqiang Xiong, Rui Peng, Jiahao Wu + 5 more2026-03-04💻 cs

3D-DRES: Detailed 3D Referring Expression Segmentation

Ce papier présente 3D-DRES, une nouvelle tâche de segmentation d'expressions de référence 3D détaillée, accompagnée du jeu de données DetailRefer et de l'architecture de base DetailBase, qui permettent une cartographie phrase-instance pour améliorer la compréhension vision-langage 3D fine et surpasser les benchmarks existants.

Qi Chen, Changli Wu, Jiayi Ji + 2 more2026-03-04💻 cs

ProGIC: Progressive and Lightweight Generative Image Compression with Residual Vector Quantization

Le papier présente ProGIC, un codec d'compression d'images génératif progressif et léger basé sur la quantification vectorielle résiduelle, qui offre une qualité perceptuelle supérieure, une transmission flexible et une efficacité de calcul accrue par rapport aux méthodes existantes.

Hao Cao, Chengbin Liang, Wenqi Guo + 2 more2026-03-04💻 cs

Harmonic Beltrami Signature Network: a Shape Prior Module in Deep Learning Framework

Cet article présente le Harmonic Beltrami Signature Network (HBSN), une architecture d'apprentissage profond innovante qui calcule efficacement la signature de Beltrami harmonique pour normaliser et intégrer des informations de forme géométrique dans les modèles de segmentation, améliorant ainsi leurs performances grâce à l'utilisation de priors de forme.

Chenran Lin, Lok Ming Lui2026-03-04💻 cs

Articulation in Motion: Prior-free Part Mobility Analysis for Articulated Objects By Dynamic-Static Disentanglement

Ce papier présente Articulation in Motion (AiM), une nouvelle méthode sans a priori qui analyse la mobilité des objets articulés et reconstruit leurs répliques 3D interactives à partir d'une vidéo d'interaction et d'un scan initial, en segmentant les pièces et en estimant leur cinématique sans connaissance préalable du nombre de composants.

Hao Ai, Wenjie Chang, Jianbo Jiao + 2 more2026-03-04💻 cs

HDINO: A Concise and Efficient Open-Vocabulary Detector

Ce papier présente HDINO, un détecteur d'objets à vocabulaire ouvert efficace et concis qui, grâce à une stratégie d'entraînement en deux étapes éliminant le besoin de données d'entraînement manuellement curatées, surpasse les méthodes de pointe comme Grounding DINO et T-Rex2 sur le jeu de données COCO.

Hao Zhang, Yiqun Wang, Qinran Lin + 2 more2026-03-04💻 cs

GloPath: An Entity-Centric Foundation Model for Glomerular Lesion Assessment and Clinicopathological Insights

GloPath est un modèle fondamental centré sur les entités, entraîné sur plus d'un million de glomérules, qui surpasse les méthodes actuelles pour l'évaluation des lésions glomérulaires et découvre des liens significatifs entre les paramètres morphologiques et les indicateurs cliniques, marquant ainsi une avancée vers une intelligence artificielle translatable en néphropathologie.

Qiming He, Jing Li, Tian Guan + 26 more2026-03-04💻 cs

TC-Padé: Trajectory-Consistent Padé Approximation for Diffusion Acceleration

TC-Padé est une méthode d'accélération pour les modèles de diffusion qui, en remplaçant les extrapolations polynomiales par une approximation de Padé adaptative et consciente des étapes, permet une génération rapide et de haute qualité à faible nombre d'itérations en garantissant la cohérence de la trajectoire de débruitage.

Benlei Cui, Shaoxuan He, Bukun Huang + 8 more2026-03-04💻 cs

Leveraging Label Proportion Prior for Class-Imbalanced Semi-Supervised Learning

Cet article propose un cadre léger intégrant une nouvelle fonction de perte de proportion, issue de l'apprentissage à partir de proportions d'étiquettes, pour atténuer les biais de classe dans l'apprentissage semi-supervisé déséquilibré et améliorer significativement les performances sur des benchmarks comme CIFAR-10 à longue traîne.

Kohki Akiba, Shinnosuke Matsuo, Shota Harada + 1 more2026-03-04🤖 cs.LG

Semi-Supervised Few-Shot Adaptation of Vision-Language Models

Cet article propose une méthode semi-supervisée efficace pour adapter les modèles vision-langage aux tâches médicales en peu d'exemples, en exploitant des données non étiquetées pour propager des pseudo-étiquettes textuelles et réduire ainsi de plus de 50 % l'effort d'annotation nécessaire.

Julio Silva-Rodríguez, Ender Konukoglu2026-03-04💻 cs

Improving Anomaly Detection with Foundation-Model Synthesis and Wavelet-Domain Attention

Cet article propose une méthode d'amélioration de la détection d'anomalies industrielles en combinant un pipeline de synthèse d'anomalies basé sur des modèles fondamentaux (FMAS) et un module d'attention dans le domaine des ondelettes (WDAM), permettant d'obtenir des performances supérieures sur les jeux de données MVTec AD et VisA sans nécessiter d'entraînement spécifique par classe.

Wensheng Wu, Zheming Lu, Ziqian Lu + 5 more2026-03-04💻 cs

TagaVLM: Topology-Aware Global Action Reasoning for Vision-Language Navigation

TagaVLM est une nouvelle approche de navigation vision-langage qui intègre explicitement des structures topologiques dans le modèle de base via une attention résiduelle spatiale et des prompts de navigation, permettant un raisonnement d'action global et établissant un nouvel état de l'art sur le benchmark R2R.

Jiaxing Liu, Zexi Zhang, Xiaoyan Li + 3 more2026-03-04💻 cs

← Précédent Suivant →