Nodes Are Early, Edges Are Late: Probing Diagram Representations in Large Vision-Language Models

Cette étude révèle que, contrairement aux informations sur les nœuds qui sont encodées précocement dans l'encodeur visuel des modèles de langage-vision, les informations relatives aux arêtes ne deviennent linéairement séparables qu'au niveau des jetons textuels, ce qui explique leurs difficultés à comprendre les relations directionnelles dans les diagrammes.

Haruto Yoshida, Keito Kudo, Yoichi Aoki + 4 more2026-03-04💬 cs.CL

Multimodal-Prior-Guided Importance Sampling for Hierarchical Gaussian Splatting in Sparse-View Novel View Synthesis

Cette présentation propose une méthode de synthèse de vues nouvelles à partir de vues éparses qui utilise un échantillonnage d'importance guidé par des priors multimodaux pour optimiser la représentation hiérarchique des Gaussiennes 3D, permettant ainsi d'obtenir des reconstructions de pointe en évitant le surajustement et en concentrant le raffinement sur les régions géométriquement critiques.

Kaiqiang Xiong, Zhanke Wang, Ronggang Wang2026-03-04💻 cs

SemanticDialect: Semantic-Aware Mixed-Format Quantization for Video Diffusion Transformers

Le papier présente SemanticDialect, une méthode de quantisation mixte sémantiquement consciente qui améliore l'efficacité et la qualité de la génération vidéo sur les Transformers de diffusion en sélectionnant dynamiquement des formats optimaux par bloc, en décomposant les activations pour réduire l'erreur et en assurant la cohérence des tokens sémantiquement corrélés.

Wonsuk Jang, Thierry Tambe2026-03-04💻 cs

LLandMark: A Multi-Agent Framework for Landmark-Aware Multimodal Interactive Video Retrieval

Ce papier présente LLandMark, un cadre multi-agents modulaire conçu pour la recherche interactive de vidéos multimodales axée sur les repères, qui intègre une analyse sémantique avancée, une reconnaissance de texte et une génération autonome de requêtes visuelles pour améliorer la précision des recherches dans des contextes vietnamiens complexes.

Minh-Chi Phung, Thien-Bao Le, Cam-Tu Tran-Thi + 2 more2026-03-04💻 cs

Intrinsic Geometry-Appearance Consistency Optimization for Sparse-View Gaussian Splatting

Ce travail présente MVD-HuGaS, une méthode innovante qui permet la reconstruction 3D haute fidélité d'humains à partir d'une seule image en utilisant un modèle de diffusion multi-vues pour générer des vues synthétiques, un module d'alignement pour estimer les poses caméra, et une atténuation des distorsions faciales pour optimiser des gaussiennes 3D.

Kaiqiang Xiong, Rui Peng, Jiahao Wu + 5 more2026-03-04💻 cs

Articulation in Motion: Prior-free Part Mobility Analysis for Articulated Objects By Dynamic-Static Disentanglement

Ce papier présente Articulation in Motion (AiM), une nouvelle méthode sans a priori qui analyse la mobilité des objets articulés et reconstruit leurs répliques 3D interactives à partir d'une vidéo d'interaction et d'un scan initial, en segmentant les pièces et en estimant leur cinématique sans connaissance préalable du nombre de composants.

Hao Ai, Wenjie Chang, Jianbo Jiao + 2 more2026-03-04💻 cs

GloPath: An Entity-Centric Foundation Model for Glomerular Lesion Assessment and Clinicopathological Insights

GloPath est un modèle fondamental centré sur les entités, entraîné sur plus d'un million de glomérules, qui surpasse les méthodes actuelles pour l'évaluation des lésions glomérulaires et découvre des liens significatifs entre les paramètres morphologiques et les indicateurs cliniques, marquant ainsi une avancée vers une intelligence artificielle translatable en néphropathologie.

Qiming He, Jing Li, Tian Guan + 26 more2026-03-04💻 cs

Improving Anomaly Detection with Foundation-Model Synthesis and Wavelet-Domain Attention

Cet article propose une méthode d'amélioration de la détection d'anomalies industrielles en combinant un pipeline de synthèse d'anomalies basé sur des modèles fondamentaux (FMAS) et un module d'attention dans le domaine des ondelettes (WDAM), permettant d'obtenir des performances supérieures sur les jeux de données MVTec AD et VisA sans nécessiter d'entraînement spécifique par classe.

Wensheng Wu, Zheming Lu, Ziqian Lu + 5 more2026-03-04💻 cs