Seeing Clearly without Training: Mitigating Hallucinations in Multimodal LLMs for Remote Sensing

Cet article présente RSHBench, un nouveau protocole d'évaluation pour diagnostiquer les hallucinations dans les modèles multimodaux appliqués à la télédétection, ainsi que RADAR, une méthode d'inférence sans entraînement qui exploite l'attention intrinsèque pour améliorer la précision du raisonnement local et réduire ces hallucinations.

Yi Liu, Jing Zhang, Di Wang + 3 more2026-03-04💻 cs

Nodes Are Early, Edges Are Late: Probing Diagram Representations in Large Vision-Language Models

Cette étude révèle que, contrairement aux informations sur les nœuds qui sont encodées précocement dans l'encodeur visuel des modèles de langage-vision, les informations relatives aux arêtes ne deviennent linéairement séparables qu'au niveau des jetons textuels, ce qui explique leurs difficultés à comprendre les relations directionnelles dans les diagrammes.

Haruto Yoshida, Keito Kudo, Yoichi Aoki + 4 more2026-03-04💬 cs.CL

Multimodal-Prior-Guided Importance Sampling for Hierarchical Gaussian Splatting in Sparse-View Novel View Synthesis

Cette présentation propose une méthode de synthèse de vues nouvelles à partir de vues éparses qui utilise un échantillonnage d'importance guidé par des priors multimodaux pour optimiser la représentation hiérarchique des Gaussiennes 3D, permettant ainsi d'obtenir des reconstructions de pointe en évitant le surajustement et en concentrant le raffinement sur les régions géométriquement critiques.

Kaiqiang Xiong, Zhanke Wang, Ronggang Wang2026-03-04💻 cs

SemanticDialect: Semantic-Aware Mixed-Format Quantization for Video Diffusion Transformers

Le papier présente SemanticDialect, une méthode de quantisation mixte sémantiquement consciente qui améliore l'efficacité et la qualité de la génération vidéo sur les Transformers de diffusion en sélectionnant dynamiquement des formats optimaux par bloc, en décomposant les activations pour réduire l'erreur et en assurant la cohérence des tokens sémantiquement corrélés.

Wonsuk Jang, Thierry Tambe2026-03-04💻 cs

LLandMark: A Multi-Agent Framework for Landmark-Aware Multimodal Interactive Video Retrieval

Ce papier présente LLandMark, un cadre multi-agents modulaire conçu pour la recherche interactive de vidéos multimodales axée sur les repères, qui intègre une analyse sémantique avancée, une reconnaissance de texte et une génération autonome de requêtes visuelles pour améliorer la précision des recherches dans des contextes vietnamiens complexes.

Minh-Chi Phung, Thien-Bao Le, Cam-Tu Tran-Thi + 2 more2026-03-04💻 cs

Intrinsic Geometry-Appearance Consistency Optimization for Sparse-View Gaussian Splatting

Ce travail présente MVD-HuGaS, une méthode innovante qui permet la reconstruction 3D haute fidélité d'humains à partir d'une seule image en utilisant un modèle de diffusion multi-vues pour générer des vues synthétiques, un module d'alignement pour estimer les poses caméra, et une atténuation des distorsions faciales pour optimiser des gaussiennes 3D.

Kaiqiang Xiong, Rui Peng, Jiahao Wu + 5 more2026-03-04💻 cs

Articulation in Motion: Prior-free Part Mobility Analysis for Articulated Objects By Dynamic-Static Disentanglement

Ce papier présente Articulation in Motion (AiM), une nouvelle méthode sans a priori qui analyse la mobilité des objets articulés et reconstruit leurs répliques 3D interactives à partir d'une vidéo d'interaction et d'un scan initial, en segmentant les pièces et en estimant leur cinématique sans connaissance préalable du nombre de composants.

Hao Ai, Wenjie Chang, Jianbo Jiao + 2 more2026-03-04💻 cs