cs.CV articles | Gist.Science

S $^2$ Q-VDiT: Accurate Quantized Video Diffusion Transformer with Salient Data and Sparse Token Distillation

L'article présente S²Q-VDiT, un cadre de quantification post-entraînement pour les transformateurs de diffusion vidéo qui combine une sélection de données saillantes basée sur l'Hessien et une distillation de tokens épars guidée par l'attention pour atteindre des performances sans perte avec une compression et une accélération significatives.

Weilun Feng, Haotong Qin, Chuanguang Yang, Xiangqi Li, Han Yang, Yuqi Li, Zhulin An, Libo Huang, Michele Magno, Yongjun Xu2026-03-10💻 cs

SPEX: A Vision-Language Model for Land Cover Extraction on Spectral Remote Sensing Images

Le papier présente SPEX, un modèle de langage multimodal innovant qui exploite les informations spectrales via un nouvel ensemble de données d'instructions (SPIE) pour réaliser une extraction précise et interprétable des types de couverture terrestre sur des images de télédétection multispectrales, surpassant les méthodes actuelles.

Dongchen Si, Di Wang, Erzhong Gao, Xiaolei Qin, Liu Zhao, Jing Zhang, Minqiang Xu, Jianbo Zhan, Jianshe Wang, Lin Liu, Bo Du, Liangpei Zhang2026-03-10💻 cs

3D Gaussian Splatting with Fisheye Images: Field of View Analysis and Depth-Based Initialization

Cette étude présente la première évaluation du 3D Gaussian Splatting sur des images fisheye à très grand champ de vue, démontrant que l'initialisation par profondeur via UniK3D surpasse les méthodes SfM traditionnelles pour surmonter les défis de distorsion et de reconstruction géométrique.

Ulas Gunes, Matias Turkulainen, Mikhail Silaev, Juho Kannala, Esa Rahtu2026-03-10💻 cs

Unified and Semantically Grounded Domain Adaptation for Medical Image Segmentation

Cet article propose un cadre unifié et sémantiquement ancré pour l'adaptation de domaine en segmentation d'images médicales, qui apprend une variété probabiliste d'anatomies génériques pour permettre une adaptation performante et interprétable sans nécessiter d'alignement explicite entre les domaines source et cible, que ceux-ci soient accessibles ou non.

Xin Wang, Yin Guo, Jiamin Xia, Kaiyu Zhang, Niranjan Balu, Mahmud Mossa-Basha, Linda Shapiro, Chun Yuan2026-03-10💻 cs

IAG: Input-aware Backdoor Attack on VLM-based Visual Grounding

Cet article présente IAG, la première attaque par porte dérobée multi-cibles adaptative pour les modèles de vision-langage, qui génère dynamiquement des déclencheurs invisibles guidés par le texte pour rediriger la localisation d'objets vers des cibles spécifiques sans compromettre les performances sur des échantillons normaux.

Junxian Li, Beining Xu, Simin Chen, Jiatong Li, Jingdi Lei, Haodong Zhao, Di Zhang2026-03-10💬 cs.CL

Video-EM: Event-Centric Episodic Memory for Long-Form Video Understanding

Le papier présente Video-EM, un cadre d'apprentissage gratuit basé sur la mémoire épisodique centrée sur les événements qui transforme la compréhension de vidéos longues en une construction et un raffinement d'événements temporellement cohérents pour surmonter les limites des fenêtres contextuelles des modèles de langage vidéo.

Yun Wang, Long Zhang, Jingren Liu, Jiaqi Yan, Zhanjie Zhang, Jiahao Zheng, Ao Ma, Run Ling, Xun Yang, Dapeng Wu, Xiangyu Chen, Xuelong Li2026-03-10💻 cs

UniUGG: Unified 3D Understanding and Generation via Geometric-Semantic Encoding

Ce papier présente UniUGG, le premier cadre unifié exploitant un LLM et un décodeur spatial basé sur la diffusion latente pour réaliser simultanément la compréhension et la génération de scènes 3D à partir d'images de référence et de transformations de vue, tout en répondant à des questions visuelles spatiales grâce à une stratégie d'apprentissage combinant indices géométriques et sémantiques.

Yueming Xu, Jiahui Zhang, Ze Huang, Yurui Chen, Yanpeng Zhou, Zhenyu Chen, Yu-Jie Yuan, Pengxiang Xia, Guowei Huang, Xinyue Cai, Zhongang Qi, Xingyue Quan, Jianye Hao, Hang Xu, Li Zhang2026-03-10💻 cs

PhysGM: Large Physical Gaussian Model for Feed-Forward 4D Synthesis

Le papier présente PhysGM, un cadre feed-forward novateur qui génère en une minute des simulations 4D réalistes à partir d'une seule image en prédisant conjointement des représentations gaussiennes 3D et des propriétés physiques, le tout entraîné sur le nouveau jeu de données PhysAssets et optimisé via DPO pour éviter les méthodes coûteuses.

Chunji Lv, Zequn Chen, Donglin Di, Weinan Zhang, Hao Li, Wei Chen, Yinjie Lei, Changsheng Li2026-03-10💻 cs

Efficient Diffusion-Based 3D Human Pose Estimation with Hierarchical Temporal Pruning

Cet article propose un cadre d'estimation de pose humaine 3D basé sur la diffusion optimisé par une stratégie d'élagage temporel hiérarchique (HTP) qui réduit considérablement les coûts computationnels tout en maintenant des performances de pointe grâce à une élimination dynamique des tokens de pose redondants.

Yuquan Bi, Hongsong Wang, Xinli Shi, Zhipeng Gui, Jie Gui, Yuan Yan Tang2026-03-10💻 cs

PointSlice: Accurate and Efficient Slice-Based Representation for 3D Object Detection from Point Clouds

Le papier présente PointSlice, une méthode innovante de détection d'objets 3D qui transforme les nuages de points en tranches 2D et intègre un réseau d'interaction de tranches (SIN) pour atteindre un équilibre optimal entre précision et efficacité, surpassant les approches par voxels et piliers en termes de vitesse et de nombre de paramètres tout en maintenant des performances élevées sur plusieurs jeux de données de référence.

Liu Qifeng, Zhao Dawei, Dong Yabo, Xiao Liang, Wang Juan, Min Chen, Li Fuyang, Jiang Weizhong, Lu Dongming, Nie Yiming2026-03-10💻 cs

Mix-modal Federated Learning for MRI Image Segmentation

Cet article propose un nouveau cadre d'apprentissage fédéré mixte appelé MDM-MixMFL, qui utilise des stratégies de découplage et de mémorisation des modalités pour surmonter les hétérogénéités de données et de modalités dans la segmentation d'images IRM médicales distribuées.

Guyue Hu, Siyuan Song, Jingpeng Sun, Zhe Jin, Chenglong Li, Jin Tang2026-03-10💻 cs

Classification of Driver Behaviour Using External Observation Techniques for Autonomous Vehicles

Cette étude présente un système novateur de classification du comportement des conducteurs pour les véhicules autonomes, utilisant des techniques de vision par ordinateur externes pour détecter la distraction et l'altération sans dépendre de la communication inter-véhiculaire.

Ian Nell, Shane Gilroy2026-03-10⚡ eess

UltraUPConvNet: A UPerNet- and ConvNeXt-Based Multi-Task Network for Ultrasound Tissue Segmentation and Disease Prediction

Le papier présente UltraUPConvNet, un cadre universel et économe en calcul basé sur UPerNet et ConvNeXt, conçu pour réaliser simultanément la segmentation des tissus et la prédiction de maladies dans les images échographiques avec des performances de pointe.

Zhi Chen, Le Zhang2026-03-10💻 cs

Traffic-MLLM: Curiosity-Regularized Supervised Learning for Traffic Scenario Case-Based Reasoning

Le papier présente Traffic-MLLM, un cadre d'apprentissage supervisé régulé par la curiosité qui remplace la recherche explicite de cas par un espace de cas structuré appris directement à partir de données multimodales, améliorant ainsi la robustesse et le raisonnement des systèmes de conduite autonome dans des scénarios de circulation complexes et à longue traîne.

Waikit Xiu, Qiang Lu, Bingchen Liu, Chen Sun, Xiying Li2026-03-10💻 cs

SAGA: Selective Adaptive Gating for Efficient and Expressive Linear Attention

Le papier propose SAGA, une méthode d'attention linéaire qui utilise des portes adaptatives sélectives et une décomposition de produit de Hadamard pour surmonter les limitations de redondance et de rang faible des approches existantes, offrant ainsi une efficacité computationnelle et une précision accrues sur des images haute résolution.

Yuan Cao, Dong Wang2026-03-10💻 cs

Cumulative Consensus Score: Label-Free and Model-Agnostic Evaluation of Object Detectors in Deployment

Cet article présente le Cumulative Consensus Score (CCS), une métrique d'évaluation sans étiquette et indépendante du modèle qui mesure la cohérence spatiale des détections d'objets via l'augmentation de données pour surveiller la fiabilité des modèles en déploiement réel.

Avinaash Manoharan, Xiangyu Yin, Domenik Helm, Chih-Hong Cheng2026-03-10💻 cs

WHU-STree: A Multi-modal Benchmark Dataset for Street Tree Inventory

Ce papier présente WHU-STree, un nouveau jeu de données multimodal et richement annoté collecté dans deux villes distinctes, conçu pour surmonter les limites des inventaires d'arbres urbains existants en permettant l'exécution de plus de dix tâches d'inventaire grâce à la fusion de nuages de points et d'images haute résolution.

Ruifei Ding, Zhe Chen, Wen Fan + 5 more2026-03-10💻 cs

MICA: Multi-Agent Industrial Coordination Assistant

Le papier présente MICA, un assistant de coordination multi-agents perceptif et vocal conçu pour fournir une assistance industrielle en temps réel, fiable et respectueuse de la vie privée, même dans des environnements aux ressources limitées.

Di Wen, Kunyu Peng, Junwei Zheng, Yufan Chen, Yitian Shi, Jiale Wei, Ruiping Liu, Kailun Yang, Rainer Stiefelhagen2026-03-10🤖 cs.LG

ORIC: Benchmarking Object Recognition under Contextual Incongruity in Large Vision-Language Models

Ce papier présente ORIC, un cadre et une nouvelle évaluation (ORIC-Bench) conçus pour analyser et améliorer la capacité des grands modèles vision-langage à reconnaître des objets dans des contextes incongrus, en démontrant que ces situations augmentent les erreurs d'hallucination et en proposant une méthode d'ajustement fin par renforcement visuel pour y remédier.

Zhaoyang Li, Zhan Ling, Yuchen Zhou, Litian Gong, Erdem Bıyık, Hao Su2026-03-10🤖 cs.LG

Event-Based Visual Teach-and-Repeat via Fast Fourier-Domain Cross-Correlation

Cet article présente un système de navigation visuelle « teach-and-repeat » basé sur une caméra événementielle qui utilise la corrélation croisée dans le domaine fréquentiel pour atteindre une latence de traitement ultra-faible de 2,88 ms, permettant une navigation autonome précise de plus de 3000 mètres dans diverses conditions lumineuses.

Gokul B. Nair, Alejandro Fontan, Michael Milford, Tobias Fischer2026-03-10💻 cs

← Précédent Suivant →

cs.CV

S2^22Q-VDiT: Accurate Quantized Video Diffusion Transformer with Salient Data and Sparse Token Distillation