cs.CV articles | Gist.Science

IAG: Input-aware Backdoor Attack on VLM-based Visual Grounding

Cet article présente IAG, la première attaque par porte dérobée multi-cibles adaptative pour les modèles de vision-langage, qui génère dynamiquement des déclencheurs invisibles guidés par le texte pour rediriger la localisation d'objets vers des cibles spécifiques sans compromettre les performances sur des échantillons normaux.

Junxian Li, Beining Xu, Simin Chen, Jiatong Li, Jingdi Lei, Haodong Zhao, Di Zhang2026-03-10💬 cs.CL

Video-EM: Event-Centric Episodic Memory for Long-Form Video Understanding

Le papier présente Video-EM, un cadre d'apprentissage gratuit basé sur la mémoire épisodique centrée sur les événements qui transforme la compréhension de vidéos longues en une construction et un raffinement d'événements temporellement cohérents pour surmonter les limites des fenêtres contextuelles des modèles de langage vidéo.

Yun Wang, Long Zhang, Jingren Liu, Jiaqi Yan, Zhanjie Zhang, Jiahao Zheng, Ao Ma, Run Ling, Xun Yang, Dapeng Wu, Xiangyu Chen, Xuelong Li2026-03-10💻 cs

UniUGG: Unified 3D Understanding and Generation via Geometric-Semantic Encoding

Ce papier présente UniUGG, le premier cadre unifié exploitant un LLM et un décodeur spatial basé sur la diffusion latente pour réaliser simultanément la compréhension et la génération de scènes 3D à partir d'images de référence et de transformations de vue, tout en répondant à des questions visuelles spatiales grâce à une stratégie d'apprentissage combinant indices géométriques et sémantiques.

Yueming Xu, Jiahui Zhang, Ze Huang, Yurui Chen, Yanpeng Zhou, Zhenyu Chen, Yu-Jie Yuan, Pengxiang Xia, Guowei Huang, Xinyue Cai, Zhongang Qi, Xingyue Quan, Jianye Hao, Hang Xu, Li Zhang2026-03-10💻 cs

PhysGM: Large Physical Gaussian Model for Feed-Forward 4D Synthesis

Le papier présente PhysGM, un cadre feed-forward novateur qui génère en une minute des simulations 4D réalistes à partir d'une seule image en prédisant conjointement des représentations gaussiennes 3D et des propriétés physiques, le tout entraîné sur le nouveau jeu de données PhysAssets et optimisé via DPO pour éviter les méthodes coûteuses.

Chunji Lv, Zequn Chen, Donglin Di, Weinan Zhang, Hao Li, Wei Chen, Yinjie Lei, Changsheng Li2026-03-10💻 cs

Efficient Diffusion-Based 3D Human Pose Estimation with Hierarchical Temporal Pruning

Cet article propose un cadre d'estimation de pose humaine 3D basé sur la diffusion optimisé par une stratégie d'élagage temporel hiérarchique (HTP) qui réduit considérablement les coûts computationnels tout en maintenant des performances de pointe grâce à une élimination dynamique des tokens de pose redondants.

Yuquan Bi, Hongsong Wang, Xinli Shi, Zhipeng Gui, Jie Gui, Yuan Yan Tang2026-03-10💻 cs

PointSlice: Accurate and Efficient Slice-Based Representation for 3D Object Detection from Point Clouds

Le papier présente PointSlice, une méthode innovante de détection d'objets 3D qui transforme les nuages de points en tranches 2D et intègre un réseau d'interaction de tranches (SIN) pour atteindre un équilibre optimal entre précision et efficacité, surpassant les approches par voxels et piliers en termes de vitesse et de nombre de paramètres tout en maintenant des performances élevées sur plusieurs jeux de données de référence.

Liu Qifeng, Zhao Dawei, Dong Yabo, Xiao Liang, Wang Juan, Min Chen, Li Fuyang, Jiang Weizhong, Lu Dongming, Nie Yiming2026-03-10💻 cs

Mix-modal Federated Learning for MRI Image Segmentation

Cet article propose un nouveau cadre d'apprentissage fédéré mixte appelé MDM-MixMFL, qui utilise des stratégies de découplage et de mémorisation des modalités pour surmonter les hétérogénéités de données et de modalités dans la segmentation d'images IRM médicales distribuées.

Guyue Hu, Siyuan Song, Jingpeng Sun, Zhe Jin, Chenglong Li, Jin Tang2026-03-10💻 cs

Classification of Driver Behaviour Using External Observation Techniques for Autonomous Vehicles

Cette étude présente un système novateur de classification du comportement des conducteurs pour les véhicules autonomes, utilisant des techniques de vision par ordinateur externes pour détecter la distraction et l'altération sans dépendre de la communication inter-véhiculaire.

Ian Nell, Shane Gilroy2026-03-10⚡ eess

UltraUPConvNet: A UPerNet- and ConvNeXt-Based Multi-Task Network for Ultrasound Tissue Segmentation and Disease Prediction

Le papier présente UltraUPConvNet, un cadre universel et économe en calcul basé sur UPerNet et ConvNeXt, conçu pour réaliser simultanément la segmentation des tissus et la prédiction de maladies dans les images échographiques avec des performances de pointe.

Zhi Chen, Le Zhang2026-03-10💻 cs

Traffic-MLLM: Curiosity-Regularized Supervised Learning for Traffic Scenario Case-Based Reasoning

Le papier présente Traffic-MLLM, un cadre d'apprentissage supervisé régulé par la curiosité qui remplace la recherche explicite de cas par un espace de cas structuré appris directement à partir de données multimodales, améliorant ainsi la robustesse et le raisonnement des systèmes de conduite autonome dans des scénarios de circulation complexes et à longue traîne.

Waikit Xiu, Qiang Lu, Bingchen Liu, Chen Sun, Xiying Li2026-03-10💻 cs

SAGA: Selective Adaptive Gating for Efficient and Expressive Linear Attention

Le papier propose SAGA, une méthode d'attention linéaire qui utilise des portes adaptatives sélectives et une décomposition de produit de Hadamard pour surmonter les limitations de redondance et de rang faible des approches existantes, offrant ainsi une efficacité computationnelle et une précision accrues sur des images haute résolution.

Yuan Cao, Dong Wang2026-03-10💻 cs

Cumulative Consensus Score: Label-Free and Model-Agnostic Evaluation of Object Detectors in Deployment

Cet article présente le Cumulative Consensus Score (CCS), une métrique d'évaluation sans étiquette et indépendante du modèle qui mesure la cohérence spatiale des détections d'objets via l'augmentation de données pour surveiller la fiabilité des modèles en déploiement réel.

Avinaash Manoharan, Xiangyu Yin, Domenik Helm, Chih-Hong Cheng2026-03-10💻 cs

WHU-STree: A Multi-modal Benchmark Dataset for Street Tree Inventory

Ce papier présente WHU-STree, un nouveau jeu de données multimodal et richement annoté collecté dans deux villes distinctes, conçu pour surmonter les limites des inventaires d'arbres urbains existants en permettant l'exécution de plus de dix tâches d'inventaire grâce à la fusion de nuages de points et d'images haute résolution.

Ruifei Ding, Zhe Chen, Wen Fan + 5 more2026-03-10💻 cs

MICA: Multi-Agent Industrial Coordination Assistant

Le papier présente MICA, un assistant de coordination multi-agents perceptif et vocal conçu pour fournir une assistance industrielle en temps réel, fiable et respectueuse de la vie privée, même dans des environnements aux ressources limitées.

Di Wen, Kunyu Peng, Junwei Zheng, Yufan Chen, Yitian Shi, Jiale Wei, Ruiping Liu, Kailun Yang, Rainer Stiefelhagen2026-03-10🤖 cs.LG

ORIC: Benchmarking Object Recognition under Contextual Incongruity in Large Vision-Language Models

Ce papier présente ORIC, un cadre et une nouvelle évaluation (ORIC-Bench) conçus pour analyser et améliorer la capacité des grands modèles vision-langage à reconnaître des objets dans des contextes incongrus, en démontrant que ces situations augmentent les erreurs d'hallucination et en proposant une méthode d'ajustement fin par renforcement visuel pour y remédier.

Zhaoyang Li, Zhan Ling, Yuchen Zhou, Litian Gong, Erdem Bıyık, Hao Su2026-03-10🤖 cs.LG

Event-Based Visual Teach-and-Repeat via Fast Fourier-Domain Cross-Correlation

Cet article présente un système de navigation visuelle « teach-and-repeat » basé sur une caméra événementielle qui utilise la corrélation croisée dans le domaine fréquentiel pour atteindre une latence de traitement ultra-faible de 2,88 ms, permettant une navigation autonome précise de plus de 3000 mètres dans diverses conditions lumineuses.

Gokul B. Nair, Alejandro Fontan, Michael Milford, Tobias Fischer2026-03-10💻 cs

Do Modern Video-LLMs Need to Listen? A Benchmark Audit and Scalable Remedy

Cette étude démontre que les benchmarks actuels de compréhension vidéo sous-estiment l'importance de l'audio en ne testant que des indices visuels, et propose une architecture évolutive intégrant un encodeur de parole qui améliore significativement les performances sur les tâches nécessitant une véritable compréhension multimodale.

Geewook Kim, Minjoon Seo2026-03-10💻 cs

Efficient Construction of Implicit Surface Models From a Single Image for Motion Generation

Cet article présente FINS, un cadre léger capable de reconstruire des surfaces implicites et des champs de distance signée à partir d'une seule image en quelques secondes, surpassant les méthodes existantes en rapidité et en précision pour des applications robotiques comme la génération de mouvement.

Wei-Teng Chu, Tianyi Zhang, Matthew Johnson-Roberson, Weiming Zhi2026-03-10💻 cs

Quantized Visual Geometry Grounded Transformer

Ce papier présente QuantVGGT, le premier cadre de quantisation post-entraînement pour les transformers VGGT, qui surmonte les défis de distribution à queue lourde et d'instabilité d'échantillonnage grâce à une quantification fine lissée en double et un échantillonnage diversifié filtré par bruit, permettant une réduction significative de la mémoire et une accélération matérielle tout en préservant une précision de reconstruction supérieure à 98 %.

Weilun Feng, Haotong Qin, Mingqiang Wu, Chuanguang Yang, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

Motion-Aware Transformer for Multi-Object Tracking

Le papier présente MATR, un Transformer conscient du mouvement qui améliore le suivi multi-objets en prédisant explicitement les déplacements pour mettre à jour les requêtes de suivi à l'avance, atteignant ainsi des performances de pointe sur plusieurs jeux de données sans nécessiter de données externes.

Xu Yang, Gady Agam2026-03-10💻 cs

← Précédent Suivant →