cs.CV articles | Gist.Science

Text-to-3D by Stitching a Multi-view Reconstruction Network to a Video Generator

Le papier présente VIST3A, un cadre général qui combine un générateur de vidéos text-to-video et un réseau de reconstruction 3D par assemblage de modèles et alignement par récompense directe, permettant ainsi une génération de scènes 3D de haute qualité et cohérente à partir de texte.

Hyojun Go, Dominik Narnhofer, Goutam Bhat + 3 more2026-03-06💻 cs

DRBD-Mamba for Robust and Efficient Brain Tumor Segmentation with Analytical Insights

Ce papier propose DRBD-Mamba, un modèle de segmentation 3D efficace et robuste pour les tumeurs cérébrales qui améliore la précision et l'efficacité computationnelle grâce à une architecture Mamba bidirectionnelle à double résolution et à des courbes de remplissage d'espace, tout en introduisant une évaluation rigoureuse sur des plis systématiques de BraTS2023.

Danish Ali, Ajmal Mian, Naveed Akhtar + 1 more2026-03-06💻 cs

Pursuing Minimal Sufficiency in Spatial Reasoning

Ce papier présente MSSR, un cadre à double agent qui améliore le raisonnement spatial des modèles vision-langage en construisant dynamiquement un ensemble d'informations minimal et suffisant à partir de modèles experts, éliminant ainsi les redondances et comblant les lacunes pour atteindre des performances de pointe sur des benchmarks exigeants.

Yejie Guo, Yunzhong Hou, Wufei Ma + 2 more2026-03-06💻 cs

SceneCOT: Eliciting Grounded Chain-of-Thought Reasoning in 3D Scenes

Cette présentation introduit le framework SceneCOT et son jeu de données associé SCENECOT-185K pour combler le manque de raisonnement ancré dans les modèles 3D en décomposant les tâches complexes en étapes de raisonnement de type chaîne de pensée guidées par des indices visuels.

Xiongkun Linghu, Jiangyong Huang, Ziyu Zhu + 2 more2026-03-06💻 cs

Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs

Ce papier présente Grasp Any Region (GAR), un modèle d'IA multimodale qui améliore la compréhension visuelle des régions en intégrant des contextes globaux et en modélisant les interactions entre plusieurs zones, permettant ainsi un raisonnement compositionnel avancé et surpassant les modèles existants sur des benchmarks spécialisés.

Haochen Wang, Yuhao Wang, Tao Zhang + 13 more2026-03-06💻 cs

FLoC: Facility Location-Based Efficient Visual Token Compression for Long Video Understanding

Ce papier présente FLoC, une méthode sans entraînement et agnostique au modèle qui utilise la fonction de localisation d'installations et un algorithme greedy paresseux pour compresser efficacement les tokens visuels dans la compréhension de vidéos longues, surpassant les techniques existantes sur plusieurs benchmarks majeurs.

Janghoon Cho, Jungsoo Lee, Munawar Hayat + 3 more2026-03-06💻 cs

MotionStream: Real-Time Video Generation with Interactive Motion Controls

MotionStream est une méthode de génération vidéo en temps réel qui, grâce à une distillation de connaissances et une attention causale à fenêtre glissante, permet de produire des vidéos de qualité supérieure avec un contrôle interactif des mouvements et une latence sub-secondaire, rendant possible le streaming infini sur une seule carte graphique.

Joonghyuk Shin, Zhengqi Li, Richard Zhang + 4 more2026-03-06💻 cs

SASG-DA: Sparse-Aware Semantic-Guided Diffusion Augmentation For Myoelectric Gesture Recognition

Cet article propose SASG-DA, une méthode d'augmentation de données basée sur la diffusion qui combine un guidage sémantique et un échantillonnage conscient de la parcimonie pour générer des signaux sEMG à la fois fidèles et diversifiés, améliorant ainsi significativement la reconnaissance des gestes myoélectriques et la généralisation des modèles.

Chen Liu, Can Han, Weishi Xu + 2 more2026-03-06💻 cs

DeiTFake: Deepfake Detection Model using DeiT Multi-Stage Training

L'article présente DeiTFake, un modèle de détection de deepfakes basé sur DeiT et une stratégie d'apprentissage en deux étapes avec augmentation progressive, qui atteint une précision de 99,22 % sur le jeu de données OpenForensics en surpassant les méthodes de référence actuelles.

Saksham Kumar, Ashish Singh, Srinivasarao Thota + 2 more2026-03-06💻 cs

Fully Automatic Data Labeling for Ultrasound Screen Detection

Cet article présente une méthode entièrement automatique pour générer des données étiquetées et extraire des images échographiques rectifiées à partir de photographies d'écrans, éliminant ainsi la dépendance au format DICOM tout en permettant une classification précise des vues cardiaques.

Alberto Gomez, Jorge Oliveira, Ramon Casero + 1 more2026-03-06💻 cs

DAP: A Discrete-token Autoregressive Planner for Autonomous Driving

Le papier présente DAP, un planificateur autorégressif à tokens discrets qui améliore la performance de la conduite autonome en prédisant conjointement la sémantique BEV et les trajectoires du véhicule, tout en intégrant un affinage par apprentissage par renforcement pour atteindre des résultats de pointe avec un budget paramétrique compact.

Bowen Ye, Bin Zhang, Hang Zhao2026-03-06💻 cs

CCSD: Cross-Modal Compositional Self-Distillation for Robust Brain Tumor Segmentation with Missing Modalities

Ce papier propose un cadre d'auto-distillation croisée et compositionnelle (CCSD) doté d'une architecture encodeur-décodeur partagée-spécifique et de mécanismes de distillation hiérarchique et progressive, permettant d'atteindre des performances de pointe pour la segmentation robuste des tumeurs cérébrales même en présence de modalités IRM manquantes.

Dongqing Xie, Yonghuang Wu, Zisheng Ai + 4 more2026-03-06💻 cs

Revisiting Multimodal KV Cache Compression: A Frequency-Domain-Guided Outlier-KV-Aware Approach

Ce papier présente FlashCache, une méthode de compression de cache KV multimodal guidée par le domaine fréquentiel qui identifie et préserve les paires KV aberrantes essentielles, permettant ainsi d'accélérer le décodage et de réduire la consommation mémoire tout en maintenant les performances des modèles.

Yaoxin Yang, Peng Ye, Xudong Tan + 4 more2026-03-06💻 cs

MambaTAD: When State-Space Models Meet Long-Range Temporal Action Detection

Ce papier présente MambaTAD, un modèle de détection d'actions temporelles en un seul passage qui surmonte les limites des modèles d'espace d'état structurés grâce à un module DMBSS et une tête de fusion globale, permettant ainsi une détection précise et efficace des actions à longue portée sur plusieurs benchmarks publics.

Hui Lu, Yi Yu, Shijian Lu + 4 more2026-03-06💻 cs

Observer-Actor: Active Vision Imitation Learning with Sparse-View Gaussian Splatting

Le papier présente ObAct, un cadre novateur d'apprentissage par imitation avec vision active où un bras robotique mobile construit une représentation 3DGS pour identifier et se déplacer vers la meilleure vue, permettant ainsi à l'autre bras d'exécuter des politiques plus robustes et moins sujettes aux occlusions.

Yilong Wang, Cheng Qian, Ruomeng Fan + 1 more2026-03-06💻 cs

STAvatar: Soft Binding and Temporal Density Control for Monocular 3D Head Avatars Reconstruction

STAvatar propose une méthode de reconstruction d'avatars 3D faciaux animables à partir de vidéos monoculaires qui surpasse l'état de l'art grâce à un cadre de liaison souple adaptatif aux UV et à une stratégie de contrôle de densité temporelle, permettant ainsi de capturer des détails fins et de reconstruire efficacement des régions fréquemment occluses.

Jiankuo Zhao, Xiangyu Zhu, Zidu Wang + 1 more2026-03-06💻 cs

RadarVLM: A Vision-Language Model Approach for Radar Scene Understanding

Le papier présente RadarVLM, un modèle vision-langage unifié entraîné sur un vaste jeu de données simulées qui utilise une supervision spatiale structurée et un objectif SG-CLIP pour améliorer la compréhension des scènes radar et la précision de la localisation des véhicules, surpassant ainsi les approches traditionnelles.

Pushkal Mishra, Kshitiz Bansal, Dinesh Bharadia2026-03-06💻 cs

PowerCLIP: Powerset Alignment for Contrastive Pre-Training

PowerCLIP est un nouveau cadre de pré-entraînement contrastif qui améliore la compréhension compositionnelle en alignant les ensembles de régions d'images sur les phrases textuelles grâce à des agrégateurs non linéaires efficaces, surpassant ainsi les méthodes actuelles dans les tâches de classification et de recherche sans apprentissage préalable.

Masaki Kawamura, Nakamasa Inoue, Rintaro Yanagi + 2 more2026-03-06💻 cs

DPAC: Distribution-Preserving Adversarial Control for Diffusion Sampling

Ce papier propose DPAC, une méthode de guidage pour l'échantillonnage de diffusion qui projette les gradients adversariaux sur l'espace tangent défini par la géométrie du score génératif afin de minimiser la divergence KL dans l'espace des trajectoires et de préserver la qualité des échantillons tout en maintenant un taux de succès d'attaque élevé.

Han-Jin Lee, Han-Ju Lee, Jin-Seong Kim + 1 more2026-03-06💻 cs

Fairness-Aware Fine-Tuning of Vision-Language Models for Medical Glaucoma Diagnosis

Cette étude propose une méthode de fine-tuning équitable et économe en paramètres pour les modèles vision-langage appliqués au diagnostic du glaucome, utilisant une nouvelle fonction de perte différentiable et des techniques d'adaptation de bas rang pour réduire significativement les disparités diagnostiques entre groupes démographiques tout en maintenant une précision globale élevée.

Zijian Gu, Yuxi Liu, Zhenhao Zhang + 1 more2026-03-06💻 cs

← Précédent Suivant →