cs.CV articles | Gist.Science

Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs

Ce papier présente Grasp Any Region (GAR), un modèle d'IA multimodale qui améliore la compréhension visuelle des régions en intégrant des contextes globaux et en modélisant les interactions entre plusieurs zones, permettant ainsi un raisonnement compositionnel avancé et surpassant les modèles existants sur des benchmarks spécialisés.

Haochen Wang, Yuhao Wang, Tao Zhang + 13 more2026-03-06💻 cs

FLoC: Facility Location-Based Efficient Visual Token Compression for Long Video Understanding

Ce papier présente FLoC, une méthode sans entraînement et agnostique au modèle qui utilise la fonction de localisation d'installations et un algorithme greedy paresseux pour compresser efficacement les tokens visuels dans la compréhension de vidéos longues, surpassant les techniques existantes sur plusieurs benchmarks majeurs.

Janghoon Cho, Jungsoo Lee, Munawar Hayat + 3 more2026-03-06💻 cs

MotionStream: Real-Time Video Generation with Interactive Motion Controls

MotionStream est une méthode de génération vidéo en temps réel qui, grâce à une distillation de connaissances et une attention causale à fenêtre glissante, permet de produire des vidéos de qualité supérieure avec un contrôle interactif des mouvements et une latence sub-secondaire, rendant possible le streaming infini sur une seule carte graphique.

Joonghyuk Shin, Zhengqi Li, Richard Zhang + 4 more2026-03-06💻 cs

SASG-DA: Sparse-Aware Semantic-Guided Diffusion Augmentation For Myoelectric Gesture Recognition

Cet article propose SASG-DA, une méthode d'augmentation de données basée sur la diffusion qui combine un guidage sémantique et un échantillonnage conscient de la parcimonie pour générer des signaux sEMG à la fois fidèles et diversifiés, améliorant ainsi significativement la reconnaissance des gestes myoélectriques et la généralisation des modèles.

Chen Liu, Can Han, Weishi Xu + 2 more2026-03-06💻 cs

DeiTFake: Deepfake Detection Model using DeiT Multi-Stage Training

L'article présente DeiTFake, un modèle de détection de deepfakes basé sur DeiT et une stratégie d'apprentissage en deux étapes avec augmentation progressive, qui atteint une précision de 99,22 % sur le jeu de données OpenForensics en surpassant les méthodes de référence actuelles.

Saksham Kumar, Ashish Singh, Srinivasarao Thota + 2 more2026-03-06💻 cs

Fully Automatic Data Labeling for Ultrasound Screen Detection

Cet article présente une méthode entièrement automatique pour générer des données étiquetées et extraire des images échographiques rectifiées à partir de photographies d'écrans, éliminant ainsi la dépendance au format DICOM tout en permettant une classification précise des vues cardiaques.

Alberto Gomez, Jorge Oliveira, Ramon Casero + 1 more2026-03-06💻 cs

DAP: A Discrete-token Autoregressive Planner for Autonomous Driving

Le papier présente DAP, un planificateur autorégressif à tokens discrets qui améliore la performance de la conduite autonome en prédisant conjointement la sémantique BEV et les trajectoires du véhicule, tout en intégrant un affinage par apprentissage par renforcement pour atteindre des résultats de pointe avec un budget paramétrique compact.

Bowen Ye, Bin Zhang, Hang Zhao2026-03-06💻 cs

CCSD: Cross-Modal Compositional Self-Distillation for Robust Brain Tumor Segmentation with Missing Modalities

Ce papier propose un cadre d'auto-distillation croisée et compositionnelle (CCSD) doté d'une architecture encodeur-décodeur partagée-spécifique et de mécanismes de distillation hiérarchique et progressive, permettant d'atteindre des performances de pointe pour la segmentation robuste des tumeurs cérébrales même en présence de modalités IRM manquantes.

Dongqing Xie, Yonghuang Wu, Zisheng Ai + 4 more2026-03-06💻 cs

Revisiting Multimodal KV Cache Compression: A Frequency-Domain-Guided Outlier-KV-Aware Approach

Ce papier présente FlashCache, une méthode de compression de cache KV multimodal guidée par le domaine fréquentiel qui identifie et préserve les paires KV aberrantes essentielles, permettant ainsi d'accélérer le décodage et de réduire la consommation mémoire tout en maintenant les performances des modèles.

Yaoxin Yang, Peng Ye, Xudong Tan + 4 more2026-03-06💻 cs

MambaTAD: When State-Space Models Meet Long-Range Temporal Action Detection

Ce papier présente MambaTAD, un modèle de détection d'actions temporelles en un seul passage qui surmonte les limites des modèles d'espace d'état structurés grâce à un module DMBSS et une tête de fusion globale, permettant ainsi une détection précise et efficace des actions à longue portée sur plusieurs benchmarks publics.

Hui Lu, Yi Yu, Shijian Lu + 4 more2026-03-06💻 cs

Observer-Actor: Active Vision Imitation Learning with Sparse-View Gaussian Splatting

Le papier présente ObAct, un cadre novateur d'apprentissage par imitation avec vision active où un bras robotique mobile construit une représentation 3DGS pour identifier et se déplacer vers la meilleure vue, permettant ainsi à l'autre bras d'exécuter des politiques plus robustes et moins sujettes aux occlusions.

Yilong Wang, Cheng Qian, Ruomeng Fan + 1 more2026-03-06💻 cs

STAvatar: Soft Binding and Temporal Density Control for Monocular 3D Head Avatars Reconstruction

STAvatar propose une méthode de reconstruction d'avatars 3D faciaux animables à partir de vidéos monoculaires qui surpasse l'état de l'art grâce à un cadre de liaison souple adaptatif aux UV et à une stratégie de contrôle de densité temporelle, permettant ainsi de capturer des détails fins et de reconstruire efficacement des régions fréquemment occluses.

Jiankuo Zhao, Xiangyu Zhu, Zidu Wang + 1 more2026-03-06💻 cs

RadarVLM: A Vision-Language Model Approach for Radar Scene Understanding

Le papier présente RadarVLM, un modèle vision-langage unifié entraîné sur un vaste jeu de données simulées qui utilise une supervision spatiale structurée et un objectif SG-CLIP pour améliorer la compréhension des scènes radar et la précision de la localisation des véhicules, surpassant ainsi les approches traditionnelles.

Pushkal Mishra, Kshitiz Bansal, Dinesh Bharadia2026-03-06💻 cs

PowerCLIP: Powerset Alignment for Contrastive Pre-Training

PowerCLIP est un nouveau cadre de pré-entraînement contrastif qui améliore la compréhension compositionnelle en alignant les ensembles de régions d'images sur les phrases textuelles grâce à des agrégateurs non linéaires efficaces, surpassant ainsi les méthodes actuelles dans les tâches de classification et de recherche sans apprentissage préalable.

Masaki Kawamura, Nakamasa Inoue, Rintaro Yanagi + 2 more2026-03-06💻 cs

DPAC: Distribution-Preserving Adversarial Control for Diffusion Sampling

Ce papier propose DPAC, une méthode de guidage pour l'échantillonnage de diffusion qui projette les gradients adversariaux sur l'espace tangent défini par la géométrie du score génératif afin de minimiser la divergence KL dans l'espace des trajectoires et de préserver la qualité des échantillons tout en maintenant un taux de succès d'attaque élevé.

Han-Jin Lee, Han-Ju Lee, Jin-Seong Kim + 1 more2026-03-06💻 cs

Fairness-Aware Fine-Tuning of Vision-Language Models for Medical Glaucoma Diagnosis

Cette étude propose une méthode de fine-tuning équitable et économe en paramètres pour les modèles vision-langage appliqués au diagnostic du glaucome, utilisant une nouvelle fonction de perte différentiable et des techniques d'adaptation de bas rang pour réduire significativement les disparités diagnostiques entre groupes démographiques tout en maintenant une précision globale élevée.

Zijian Gu, Yuxi Liu, Zhenhao Zhang + 1 more2026-03-06💻 cs

UniComp: Rethinking Video Compression Through Informational Uniqueness

Le papier présente UniComp, un cadre de compression vidéo axé sur l'unicité informationnelle qui optimise la fidélité des représentations visuelles sous contraintes computationnelles en minimisant l'entropie conditionnelle via trois modules clés : fusion de groupes d'images, allocation de jetons et compression spatiale dynamique.

Chao Yuan, Shimin Chen, Minliang Lin + 3 more2026-03-06💻 cs

NeuralRemaster: Phase-Preserving Diffusion for Structure-Aligned Generation

Le papier présente NeuralRemaster, une méthode de diffusion qui préserve la phase des signaux d'entrée tout en randomisant leur magnitude, permettant ainsi une génération alignée sur la structure sans coût d'inférence supplémentaire et en améliorant significativement le transfert sim-to-real pour les planificateurs de conduite.

Yu Zeng, Charles Ochoa, Mingyuan Zhou + 3 more2026-03-06💻 cs

Revolutionizing Mixed Precision Quantization: Towards Training-free Automatic Proxy Discovery via Large Language Models

Cet article propose TAP, un cadre novateur utilisant les grands modèles de langage et une stratégie d'optimisation préférentielle directe pour découvrir automatiquement et sans entraînement des proxies supérieurs afin d'optimiser la quantification de précision mixte des réseaux de neurones profonds.

Haidong Kang, Jun Du, Lihong Lin2026-03-06💻 cs

EgoCampus: Egocentric Pedestrian Eye Gaze Model and Dataset

Cet article présente EgoCampus, un nouveau jeu de données et un modèle (EgoCampusNet) pour prédire le regard des piétons en extérieur, collectés à l'aide de lunettes Project Aria sur un campus universitaire.

Ronan John, Aditya Kesari, Vincenzo DiMatteo + 1 more2026-03-06💻 cs

← Précédent Suivant →