cs.CV articles | Gist.Science

MASQuant: Modality-Aware Smoothing Quantization for Multimodal Large Language Models

Ce papier présente MASQuant, un cadre de quantisation post-entraînement innovant pour les modèles de langage multimodaux qui résout les problèmes de désalignement de lissage et d'invariance computationnelle intermodale grâce à un lissage spécifique à la modalité et à une compensation par blanchiment SVD, garantissant ainsi des performances stables et compétitives.

Lulu Hu, Wenhu Xiao, Xin Chen + 4 more2026-03-06💻 cs

Guiding Diffusion-based Reconstruction with Contrastive Signals for Balanced Visual Representation

Cet article propose la Reconstruction Contrastive par Diffusion (DCR), une méthode qui intègre des signaux contrastifs dérivés des images reconstruites dans le processus de diffusion pour surmonter les limites des encodeurs visuels CLIP et équilibrer simultanément les capacités de discrimination et de perception des détails.

Boyu Han, Qianqian Xu, Shilong Bao + 4 more2026-03-06💻 cs

Meta-D: Metadata-Aware Architectures for Brain Tumor Analysis and Missing-Modality Segmentation

Le papier présente Meta-D, une architecture qui exploite les métadonnées catégorielles des scanners pour optimiser l'extraction de caractéristiques et améliorer la segmentation des tumeurs cérébrales, notamment en cas de modalités manquantes.

SangHyuk Kim, Daniel Haehn, Sumientra Rampersad2026-03-06💻 cs

Revisiting Shape from Polarization in the Era of Vision Foundation Models

Cet article démontre qu'en comblant les écarts de domaine grâce à un nouveau jeu de données de haute qualité et à des augmentations réalistes, un modèle léger exploitant les signaux de polarisation peut surpasser les modèles de fondation RGB, même avec beaucoup moins de données d'entraînement et de paramètres.

Chenhao Li, Taishi Ono, Takeshi Uemori + 1 more2026-03-06💻 cs

Mitigating Instance Entanglement in Instance-Dependent Partial Label Learning

Ce papier propose le cadre CAD (Class-specific Augmentation based Disentanglement), une méthode novatrice utilisant des régulations intra- et inter-classe pour atténuer l'entrelacement des instances et améliorer les performances de l'apprentissage par étiquettes partielles dépendantes des instances (ID-PLL).

Rui Zhao, Bin Shi, Kai Sun + 1 more2026-03-06🤖 cs.LG

Towards Highly Transferable Vision-Language Attack via Semantic-Augmented Dynamic Contrastive Interaction

Cet article propose SADCA, une méthode d'attaque par contraste dynamique et enrichie sémantiquement qui améliore significativement la transférabilité des exemples adversariaux sur les modèles vision-langage en perturbant progressivement l'alignement multimodal et en augmentant la diversité des attaques.

Yuanbo Li, Tianyang Xu, Cong Hu + 3 more2026-03-06💻 cs

Multi-Paradigm Collaborative Adversarial Attack Against Multi-Modal Large Language Models

Ce papier propose MPCAttack, un cadre d'attaque collaborative multi-paradigme qui améliore la transférabilité des exemples adversariaux contre les modèles de langage multimodaux en optimisant conjointement les représentations sémantiques visuelles et textuelles via une stratégie d'optimisation collaborative adaptative.

Yuanbo Li, Tianyang Xu, Cong Hu + 3 more2026-03-06💻 cs

GloSplat: Joint Pose-Appearance Optimization for Faster and More Accurate 3D Reconstruction

GloSplat est un cadre d'optimisation conjointe pose-apparence pour la reconstruction 3D par Gaussian Splatting qui préserve les traces de caractéristiques SfM explicites comme ancres géométriques, permettant ainsi d'éviter la dérive de pose et de surpasser les méthodes existantes, qu'elles soient basées ou non sur COLMAP.

Tianyu Xiong, Rui Li, Linjie Li + 1 more2026-03-06💻 cs

On Multi-Step Theorem Prediction via Non-Parametric Structural Priors

Cet article propose une méthode d'apprentissage automatique sans entraînement pour la prédiction de théorèmes multi-étapes, qui surmonte les limites de l'apprentissage contextuel classique en intégrant des graphes de précédence des théorèmes comme priors structuraux non paramétriques pour atteindre une précision de 89,29 % sur le benchmark FormalGeo7k.

Junbo Zhao, Ting Zhang, Can Li + 3 more2026-03-06🤖 cs.AI

Scalable Injury-Risk Screening in Baseball Pitching From Broadcast Video

Cet article présente une méthode monocular basée sur l'IA capable de reconstruire des métriques biomécaniques précises à partir de vidéos de diffusion télévisée pour le dépistage évolutif des risques de blessures chez les lanceurs de baseball, offrant une alternative viable aux systèmes de capture de mouvement coûteux.

Jerrin Bright, Justin Mende, John Zelek2026-03-06💻 cs

SURE: Semi-dense Uncertainty-REfined Feature Matching

Le papier présente SURE, un cadre de matching de caractéristiques semi-denses qui améliore la fiabilité des correspondances d'images en modélisant conjointement les incertitudes aléatoire et épistémique pour corriger les erreurs de confiance excessive dans des scénarios difficiles.

Sicheng Li, Zaiwang Gu, Jie Zhang + 3 more2026-03-06💻 cs

Diffusion-Based sRGB Real Noise Generation via Prompt-Driven Noise Representation Learning

Ce papier propose un cadre novateur appelé Prompt-Driven Noise Generation (PNG) qui utilise l'apprentissage de représentations de bruit piloté par des invites pour synthétiser des images bruyantes réalistes en sRGB sans dépendre des métadonnées de la caméra, améliorant ainsi la généralisation et l'efficacité du débruitage dans des scénarios réels.

Jaekyun Ko, Dongjin Kim, Soomin Lee + 2 more2026-03-06💻 cs

Interpretable Pre-Release Baseball Pitch Type Anticipation from Broadcast 3D Kinematics

En analysant une base de données inédite de 119 561 lancers professionnels, cette étude démontre qu'il est possible de prédire avec 80,4 % de précision le type de lancer à partir de la cinématique corporelle 3D extraite de vidéos monoscopiques, en identifiant la mécanique du haut du corps comme le facteur prédictif dominant tout en établissant une limite empirique de séparabilité pour les variantes de prise.

Jerrin Bright, Michelle Lu, John Zelek2026-03-06🤖 cs.AI

Structure Observation Driven Image-Text Contrastive Learning for Computed Tomography Report Generation

Cet article propose un cadre novateur en deux étapes pour la génération automatique de rapports en tomodensitométrie, qui améliore les performances de l'état de l'art en apprenant des correspondances sémantiques structure-à-structure entre les images et les textes grâce à un contraste image-texte spécifique aux structures et à des mécanismes de réduction du bruit.

Hong Liu, Dong Wei, Qiong Peng + 4 more2026-03-06💻 cs

DeformTrace: A Deformable State Space Model with Relay Tokens for Temporal Forgery Localization

Le papier propose DeformTrace, un modèle d'espace d'états déformable enrichi de mécanismes de relais et de dynamiques adaptatives, qui surpasse les méthodes existantes pour la localisation temporelle précise des falsifications dans les vidéos et l'audio.

Xiaodong Zhu, Suting Wang, Yuanming Zheng + 5 more2026-03-06🤖 cs.AI

Federated Modality-specific Encoders and Partially Personalized Fusion Decoder for Multimodal Brain Tumor Segmentation

Cet article présente FedMEPD, un cadre d'apprentissage fédéré innovant qui utilise des encodeurs spécifiques aux modalités et un décodeur de fusion partiellement personnalisé pour surmonter l'hétérogénéité intermodale et répondre aux besoins de personnalisation dans la segmentation des tumeurs cérébrales multimodales.

Hong Liu, Dong Wei, Qian Dai + 3 more2026-03-06💻 cs

FedAFD: Multimodal Federated Learning via Adversarial Fusion and Distillation

Le papier propose FedAFD, un cadre d'apprentissage fédéré multimodal qui améliore les performances des clients et du serveur en utilisant une stratégie d'alignement adversarial bi-niveau et une distillation d'ensemble guidée par la similarité pour surmonter les hétérogénéités de données et de modèles tout en préservant la confidentialité.

Min Tan, Junchao Ma, Yinfu Feng + 6 more2026-03-06🤖 cs.AI

Locality-Attending Vision Transformer

Cet article propose une méthode simple et efficace pour améliorer la segmentation d'images avec les Vision Transformers en modulant l'auto-attention par un noyau gaussien apprenable afin de privilégier les détails spatiaux locaux sans compromettre les performances de classification.

Sina Hajimiri, Farzad Beizaee, Fereshteh Shakeri + 3 more2026-03-06💻 cs

FC-VFI: Faithful and Consistent Video Frame Interpolation for High-FPS Slow Motion Video Generation

Le papier présente FC-VFI, une méthode d'interpolation de frames vidéo qui utilise un modèle de diffusion pré-entraîné, une stratégie de modélisation temporelle et une correspondance sémantique pour générer des vidéos à haute fréquence d'images (jusqu'à 240 FPS) avec une fidélité visuelle et une cohérence temporelle supérieures.

Ganggui Ding, Hao Chen, Xiaogang Xu2026-03-06💻 cs

AdaIAT: Adaptively Increasing Attention to Generated Text to Alleviate Hallucinations in LVLM

Le papier propose AdaIAT, une méthode qui atténue les hallucinations des modèles vision-langage de grande taille en adaptivement augmentant l'attention vers le texte généré, réduisant ainsi significativement les erreurs tout en préservant la cohérence linguistique.

Li'an Zhong, Ziqiang He, Jibin Zheng + 3 more2026-03-06💻 cs

← Précédent Suivant →