MASQuant: Modality-Aware Smoothing Quantization for Multimodal Large Language Models

Ce papier présente MASQuant, un cadre de quantisation post-entraînement innovant pour les modèles de langage multimodaux qui résout les problèmes de désalignement de lissage et d'invariance computationnelle intermodale grâce à un lissage spécifique à la modalité et à une compensation par blanchiment SVD, garantissant ainsi des performances stables et compétitives.

Lulu Hu, Wenhu Xiao, Xin Chen + 4 more2026-03-06💻 cs

Diffusion-Based sRGB Real Noise Generation via Prompt-Driven Noise Representation Learning

Ce papier propose un cadre novateur appelé Prompt-Driven Noise Generation (PNG) qui utilise l'apprentissage de représentations de bruit piloté par des invites pour synthétiser des images bruyantes réalistes en sRGB sans dépendre des métadonnées de la caméra, améliorant ainsi la généralisation et l'efficacité du débruitage dans des scénarios réels.

Jaekyun Ko, Dongjin Kim, Soomin Lee + 2 more2026-03-06💻 cs

Interpretable Pre-Release Baseball Pitch Type Anticipation from Broadcast 3D Kinematics

En analysant une base de données inédite de 119 561 lancers professionnels, cette étude démontre qu'il est possible de prédire avec 80,4 % de précision le type de lancer à partir de la cinématique corporelle 3D extraite de vidéos monoscopiques, en identifiant la mécanique du haut du corps comme le facteur prédictif dominant tout en établissant une limite empirique de séparabilité pour les variantes de prise.

Jerrin Bright, Michelle Lu, John Zelek2026-03-06🤖 cs.AI

Structure Observation Driven Image-Text Contrastive Learning for Computed Tomography Report Generation

Cet article propose un cadre novateur en deux étapes pour la génération automatique de rapports en tomodensitométrie, qui améliore les performances de l'état de l'art en apprenant des correspondances sémantiques structure-à-structure entre les images et les textes grâce à un contraste image-texte spécifique aux structures et à des mécanismes de réduction du bruit.

Hong Liu, Dong Wei, Qiong Peng + 4 more2026-03-06💻 cs

Federated Modality-specific Encoders and Partially Personalized Fusion Decoder for Multimodal Brain Tumor Segmentation

Cet article présente FedMEPD, un cadre d'apprentissage fédéré innovant qui utilise des encodeurs spécifiques aux modalités et un décodeur de fusion partiellement personnalisé pour surmonter l'hétérogénéité intermodale et répondre aux besoins de personnalisation dans la segmentation des tumeurs cérébrales multimodales.

Hong Liu, Dong Wei, Qian Dai + 3 more2026-03-06💻 cs

FC-VFI: Faithful and Consistent Video Frame Interpolation for High-FPS Slow Motion Video Generation

Le papier présente FC-VFI, une méthode d'interpolation de frames vidéo qui utilise un modèle de diffusion pré-entraîné, une stratégie de modélisation temporelle et une correspondance sémantique pour générer des vidéos à haute fréquence d'images (jusqu'à 240 FPS) avec une fidélité visuelle et une cohérence temporelle supérieures.

Ganggui Ding, Hao Chen, Xiaogang Xu2026-03-06💻 cs