cs.CV articles | Gist.Science

Exploring Modality-Aware Fusion and Decoupled Temporal Propagation for Multi-Modal Object Tracking

Ce papier présente MDTrack, un cadre novateur pour le suivi d'objets multimodaux qui améliore les performances grâce à une fusion adaptative par experts spécialisés et une propagation temporelle découplée via des modèles d'espace d'état, surpassant ainsi les méthodes existantes sur plusieurs benchmarks.

Shilei Wang, Pujian Lai, Dong Gao, Jifeng Ning, Gong Cheng2026-03-11💻 cs

DenoiseSplat: Feed-Forward Gaussian Splatting for Noisy 3D Scene Reconstruction

Le papier présente DenoiseSplat, une méthode de splatting gaussien 3D feed-forward capable de reconstruire des scènes à partir d'images multivues bruitées en s'entraînant uniquement sur des rendus 2D propres, surpassant ainsi les approches existantes sur un nouveau benchmark bruité dérivé de RE10K.

Fuzhen Jiang, Zhuoran Li, Yinlin Zhang2026-03-11🤖 cs.AI

See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation

Le papier présente SPR, un cadre vision-langage-action progressif qui améliore la robustesse de la manipulation robotique en ancrant les instructions dans des sous-objectifs spatiaux et en permettant une récupération automatique des échecs via un cycle de rétroaction, surpassant ainsi les méthodes de référence sur les benchmarks LIBERO.

Tingjun Dai, Mingfei Han, Tingwen Du, Zhiheng Liu, Zhihui Li, Salman Khan, Jun Yu, Xiaojun Chang2026-03-11💻 cs

IntroSVG: Learning from Rendering Feedback for Text-to-SVG Generation via an Introspective Generator-Critic Framework

L'article présente IntroSVG, un cadre génératif introspectif qui améliore la création d'images SVG à partir de texte en bouclant un modèle unique agissant à la fois comme générateur et critique pour intégrer un feedback visuel explicite et affiner les résultats via un processus itératif de génération, d'évaluation et de correction.

Feiyu Wang, Jiayuan Yang, Zhiyuan Zhao, Da Zhang, Bingyu Li, Peng Liu, Junyu Gao2026-03-11💻 cs

CLoE: Expert Consistency Learning for Missing Modality Segmentation

L'article présente CLoE, un cadre d'apprentissage par consistance des experts qui améliore la segmentation des images médicales multimodales en cas de modalités manquantes en assurant l'accord entre les experts aux niveaux global et régional, tout en recalibrant dynamiquement les caractéristiques selon leur fiabilité.

Xinyu Tong, Meihua Zhou, Bowu Fan, Haitao Li2026-03-11🤖 cs.AI

NLiPsCalib: An Efficient Calibration Framework for High-Fidelity 3D Reconstruction of Curved Visuotactile Sensors

Le papier présente NLiPsCalib, un cadre de calibration efficace et physiquement cohérent pour les capteurs visuotactiles courbes, qui utilise la stéréophotométrie à source lumineuse proche (NLiPs) pour permettre une reconstruction 3D haute fidélité via une procédure de calibration simplifiée avec des objets quotidiens.

Xuhao Qin, Feiyu Zhao, Yatao Leng, Runze Hu, Chenxi Xiao2026-03-11💻 cs

SpaceSense-Bench: A Large-Scale Multi-Modal Benchmark for Spacecraft Perception and Pose Estimation

Ce papier présente SpaceSense-Bench, un benchmark multi-modal à grande échelle généré par simulation haute fidélité pour l'apprentissage de la perception et de l'estimation de pose des engins spatiaux, mettant en évidence l'importance cruciale de la diversité des données pour surmonter les limitations actuelles des méthodes face à de nouvelles cibles et à des composants de petite taille.

Aodi Wu, Jianhong Zuo, Zeyuan Zhao, Xubo Luo, Ruisuo Wang, Xue Wan2026-03-11🤖 cs.AI

OddGridBench: Exposing the Lack of Fine-Grained Visual Discrepancy Sensitivity in Multimodal Large Language Models

Ce papier présente OddGridBench, un benchmark contrôlé révélant les lacunes des modèles de langage multimodaux dans la détection de discrepancies visuelles fines, et propose OddGrid-GRPO, un cadre d'apprentissage par renforcement qui améliore significativement cette capacité grâce à un curriculum et des récompenses spatiales.

Tengjin Weng, Wenhao Jiang, Jingyi Wang, Ming Li, Lin Ma, Zhong Ming2026-03-11💻 cs

Beyond Scaling: Assessing Strategic Reasoning and Rapid Decision-Making Capability of LLMs in Zero-sum Environments

Ce papier présente le benchmark STAR, un cadre d'évaluation multi-agents en environnement zéro somme qui révèle que la supériorité stratégique des LLMs dépend d'un équilibre critique entre la profondeur du raisonnement et la rapidité d'exécution, les modèles plus rapides surpassant souvent les modèles de raisonnement dans les scénarios en temps réel.

Yang Li, Xing Chen, Yutao Liu, Gege Qi, Yanxian BI, Zizhe Wang, Yunjian Zhang, Yao Zhu2026-03-11🤖 cs.AI

Predictive Spectral Calibration for Source-Free Test-Time Regression

Cet article propose la calibration spectrale prédictive (PSC), un cadre sans source qui améliore l'adaptation à l'heure de test pour la régression d'images en alignant les caractéristiques cibles sur le support prédictif source et en calibrant les résidus spectraux dans le complément orthogonal, surpassant ainsi les méthodes existantes sous des décalages de distribution sévères.

Nguyen Viet Tuan Kiet, Huynh Thanh Trung, Pham Huy Hieu2026-03-11💻 cs

Robust Provably Secure Image Steganography via Latent Iterative Optimization

Les auteurs proposent un cadre de stéganographie d'images robuste et prouvément sûr basé sur une optimisation itérative dans l'espace latent, qui améliore significativement la précision d'extraction du message sous diverses contraintes de compression tout en préservant la sécurité théorique du système.

Yanan Li, Zixuan Wang, Qiyang Xiao, Yanzhen Ren2026-03-11💻 cs

Evidential Perfusion Physics-Informed Neural Networks with Residual Uncertainty Quantification

L'article présente EPPINN, un cadre d'apprentissage profond probabilitaire intégrant des contraintes physiques pour estimer les paramètres de perfusion en imagerie TDM cérébrale avec quantification de l'incertitude, surpassant les méthodes existantes en précision et en fiabilité pour le diagnostic des AVC ischémiques.

Junhyeok Lee, Minseo Choi, Han Jang, Young Hun Jeon, Heeseong Eum, Joon Jang, Chul-Ho Sohn, Kyu Sung Choi2026-03-11💻 cs

M3GCLR: Multi-View Mini-Max Infinite Skeleton-Data Game Contrastive Learning For Skeleton-Based Action Recognition

Le papier propose M3GCLR, un cadre d'apprentissage contrastif basé sur la théorie des jeux qui résout les limites des méthodes existantes en modélisant les écarts de vue et les perturbations d'augmentation via un jeu mini-max infini, permettant ainsi d'atteindre des performances de pointe en reconnaissance d'actions squelettiques auto-supervisée.

Yanshan Li, Ke Ma, Miaomiao Wei, Linhui Dai2026-03-11🤖 cs.AI

MIL-PF: Multiple Instance Learning on Precomputed Features for Mammography Classification

Ce papier propose MIL-PF, un cadre d'apprentissage multiple-instance sur des caractéristiques précalculées qui combine des encodeurs fondationnels figés avec un module d'agrégation léger pour réaliser une classification mammographique performante et économe en calculs, tout en gérant efficacement les images haute résolution et le manque d'annotations.

Nikola Jovišic, Milica Škipina, Nicola Dall'Asen, Dubravko Culibrk2026-03-11🤖 cs.AI

SinGeo: Unlock Single Model's Potential for Robust Cross-View Geo-Localization

Le papier présente SinGeo, un cadre innovant utilisant un apprentissage par curriculum et une architecture à double discrimination pour permettre à un modèle unique d'atteindre des performances robustes et supérieures en géolocalisation croisée (CVGL) sur des champs de vision variés, surpassant ainsi les méthodes existantes.

Yang Chen, Xieyuanli Chen, Junxiang Li, Jie Tang, Tao Wu2026-03-11💻 cs

EventVGGT: Exploring Cross-Modal Distillation for Consistent Event-based Depth Estimation

L'article présente EventVGGT, un cadre novateur qui améliore l'estimation de profondeur basée sur les événements en distillant des priors spatio-temporels et géométriques du modèle VGGT via une stratégie de distillation à trois niveaux, surmontant ainsi les limitations des méthodes précédentes qui négligent la continuité temporelle des données événementielles.

Yinrui Ren, Jinjing Zhu, Kanghao Chen, Zhuoxiao Li, Jing Ou, Zidong Cao, Tongyan Hua, Peilun Shi, Yingchun Fu, Wufan Zhao, Hui Xiong2026-03-11💻 cs

Training-Free Coverless Multi-Image Steganography with Access Control

Le papier présente MIDAS, un cadre de stéganographie sans entraînement basé sur la diffusion qui permet l'insertion de multiples images avec un contrôle d'accès spécifique à l'utilisateur via une fusion au niveau latent, surpassant les méthodes existantes en termes de qualité, de robustesse et de résistance à la stéganalyse.

Minyeol Bae, Si-Hyeon Lee2026-03-11💻 cs

ICDAR 2025 Competition on End-to-End Document Image Machine Translation Towards Complex Layouts

Ce rapport présente le défi ICDAR 2025 sur la traduction automatique de documents image, qui a réuni 69 équipes pour évaluer des systèmes end-to-end capables de gérer des mises en page complexes via deux pistes (avec et sans OCR) et deux catégories de modèles, démontrant ainsi le potentiel prometteur des approches à grande échelle pour ce domaine.

Yaping Zhang, Yupu Liang, Zhiyang Zhang, Zhiyuan Chen, Lu Xiang, Yang Zhao, Yu Zhou, Chengqing Zong2026-03-11🤖 cs.AI

YOLO-NAS-Bench: A Surrogate Benchmark with Self-Evolving Predictors for YOLO Architecture Search

Ce papier présente YOLO-NAS-Bench, le premier benchmark de substitution pour la recherche d'architecture neuronale des détecteurs YOLO, qui utilise un mécanisme d'auto-évolution pour affiner un prédicteur capable d'identifier des architectures surpassant les versions officielles de YOLOv8 à YOLO12.

Zhe Li, Xiaoyu Ding, Jiaxin Zheng, Yongtao Wang2026-03-11💻 cs

Reviving ConvNeXt for Efficient Convolutional Diffusion Models

Cet article présente le modèle de diffusion entièrement convolutif (FCDM), une architecture inspirée de ConvNeXt qui offre une alternative hautement efficace et compétitive aux modèles basés sur les Transformers, permettant un entraînement performant avec moins de ressources computationnelles et de matériel.

Taesung Kwon, Lorenzo Bianchi, Lennart Wittke, Felix Watine, Fabio Carrara, Jong Chul Ye, Romann Weber, Vinicius Azevedo2026-03-11🤖 cs.AI

← Précédent Suivant →