cs.CV articles | Gist.Science

FedEU: Evidential Uncertainty-Driven Federated Fine-Tuning of Vision Foundation Models for Remote Sensing Image Segmentation

Le papier présente FedEU, un cadre d'optimisation fédérée qui utilise la modélisation de l'incertitude evidence et des embeddings de caractéristiques spécifiques aux clients pour affiner efficacement des modèles de fondation visuels pour la segmentation d'images de télédétection, garantissant ainsi une agrégation globale adaptative et robuste face à l'hétérogénéité des données.

Xiaokang Zhang, Xuran Xiong, Jianzhong Huang, Lefei Zhang2026-03-10💻 cs

EVLF: Early Vision-Language Fusion for Generative Dataset Distillation

Ce papier présente EVLF, une méthode de fusion vision-langage précoce qui améliore la distillation de données générative en alignant les embeddings textuels et visuels dès le début du processus de débruitage pour produire des données synthétiques plus fidèles et cohérentes.

Wenqi Cai, Yawen Zou, Guang Li, Chunzhi Gu, Chao Zhang2026-03-10💻 cs

Multi-Modal Decouple and Recouple Network for Robust 3D Object Detection

Ce papier propose un réseau de découplage et de recouplage multimodal qui sépare les caractéristiques BEV en parties invariantes et spécifiques à chaque modalité pour compenser les défaillances causées par la corruption des données et améliorer la robustesse de la détection 3D d'objets.

Rui Ding, Zhaonian Kuang, Yuzhe Ji, Meng Yang, Xinhu Zheng, Gang Hua2026-03-10💻 cs

RobustSCI: Beyond Reconstruction to Restoration for Snapshot Compressive Imaging under Real-World Degradations

Le papier présente RobustSCI, une méthode pionnière qui transforme l'imagerie compressive par échantillonnage (SCI) vidéo d'une simple reconstruction en une véritable restauration capable de récupérer des scènes originales à partir de mesures dégradées par le flou de mouvement et la faible luminosité, grâce à un nouveau bloc de traitement et un benchmark réaliste.

Hao Wang, Yuanfan Li, Qi Zhou, Zhankuo Xu, Jiong Ni, Xin Yuan2026-03-10💻 cs

RayD3D: Distilling Depth Knowledge Along the Ray for Robust Multi-View 3D Object Detection

Le papier présente RayD3D, une méthode de distillation de connaissances qui améliore la robustesse de la détection d'objets 3D multi-vues en transférant des informations de profondeur pertinentes le long des rayons optiques tout en atténuant les interférences liées à la densité du LiDAR.

Rui Ding, Zhaonian Kuang, Zongwei Zhou, Meng Yang, Xinhu Zheng, Gang Hua2026-03-10💻 cs

DocCogito: Aligning Layout Cognition and Step-Level Grounded Reasoning for Document Understanding

Le papier présente DocCogito, un cadre unifié qui aligne la perception globale de la mise en page et un raisonnement structuré ancré dans des régions spécifiques pour améliorer la compréhension de documents par les modèles de langage multimodaux, atteignant ainsi des performances de pointe sur plusieurs benchmarks.

Yuchuan Wu, Minghan Zhuo, Teng Fu, Mengyang Zhao, Bin Li, Xiangyang Xue2026-03-10💻 cs

AMR-CCR: Anchored Modular Retrieval for Continual Chinese Character Recognition

Ce papier propose AMR-CCR, un cadre de récupération modulaire ancrée, et le benchmark EvoCON pour résoudre le défi de la reconnaissance continue de caractères chinois anciens en gérant l'ajout progressif de classes et la diversité des styles d'écriture.

Yuchuan Wu, Yinglian Zhu, Haiyang Yu, Ke Niu, Bin Li, Xiangyang Xue2026-03-10💻 cs

High-Fidelity Medical Shape Generation via Skeletal Latent Diffusion

Cet article propose un cadre de diffusion latente squelettique intégrant des priors structurels pour générer des formes médicales de haute fidélité, soutenu par la création d'un nouveau jeu de données à grande échelle nommé MedSDF.

Guoqing Zhang, Jingyun Yang, Siqi Chen, Anping Zhang, Yang Li2026-03-10💻 cs

A Unified View of Drifting and Score-Based Models

Ce papier établit un lien théorique précis entre les modèles de dérive et les modèles basés sur le score en démontrant que le champ de dérive moyen induit par un noyau gaussien correspond exactement à la différence de score entre les distributions de données et de modèle lissées, tout en fournissant des bornes d'erreur pour d'autres noyaux radiaux.

Chieh-Hsin Lai, Bac Nguyen, Naoki Murata, Yuhta Takida, Toshimitsu Uesaka, Yuki Mitsufuji, Stefano Ermon, Molei Tao2026-03-10🤖 cs.LG

EvolveReason: Self-Evolving Reasoning Paradigm for Explainable Deepfake Facial Image Identification

Le papier présente EvolveReason, un paradigme d'identification de deepfakes faciaux auto-évoluant qui combine un raisonnement de type humain via un jeu de données CoT-Face, une capture des distributions latentes de falsification et une stratégie d'exploration par apprentissage par renforcement pour surmonter les limites des méthodes existantes en termes d'explicabilité et de précision.

Binjia Zhou, Dawei Luo, Shuai Chen, Feng Xu, Seow, Haoyuan Li, Jiachi Wang, Jiawen Wang, Zunlei Feng, Yijun Bei2026-03-10💻 cs

SketchGraphNet: A Memory-Efficient Hybrid Graph Transformer for Large-Scale Sketch Corpora Recognition

Ce travail présente SketchGraphNet, une architecture hybride de graphes transformateurs économe en mémoire qui reconnaît des esquisses à grande échelle en les modélisant directement comme des graphes structurés, tout en établissant le nouveau benchmark SketchGraph de 3,44 millions d'échantillons pour l'évaluation systématique.

Shilong Chen, Mingyuan Li, Zhaoyang Wang, Zhonglin Ye, Haixing Zhao2026-03-10💻 cs

ACCURATE: Arbitrary-shaped Continuum Reconstruction Under Robust Adaptive Two-view Estimation

Le papier présente ACCURATE, un cadre de reconstruction 3D robuste et précis pour les corps continus de forme arbitraire, tels que les cathéters, qui combine un réseau de segmentation d'images et un algorithme de programmation dynamique pour garantir une cohérence géométrique biplanaire et atteindre une erreur absolue moyenne inférieure à 1,0 mm.

Yaozhi Zhang, Shun Yu, Yugang Zhang, Yang Liu2026-03-10💻 cs

Scale-Aware UAV-to-Satellite Cross-View Geo-Localization: A Semantic Geometric Approach

Cet article propose une approche géométrique et sémantique qui améliore la géolocalisation croisée drone-satellite en récupérant l'échelle métrique absolue à partir d'images monoculaires de drones en utilisant des véhicules comme repères, permettant ainsi un alignement des caractéristiques robuste face aux ambiguïtés d'échelle réelles.

Yibin Ye, Shuo Chen, Kun Wang, Xiaokai Song, Jisheng Dang, Qifeng Yu, Xichao Teng, Zhang Li2026-03-10💻 cs

How Long Can Unified Multimodal Models Generate Images Reliably? Taming Long-Horizon Interleaved Image Generation via Context Curation

Ce papier présente UniLongGen, une stratégie d'inférence sans entraînement qui améliore la fiabilité de la génération d'images intercalées à long terme en curant dynamiquement le contexte pour éliminer les signaux visuels polluants qui dégradent la qualité de la synthèse.

Haoyu Chen, Qing Liu, Yuqian Zhou, He Zhang, Zhaowen Wang, Mengwei Ren, Jingjing Ren, Xiang Wang, Zhe Lin, Lei Zhu2026-03-10💻 cs

CONSTANT: Towards High-Quality One-Shot Handwriting Generation with Patch Contrastive Enhancement and Style-Aware Quantization

Le papier présente CONSTANT, une nouvelle méthode de génération d'écriture manuscrite en un seul coup d'essai basée sur les modèles de diffusion, qui améliore la qualité et l'adaptation aux styles grâce à une quantification consciente du style et à une amélioration par contraste de patchs.

Anh-Duy Le, Van-Linh Pham, Thanh-Nam Vo, Xuan Toan Mai, Tuan-Anh Tran2026-03-10💻 cs

DreamSAC: Learning Hamiltonian World Models via Symmetry Exploration

Le papier présente DreamSAC, un cadre qui améliore la généralisation extrapolaire des modèles de monde en apprenant des lois physiques sous-jacentes grâce à une stratégie d'exploration par symétrie motivée par la curiosité et un modèle hamiltonien auto-supervisé.

Jinzhou Tang, Fan Feng, Minghao Fu, Wenjun Lin, Biwei Huang, Keze Wang2026-03-10🤖 cs.LG

ReconDrive: Fast Feed-Forward 4D Gaussian Splatting for Autonomous Driving Scene Reconstruction

Le papier présente ReconDrive, un cadre prédictif en une seule passe qui améliore la reconstruction 4D de scènes de conduite autonome en adaptant le modèle de fondation VGGT via des têtes de prédiction hybrides et une composition statique-dynamique, offrant ainsi une qualité compétitive avec les méthodes d'optimisation itérative mais avec une vitesse de traitement bien supérieure.

Haibao Yu, Kuntao Xiao, Jiahang Wang, Ruiyang Hao, Yuxin Huang, Guoran Hu, Haifang Qin, Bowen Jing, Yuntian Bo, Ping Luo2026-03-10💻 cs

Active Inference for Micro-Gesture Recognition: EFE-Guided Temporal Sampling and Adaptive Learning

Cet article propose un cadre d'inférence active pour la reconnaissance de micro-gestes, combinant un échantillonnage temporel guidé par l'énergie libre attendue et un apprentissage adaptatif incertain, afin de surmonter les défis de variabilité inter-sujet et de bruit dans des conditions à faible échantillonnage.

Weijia Feng, Jingyu Yang, Ruojia Zhang, Fengtao Sun, Qian Gao, Chenyang Wang, Tongtong Su, Jia Guo, Xiaobai Li, Minglai Shao2026-03-10💻 cs

PureCC: Pure Learning for Text-to-Image Concept Customization

Le papier présente PureCC, une méthode d'apprentissage pur pour la personnalisation de concepts text-to-image qui, grâce à un objectif d'apprentissage découplé et une pipeline d'entraînement à double branche, permet de générer des concepts personnalisés de haute fidélité tout en préservant les capacités et le comportement d'origine du modèle.

Zhichao Liao, Xiaole Xian, Qingyu Li, Wenyu Qin, Meng Wang, Weicheng Xie, Siyang Song, Pingfa Feng, Long Zeng, Liang Pan2026-03-10💻 cs

Brain-WM: Brain Glioblastoma World Model

Le papier présente Brain-WM, un modèle de monde pionnier pour le glioblastome qui unifie la prédiction des traitements et la génération d'IRM futures via une architecture novatrice à mélange de transformateurs, permettant ainsi de simuler avec précision la dynamique co-évolutive entre la tumeur et les interventions thérapeutiques pour optimiser les soins cliniques.

Chenhui Wang, Boyun Zheng, Liuxin Bao, Zhihao Peng, Peter Y. M. Woo, Hongming Shan, Yixuan Yuan2026-03-10💻 cs

← Précédent Suivant →