cs.CV articles | Gist.Science

World2Act: Latent Action Post-Training via Skill-Compositional World Models

Le papier présente World2Act, un cadre d'entraînement postérieur qui améliore la généralisation des agents incarnés en alignant directement les actions des politiques VLA sur des latents de dynamique vidéo via un objectif contrastif, tout en surmontant les limites de durée des modèles du monde grâce à une pipeline de décomposition automatique des compétences par LLM.

An Dinh Vuong, Tuan Van Vo, Abdullah Sohail, Haoran Ding, Liang Ma, Xiaodan Liang, Anqing Duan, Ivan Laptev, Ian Reid2026-03-12💻 cs

AsyncMDE: Real-Time Monocular Depth Estimation via Asynchronous Spatial Memory

Le papier présente AsyncMDE, un système de perception de profondeur monoculaire asynchrone et léger qui amortit le coût computationnel des modèles de base en réutilisant les caractéristiques spatiales entre les trames, permettant ainsi un déploiement temps réel sur des plateformes embarquées avec une précision quasi équivalente.

Lianjie Ma, Yuquan Li, Bingzheng Jiang, Ziming Zhong, Han Ding, Lijun Zhu2026-03-12💻 cs

Unlearning the Unpromptable: Prompt-free Instance Unlearning in Diffusion Models

Cet article présente une méthode d'oubli d'instances sans prompt pour les modèles de diffusion, capable d'effacer sélectivement des sorties indésirables et non spécifiables par texte, comme des visages individuels, tout en préservant l'intégrité du modèle.

Kyungryeol Lee, Kyeonghyun Lee, Seongmin Hong, Byung Hyun Lee, Se Young Chun2026-03-12🤖 cs.LG

SignSparK: Efficient Multilingual Sign Language Production via Sparse Keyframe Learning

Le papier présente SignSparK, un cadre d'apprentissage multilingue novateur qui utilise des repères temporels clés et un modèle de flux conditionnel pour générer des avatars de langue des signes 3D fluides et photoréalistes, surmontant ainsi les compromis entre précision linguistique et naturel du mouvement.

Jianhe Low, Alexandre Symeonidis-Herzig, Maksym Ivashechkin, Ozge Mercanoglu Sincan, Richard Bowden2026-03-12💻 cs

LCAMV: High-Accuracy 3D Reconstruction of Color-Varying Objects Using LCA Correction and Minimum-Variance Fusion in Structured Light

Ce papier présente LCAMV, une méthode de reconstruction 3D haute précision pour les objets colorés qui corrige la aberration chromatique latérale et fusionne les données de phase des canaux RVB par estimation à variance minimale, permettant d'obtenir des résultats supérieurs sans matériel supplémentaire ni contraintes d'acquisition.

Wonbeen Oh, Jae-Sang Hyun2026-03-12💻 cs

Learning to Wander: Improving the Global Image Geolocation Ability of LMMs via Actionable Reasoning

Ce papier présente WanderBench, le premier benchmark mondial de géolocalisation basé sur des panoramas navigables, et GeoAoT, un cadre d'inférence qui améliore la précision des modèles multimodaux en générant des plans d'action concrets plutôt que de simples chaînes de raisonnement textuelles.

Yushuo Zheng, Huiyu Duan, Zicheng Zhang, Xiaohong Liu, Xiongkuo Min2026-03-12💻 cs

MoXaRt: Audio-Visual Object-Guided Sound Interaction for XR

Le système MoXaRt introduit une architecture en cascade pour les réalités étendues (XR) qui combine des indices audio et visuels afin de séparer en temps réel jusqu'à cinq sources sonores concurrentes, améliorant ainsi significativement l'intelligibilité de la parole et réduisant la charge cognitive des utilisateurs.

Tianyu Xu, Sieun Kim, Qianhui Zheng, Ruoyu Xu, Tejasvi Ravi, Anuva Kulkarni, Katrina Passarella-Ward, Junyi Zhu, Adarsh Kowdle2026-03-12💻 cs

UniPINN: A Unified PINN Framework for Multi-task Learning of Diverse Navier-Stokes Equations

Le papier présente UniPINN, un cadre unifié d'apprentissage multi-tâches pour les équations de Navier-Stokes qui surmonte les limitations des méthodes existantes en intégrant une architecture partagée-spécialisée, un mécanisme d'attention inter-flux et une allocation dynamique des poids pour améliorer la précision et la stabilité de l'entraînement.

Dengdi Sun, Jie Chen, Xiao Wang, Jin Tang2026-03-12🤖 cs.AI

Fighting Hallucinations with Counterfactuals: Diffusion-Guided Perturbations for LVLM Hallucination Suppression

Le papier présente CIPHER, une méthode sans entraînement qui supprime les hallucinations visuelles des modèles de langage-vision en projetant leurs états cachés hors d'un sous-espace caractéristique identifié grâce à un jeu de données de contre-factuels visuels.

Hamidreza Dastmalchi, Aijun An, Ali Cheraghian, Hamed Barzamini2026-03-12💻 cs

StructDamage:A Large Scale Unified Crack and Surface Defect Dataset for Robust Structural Damage Detection

Ce papier présente StructDamage, un ensemble de données unifié et à grande échelle comprenant environ 78 093 images de neuf types de surfaces, conçu pour améliorer la robustesse et la généralisation des modèles d'apprentissage profond dans la détection automatisée des fissures et défauts structuraux.

Misbah Ijaz, Saif Ur Rehman Khan, Abd Ur Rehman, Sebastian Vollmer, Andreas Dengel, Muhammad Nabeel Asim2026-03-12💻 cs

Spatial self-supervised Peak Learning and correlation-based Evaluation of peak picking in Mass Spectrometry Imaging

Cet article propose un réseau neuronal auto-supervisé spatial pour l'apprentissage de pics en imagerie par spectrométrie de masse, ainsi qu'une nouvelle procédure d'évaluation basée sur des masques de segmentation experte, démontrant une performance supérieure aux méthodes actuelles sur plusieurs jeux de données publics.

Philipp Weigand, Nikolas Ebert, Shad A. Mohammed, Denis Abu Sammour, Carsten Hopf, Oliver Wasenmüller2026-03-12💻 cs

IMTBench: A Multi-Scenario Cross-Modal Collaborative Evaluation Benchmark for In-Image Machine Translation

Ce papier présente IMTBench, un nouveau benchmark multi-scénarios et cross-modaux composé de 2 500 échantillons réels, conçu pour évaluer de manière holistique la qualité de la traduction, la préservation du contexte visuel et l'alignement cross-modal dans la traduction de texte en image (IIMT).

Jiahao Lyu, Pei Fu, Zhenhang Li, Weichao Zeng, Shaojie Zhan, Jiahui Yang, Can Ma, Yu Zhou, Zhenbo Luo, Jian Luan2026-03-12💻 cs

Naïve Exposure of Generative AI Capabilities Undermines Deepfake Detection

Ce papier démontre que l'exposition naïve des capacités de raffinement d'images et de raisonnement des IA génératives commerciales, via des interfaces de chatbot accessibles, compromet fondamentalement les détecteurs de deepfakes les plus avancés en permettant aux utilisateurs non experts de créer des images authentiques et indétectables sans violer les politiques de sécurité.

Sunpill Kim, Chanwoo Hwang, Minsu Kim, Jae Hong Seo2026-03-12🤖 cs.AI

UHD Image Deblurring via Autoregressive Flow with Ill-conditioned Constraints

Cet article propose une nouvelle méthode de défloutage d'images ultra-haute définition (UHD) basée sur un flot autorégressif avec contrainte mal conditionnée, qui décompose la restauration en un processus progressif de raffinement grossier à fin et utilise l'appariement de flux pour générer des détails fins tout en garantissant une stabilité numérique et une efficacité d'inférence.

Yucheng Xin, Dawei Zhao, Xiang Chen, Chen Wu, Pu Wang, Dianjie Lu, Guijuan Zhang, Xiuyi Jia, Zhuoran Zheng2026-03-12💻 cs

Visually-Guided Controllable Medical Image Generation via Fine-Grained Semantic Disentanglement

Cet article propose un cadre de désentanglement sémantique guidé par la vision qui, en alignant les priors visuels et en utilisant un module de fusion hybride au sein d'un transformateur de diffusion, permet une génération d'images médicales hautement contrôlable et de haute qualité pour surmonter les limites des modèles texte-à-image actuels.

Xin Huang, Junjie Liang, Qingshan Hou, Peng Cao, Jinzhu Yang, Xiaoli Liu, Osmar R. Zaiane2026-03-12💻 cs

Sparse Task Vector Mixup with Hypernetworks for Efficient Knowledge Transfer in Whole-Slide Image Prognosis

Le papier propose STEPH, une méthode efficace de fusion de modèles via des hyperréseaux et un mélange parcimonieux de vecteurs de tâches, qui améliore la prédiction du pronostic des cancers sur des images de lames entières en transférant des connaissances généralisables entre 13 types de cancers sans nécessiter d'entraînement conjoint à grande échelle.

Pei Liu, Xiangxiang Zeng, Tengfei Ma, Yucheng Xing, Xuanbai Ren, Yiping Liu2026-03-12💻 cs

DSFlash: Comprehensive Panoptic Scene Graph Generation in Realtime

DSFlash est un modèle à faible latence capable de générer des graphes de scène panoramiques complets en temps réel (56 images par seconde) avec une efficacité des ressources exceptionnelle, comblant ainsi le fossé entre les performances avancées et les contraintes matérielles des dispositifs périphériques.

Julian Lorenz, Vladyslav Kovganko, Elias Kohout, Mrunmai Phatak, Daniel Kienzle, Rainer Lienhart2026-03-12💻 cs

Prompting with the human-touch: evaluating model-sensitivity of foundation models for musculoskeletal CT segmentation

Cette étude évalue la sensibilité de onze modèles fondationnels promptables à la segmentation CT musculo-squelettique, révélant que leurs performances varient considérablement selon les stratégies d'incitation et les structures anatomiques, et que l'utilisation de prompts humains réels entraîne une baisse de performance par rapport aux résultats obtenus avec des prompts idéaux, rendant le choix du modèle optimal pour un usage clinique humain complexe.

Caroline Magg, Maaike A. ter Wee, Johannes G. G. Dobbe, Geert J. Streekstra, Leendert Blankevoort, Clara I. Sánchez, Hoel Kervadec2026-03-12🤖 cs.AI

Towards Cognitive Defect Analysis in Active Infrared Thermography with Vision-Text Cues

Cet article propose un cadre novateur de détection de défauts en zéro-shot pour les polymères renforcés de fibres de carbone en thermographie infrarouge active, utilisant des modèles vision-langage préentraînés adaptés via un connecteur léger pour éliminer le besoin de jeux de données d'entraînement coûteux tout en obtenant des performances de localisation élevées.

Mohammed Salah, Eman Ouda, Giuseppe Dell'Avvocato, Fabrizio Sarasini, Ester D'Accardi, Jorge Dias, Davor Svetinovic, Stefano Sfarra, Yusra Abdulrahman2026-03-12⚡ eess

P-GSVC: Layered Progressive 2D Gaussian Splatting for Scalable Image and Video

Cet article présente P-GSVC, un cadre unifié de splatting gaussien 2D progressif et multicouche qui permet une reconstruction d'images et de vidéos évolutive grâce à une stratégie d'entraînement conjoint surpassant les méthodes séquentielles.

Longan Wang, Yuang Shi, Wei Tsang Ooi2026-03-12💻 cs

← Précédent Suivant →