cs.CV articles | Gist.Science

CA-Jaccard: Camera-aware Jaccard Distance for Person Re-identification

Cet article propose CA-Jaccard, une nouvelle métrique de distance pour la ré-identification de personnes qui atténue l'impact négatif des variations de caméra sur la fiabilité de la distance de Jaccard en intégrant des informations spécifiques à la caméra via des k-plus proches voisins réciproques et une expansion de requête locale.

Yiyu Chen, Zheyi Fan, Zhaoru Chen, Yixuan Zhu2026-03-10💻 cs

DivCon: Divide and Conquer for Complex Numerical and Spatial Reasoning in Text-to-Image Generation

Le papier présente DivCon, une approche « diviser pour régner » qui améliore la génération d'images à partir de texte en décomposant la prédiction de mise en page et la synthèse d'images en sous-tâches gérables, permettant ainsi aux modèles légers de surpasser les méthodes précédentes dans la gestion de relations spatiales et numériques complexes.

Yuhao Jia, Wenhan Tan2026-03-10💻 cs

Deepfake Generation and Detection: A Benchmark and Survey

Ce document de recherche propose une revue complète et un benchmark des dernières avancées en matière de génération et de détection de deepfakes, en couvrant les définitions des tâches, les ensembles de données, les méthodes de pointe dans quatre domaines clés (échange de visages, réanimation, génération de visage parlant et édition d'attributs faciaux) ainsi que les défis futurs.

Gan Pei, Jiangning Zhang, Menghan Hu, Zhenyu Zhang, Chengjie Wang, Yunsheng Wu, Guangtao Zhai, Jian Yang, Dacheng Tao2026-03-10💻 cs

Goldilocks Test Sets for Face Verification

Cet article propose trois nouveaux jeux de données d'évaluation dits « Goldilocks » (Hadrian, Eclipse et ND-Twins) pour tester la robustesse des algorithmes de reconnaissance faciale face à des variations d'attributs et à des jumeaux, sans recourir à une dégradation artificielle de la qualité des images.

Haiyu Wu, Sicong Tian, Aman Bhatta, Jacob Gutierrez, Grace Bezold, Genesis Argueta, Karl Ricanek Jr., Michael C. King, Kevin W. Bowyer2026-03-10💻 cs

Exploring Diffusion Models' Corruption Stage in Few-Shot Fine-tuning and Mitigating with Bayesian Neural Networks

Cet article identifie et modélise théoriquement une phase de « corruption » lors du fine-tuning à peu d'exemples de modèles de diffusion, puis propose une solution basée sur les réseaux de neurones bayésiens qui atténue ce phénomène et améliore la fidélité et la diversité des images générées sans coût d'inférence supplémentaire.

Xiaoyu Wu, Jiaru Zhang, Yang Hua, Bohan Lyu, Hao Wang, Tao Song, Haibing Guan2026-03-10🤖 cs.LG

RDM: Recurrent Diffusion Model for Human Motion Generation

Ce papier présente RDM, un modèle de diffusion récurrent qui utilise des flux de normalisation pour générer efficacement de longues séquences de mouvements humains conditionnés par le texte, en évitant le coût computationnel du débruitage complet des trames précédentes.

Mirgahney Mohamed, Harry Jake Cunningham, Marc P. Deisenroth, Lourdes Agapito2026-03-10💻 cs

Improving Visual Object Tracking through Visual Prompting

Ce papier présente PiVOT, un nouveau mécanisme de prompt visuel pour le suivi d'objets générique qui exploite le modèle fondamental CLIP pour générer et affiner dynamiquement des prompts en ligne, permettant ainsi au suiveur de mieux supprimer les distracteurs et d'améliorer ses performances.

Shih-Fang Chen, Jun-Cheng Chen, I-Hong Jhuo, Yen-Yu Lin2026-03-10💻 cs

Pose Prior Learner: Unsupervised Categorical Prior Learning for Pose Estimation

Cet article présente le Pose Prior Learner (PPL), une méthode d'apprentissage non supervisé qui extrait des priors de pose généraux à partir d'images pour améliorer la précision de l'estimation de pose, y compris dans des cas d'occlusion, sans nécessiter d'annotations humaines.

Ziyu Wang, Shuangpeng Han, Mengmi Zhang2026-03-10💻 cs

ExpGest: Expressive Speaker Generation Using Diffusion Model and Hybrid Audio-Text Guidance

Le papier présente ExpGest, un cadre novateur basé sur un modèle de diffusion qui génère des gestes corporels expressifs et contrôlables en synchronisant les informations audio et textuelles pour surmonter les limitations des méthodes existantes.

Yongkang Cheng, Mingjiang Liang, Shaoli Huang, Gaoge Han, Jifeng Ning, Wei Liu2026-03-10💻 cs

Autoassociative Learning of Structural Representations for Modeling and Classification in Medical Imaging

Cette étude propose un système neurosymbolique capable de reconstruire des images médicales à partir de primitives visuelles pour générer des explications structurelles, surpassant les architectures d'apprentissage profond classiques en précision de classification et en transparence pour le diagnostic des anomalies histologiques.

Zuzanna Buchnajzer, Kacper Dobek, Stanisław Hapke, Daniel Jankowski, Krzysztof Krawiec2026-03-10🤖 cs.LG

Input-Adaptive Generative Dynamics in Diffusion Models

Ce papier propose un cadre de diffusion adaptatif qui ajuste dynamiquement la trajectoire de génération en fonction de la complexité de chaque échantillon, permettant ainsi de réduire le nombre d'étapes d'échantillonnage tout en maintenant la qualité des images générées.

Yucheng Xing, Xiaodong Liu, Xin Wang2026-03-10🤖 cs.LG

Prithvi-EO-2.0: A Versatile Multi-Temporal Foundation Model for Earth Observation Applications

Le papier présente Prithvi-EO-2.0, un modèle fondamental géospatial open-source amélioré entraîné sur 4,2 millions d'échantillons temporels qui surpasse les modèles existants dans diverses tâches de télédétection et intègre une approche de science ouverte avec des experts du domaine pour des applications allant de la gestion des catastrophes à la surveillance des écosystèmes.

Daniela Szwarcman, Sujit Roy, Paolo Fraccaro, {\TH}orsteinn Elí Gíslason, Benedikt Blumenstiel, Rinki Ghosal, Pedro Henrique de Oliveira, Joao Lucas de Sousa Almeida, Rocco Sedona, Yanghui Kang, Srija Chakraborty, Sizhe Wang, Carlos Gomes, Ankur Kumar, Myscon Truong, Denys Godwin, Hyunho Lee, Chia-Yu Hsu, Rohit Lal, Ata Akbari Asanjan, Besart Mujeci, Disha Shidham, Trevor Keenan, Paulo Arevalo, Wenwen Li, Hamed Alemohammad, Pontus Olofsson, Christopher Hain, Robert Kennedy, Bianca Zadrozny, David Bell, Gabriele Cavallaro, Campbell Watson, Manil Maskey, Rahul Ramachandran, Juan Bernabe Moreno2026-03-10💻 cs

iLLaVA: An Image is Worth Fewer Than 1/3 Input Tokens in Large Multimodal Models

Le papier présente iLLaVA, une méthode novatrice qui accélère de manière end-to-end les modèles multimodaux en optimisant conjointement l'encodeur d'images et le LLM grâce à une stratégie de fusion de tokens recyclant l'information, permettant ainsi d'obtenir des gains significatifs en vitesse et en efficacité tout en surpassant les modèles plus petits.

Lianyu Hu, Liqing Gao, Fanhua Shang, Liang Wan, Wei Feng2026-03-10💻 cs

Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models

Ce papier présente HarmonicEval, une métrique d'évaluation automatique sans référence capable d'agréger des scores par critère pour évaluer plusieurs tâches multimodales, et introduit le benchmark MMHE basé sur 18 000 jugements humains pour valider la généralisabilité de cette approche.

Masanari Ohi, Masahiro Kaneko, Naoaki Okazaki, Nakamasa Inoue2026-03-10💬 cs.CL

LangSurf: Language-Embedded Surface Gaussians for 3D Scene Understanding

Le papier propose LangSurf, une méthode qui améliore la compréhension des scènes 3D en alignant précisément les champs linguistiques sur les surfaces des objets grâce à une stratégie d'entraînement conjoint et un module d'attention contextuelle hiérarchique, surpassant ainsi les méthodes existantes pour des tâches de segmentation, de suppression et d'édition d'instances.

Hao Li, Minghan Qin, Zhengyu Zou, Diqi He, Xinhao Ji, Bohan Li, Bingquan Dai, Dingewn Zhang, Junwei Han2026-03-10💻 cs

From Pixels to Predicates: Learning Symbolic World Models via Pretrained Vision-Language Models

Cet article propose une méthode permettant d'apprendre des modèles du monde symboliques abstraits à partir de démonstrations visuelles et de modèles vision-langage préentraînés, afin de résoudre par planification des tâches de prise de décision à long horizon dans des environnements robotiques complexes avec une généralisation zéro-shot.

Ashay Athalye, Nishanth Kumar, Tom Silver, Yichao Liang, Jiuguang Wang, Tomás Lozano-Pérez, Leslie Pack Kaelbling2026-03-10🤖 cs.LG

Efficient Semi-Supervised Adversarial Training via Latent Clustering-Based Data Reduction

Cet article propose des stratégies de réduction de données basées sur le clustering latent pour optimiser l'entraînement adversaire semi-supervisé, permettant de réduire considérablement les besoins en données non étiquetées et le temps de calcul tout en préservant une robustesse élevée.

Somrita Ghosh, Yuelin Xu, Xiao Zhang2026-03-10🤖 cs.LG

MAP-based Problem-Agnostic diffusion model for Inverse Problems

Cet article propose une méthode d'estimation de terme guidé basée sur le maximum a posteriori (MAP) permettant d'adapter des modèles de diffusion préentraînés de manière agnostique aux problèmes d'inversion, améliorant ainsi la préservation des structures et la cohérence des résultats dans des tâches comme la super-résolution et l'inpainting.

Pingping Tao, Haixia Liu, Jing Su2026-03-10💻 cs

Strengthening Generative Robot Policies through Predictive World Modeling

Ce papier présente la commande prédictive générative (GPC), un cadre d'apprentissage qui combine un clone de politique générative, un modèle du monde prédictif et un planificateur en ligne pour surpasser le clonage comportemental dans diverses tâches de manipulation robotique, tant en simulation que dans le monde réel.

Han Qi, Haocheng Yin, Aris Zhu, Yilun Du, Heng Yang2026-03-10🤖 cs.LG

VL-Nav: A Neuro-Symbolic Approach for Reasoning-based Vision-Language Navigation

Le papier présente VL-Nav, une approche neuro-symbolique pour la navigation vision-langage qui combine raisonnement neuronal et guidage symbolique afin de permettre aux robots de décomposer des tâches complexes et d'explorer efficacement de grands environnements inconnus, atteignant des taux de réussite élevés dans des défis réels et simulés.

Yi Du, Taimeng Fu, Zhipeng Zhao, Shaoshu Su, Zitong Zhan, Zhuoqun Chen, Bowen Li, Chen Wang2026-03-10💻 cs

← Précédent Suivant →