cs.CV articles | Gist.Science

Personalized Feature Translation for Expression Recognition: An Efficient Source-Free Domain Adaptation Method

L'article propose SFDA-PFT, une méthode d'adaptation de domaine sans source légère qui utilise une translation de caractéristiques personnalisée dans l'espace latent pour améliorer la reconnaissance des expressions faciales à partir de données cibles neutres uniquement, sans nécessiter de données sources ni de synthèse d'images.

Masoumeh Sharafi, Soufiane Belharbi, Muhammad Osama Zeeshan, Houssem Ben Salem, Ali Etemad, Alessandro Lameiras Koerich, Marco Pedersoli, Simon Bacon, Eric GrangerWed, 11 Ma🤖 cs.AI

EgoCross: Benchmarking Multimodal Large Language Models for Cross-Domain Egocentric Video Question Answering

Ce papier présente EgoCross, un nouveau benchmark conçu pour évaluer la capacité de généralisation des modèles de langage multimodaux au-delà des activités quotidiennes en les confrontant à des domaines complexes et variés tels que la chirurgie, l'industrie, les sports extrêmes et la vision animale.

Yanjun Li, Yuqian Fu, Tianwen Qian, Qi'ao Xu, Silong Dai, Danda Pani Paudel, Luc Van Gool, Xiaoling WangWed, 11 Ma🤖 cs.AI

You Only Pose Once: A Minimalist's Detection Transformer for Monocular RGB Category-level 9D Multi-Object Pose Estimation

Le papier présente YOPO, une méthode unifiée et minimaliste basée sur les transformers qui réalise l'estimation de pose 9D de catégorie pour plusieurs objets à partir d'une seule image RGB, atteignant des performances de pointe sans recourir à des données de profondeur ou à des modèles CAD.

Hakjin Lee, Junghoon Seo, Jaehoon SimWed, 11 Ma💻 cs

CoRe-GS: Coarse-to-Refined Gaussian Splatting with Semantic Object Focus

L'article présente CoRe-GS, un cadre de reconstruction 3D par splatting gaussien qui optimise de manière sélective et efficace uniquement les objets d'intérêt spécifiques, réduisant ainsi considérablement le temps de calcul tout en améliorant la qualité de la reconstruction pour les applications robotiques en temps réel.

Hannah Schieber, Dominik Frischmann, Victor Schaack, Simon Boche, Angela Schoellig, Stefan Leutenegger, Daniel RothWed, 11 Ma💻 cs

VocSegMRI: Multimodal Learning for Precise Vocal Tract Segmentation in Real-time MRI

Ce papier présente VocSegMRI, un cadre d'apprentissage multimodal qui intègre des données vidéo, audio et phonologiques via une fusion par attention croisée et un apprentissage contrastif pour atteindre une segmentation précise et robuste des voies vocales en IRM temps réel, surpassant les méthodes existantes avec un score Dice de 0,95.

Daiqi Liu, Tomás Arias-Vergara, Johannes Enk, Fangxu Xing, Maureen Stone, Jerry L. Prince, Jana Hutter, Andreas Maier, Jonghye Woo, Paula Andrea Pérez-ToroWed, 11 Ma💻 cs

Kuramoto Orientation Diffusion Models

Cet article propose un modèle génératif basé sur la dynamique stochastique de Kuramoto pour mieux capturer les motifs directionnels cohérents des images riches en orientation, comme les empreintes digitales, en remplaçant la diffusion euclidienne isotrope par un processus de synchronisation et de désynchronisation sur des domaines périodiques.

Yue Song, T. Anderson Keller, Sevan Brodjian, Takeru Miyato, Yisong Yue, Pietro Perona, Max WellingWed, 11 Ma🤖 cs.LG

Automated Coral Spawn Monitoring for Reef Restoration: The Coral Spawn and Larvae Imaging Camera System (CSLICS)

Ce papier présente le CSLICS, un système de caméra automatisé et peu coûteux utilisant l'intelligence artificielle pour compter précisément les pontes de coraux, réduisant ainsi considérablement la charge de travail manuelle et facilitant l'upscaling des efforts de restauration des récifs coralliens.

Dorian Tsai, Christopher A. Brunner, Riki Lamont, F. Mikaela Nordborg, Andrea Severati, Java Terry, Karen Jackel, Matthew Dunbabin, Tobias Fischer, Scarlett RaineWed, 11 Ma💻 cs

Learning Encoding-Decoding Direction Pairs to Unveil Concepts of Influence in Deep Vision Networks

Cet article propose une méthode non supervisée pour révéler les mécanismes d'encodage et de décodage des concepts dans les réseaux de vision profonds en identifiant des paires de directions latentes via un regroupement directionnel et des vecteurs de signal, permettant ainsi d'interpréter, de déboguer et d'intervenir sur le comportement des modèles.

Alexandros Doumanoglou, Kurt Driessens, Dimitrios ZarpalasWed, 11 Ma💻 cs

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

Ce papier présente VSSFlow, un cadre unifié basé sur l'appariement de flux et un mécanisme d'agrégation de conditions désengagé qui résout simultanément et avec une performance supérieure les tâches de génération de sons et de parole à partir de vidéos, démontrant ainsi le potentiel des modèles génératifs unifiés.

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua SongWed, 11 Ma🤖 cs.AI

v-HUB: A Benchmark for Video Humor Understanding from Vision and Sound

Ce papier présente v-HUB, une nouvelle référence pour l'évaluation de la compréhension de l'humour vidéo par les modèles de langage multimodaux, démontrant que l'intégration de l'audio améliore significativement leurs performances face à des défis visuels complexes.

Zhengpeng Shi, Yanpeng Zhao, Jianqun Zhou, Yuxuan Wang, Qinrong Cui, Wei Bi, Songchun Zhu, Bo Zhao, Zilong ZhengWed, 11 Ma🤖 cs.AI

LLaVAShield: Safeguarding Multimodal Multi-Turn Dialogues in Vision-Language Models

Ce papier présente LLaVAShield, un cadre de sécurité conçu pour auditer les dialogues multimodaux multi-tours dans les modèles vision-langage, accompagné du jeu de données MMDS et de la méthode MMRT pour générer et évaluer des risques complexes que les approches traditionnelles ne peuvent pas détecter.

Guolei Huang, Qinzhi Peng, Gan Xu, Yao Huang, Yuxuan Lu, Yongjun ShenWed, 11 Ma💻 cs

Mapping Historic Urban Footprints in France: Balancing Quality, Scalability and AI Techniques

Cette étude présente un pipeline d'apprentissage profond évolutif utilisant une approche U-Net en deux passes pour extraire le premier jeu de données national à accès libre des empreintes urbaines de la France métropolitaine entre 1925 et 1950 à partir des cartes historiques Scan Histo, permettant ainsi une analyse quantitative de l'étalement urbain avant les années 1970.

Walid Rabehi, Marion Le Texier, Rémi LemoyWed, 11 Ma💻 cs

NavSpace: How Navigation Agents Follow Spatial Intelligence Instructions

Ce papier présente NavSpace, une nouvelle norme d'évaluation conçue pour mesurer les capacités de perception et de raisonnement spatial des agents de navigation, ainsi que SNav, un modèle innovant qui surpasse les solutions existantes sur ce benchmark et lors de tests réels.

Haolin Yang, Yuxing Long, Zhuoyuan Yu, Zihan Yang, Minghan Wang, Jiapeng Xu, Yihan Wang, Ziyan Yu, Wenzhe Cai, Lei Kang, Hao DongWed, 11 Ma🤖 cs.AI

Exploring Single Domain Generalization of LiDAR-based Semantic Segmentation under Imperfect Labels

Cet article présente DuNe, un cadre d'apprentissage dual innovant qui résout le problème de la généralisation de domaine pour la segmentation sémantique LiDAR en présence de labels bruités, surpassant les méthodes existantes grâce à une cohérence au niveau des caractéristiques et un filtrage des prédictions basé sur la confiance.

Weitong Kong, Zichao Zeng, Di Wen, Jiale Wei, Kunyu Peng, June Moh Goo, Jan Boehm, Rainer StiefelhagenWed, 11 Ma🤖 cs.LG

RECODE: Reasoning Through Code Generation for Visual Question Answering

Le papier présente RECODE, un cadre agentique qui améliore le raisonnement visuel des modèles multimodaux en transformant l'analyse d'images structurées en une tâche de génération et de vérification itérative de code exécutable, surpassant ainsi les méthodes traditionnelles sur plusieurs benchmarks.

Junhong Shen, Mu Cai, Bo Hu, Ameet Talwalkar, David A Ross, Cordelia Schmid, Alireza FathiWed, 11 Ma🤖 cs.AI

Real-Time Neural Video Compression with Unified Intra and Inter Coding

Cet article propose un cadre de compression vidéo neuronale en temps réel unifiant le codage intra et inter au sein d'un modèle unique, capable de gérer efficacement les disocclusions et de réduire la propagation d'erreurs, surpassant ainsi l'état de l'art DCVC-RT avec une réduction moyenne de 12,1 % du taux de bits BD.

Hui Xiang, Yifan Bian, Li Li, Jingran Wu, Xianguo Zhang, Dong LiuWed, 11 Ma💻 cs

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

Ce papier présente FALCON, une nouvelle approche qui améliore les modèles vision-langage-action en injectant des tokens spatiaux 3D riches, dérivés de modèles de fondation spatiale, directement dans la tête d'action pour combler le fossé de raisonnement spatial et atteindre des performances de pointe sur des tâches simulées et réelles.

Zhengshen Zhang, Hao Li, Yalun Dai, Zhengbang Zhu, Lei Zhou, Chenchen Liu, Dong Wang, Francis E. H. Tay, Sijin Chen, Ziwei Liu, Yuxiao Liu, Xinghang Li, Pan ZhouWed, 11 Ma🤖 cs.AI

Proper Body Landmark Subset Enables More Accurate and 5X Faster Recognition of Isolated Signs in LIBRAS

Ce papier démontre qu'une sélection judicieuse d'un sous-ensemble de repères corporels, combinée à une imputation par splines, permet de reconnaître les signes isolés de la LIBRAS avec une précision égale ou supérieure aux méthodes de pointe tout en accélérant le traitement de plus de cinq fois par rapport à l'approche précédente.

Daniele L. V. dos Santos, Thiago B. Pereira, Carlos Eduardo G. R. Alves, Richard J. M. G. Tello, Francisco de A. Boldt, Thiago M. PaixãoWed, 11 Ma💻 cs

SynHLMA:Synthesizing Hand Language Manipulation for Articulated Object with Discrete Human Object Interaction Representation

L'article présente SynHLMA, un cadre novateur générant des séquences de manipulation manuelle d'objets articulés à partir d'instructions langagières en utilisant une représentation discrète des interactions main-objet et un modèle d'apprentissage aligné sur le langage pour assurer la cohérence fonctionnelle et dynamique.

Wang zhi, Yuyan Liu, Liu Liu, Li Zhang, Ruixuan Lu, Dan GuoWed, 11 Ma🤖 cs.AI

Who Made This? Fake Detection and Source Attribution with Diffusion Features

Ce papier présente FRIDA, un cadre léger et efficace en données qui exploite les caractéristiques d'un modèle Stable Diffusion pré-entraîné pour détecter les images synthétiques sans apprentissage et attribuer leur source avec une robustesse supérieure aux générateurs non vus.

Simone Bonechi, Paolo Andreini, Barbara Toniella CorradiniWed, 11 Ma💻 cs

← Précédent Suivant →