cs.CV articles | Gist.Science

Robust Adaptation of Large Multimodal Models for Retrieval Augmented Hateful Meme Detection

Cet article présente un cadre d'adaptation robuste pour les grands modèles multimodaux qui améliore la détection des mèmes haineux en augmentant la précision intra-domaine, la généralisation inter-domaines et la résilience aux attaques adverses, tout en surpassant les systèmes existants et en fournissant des justifications plus interprétables.

Jingbiao Mei, Jinghong Chen, Guangyu Yang + 2 more2026-03-03💬 cs.CL

Thicker and Quicker: A Jumbo Token for Fast Plain Vision Transformers

Ce papier présente Jumbo, une architecture de Vision Transformer (ViT) qui accélère le traitement en réduisant la largeur des tokens de patchs tout en ajoutant un token global « Jumbo » plus large et efficace, permettant d'améliorer la précision et l'adaptabilité sur diverses tâches sans sacrifier la compatibilité ni la simplicité des ViT standards.

Anthony Fuller, Yousef Yassin, Daniel G. Kyrollos + 2 more2026-03-03💻 cs

MemeIntel: Explainable Detection of Propagandistic and Hateful Memes

Ce papier présente MemeIntel, une approche qui améliore la détection des memes propagandistes et haineux en introduisant le jeu de données MemeXplain et une optimisation multi-étape pour les modèles vision-langage, permettant ainsi de générer simultanément des prédictions précises et des explications rationnelles.

Mohamed Bayan Kmainasi, Abul Hasnat, Md Arid Hasan + 2 more2026-03-03💬 cs.CL

Openfly: A comprehensive platform for aerial vision-language navigation

Le papier présente OpenFly, une plateforme complète pour la navigation aérienne vision-langage qui intègre des moteurs de rendu avancés, un outil automatisé de collecte de données et un vaste benchmark de 100 000 trajectoires pour combler le manque d'études dans ce domaine.

Yunpeng Gao, Chenhui Li, Zhongrui You + 20 more2026-03-03💻 cs

LLaVE: Large Language and Vision Embedding Models with Hardness-Weighted Contrastive Learning

Le papier présente LLaVE, un cadre d'apprentissage contrastif pondéré par la difficulté qui améliore l'entraînement des modèles d'encodage multimodaux pour mieux distinguer les paires négatives difficiles, permettant ainsi d'atteindre des performances de pointe sur le benchmark MMEB avec une meilleure efficacité que les modèles précédents.

Zhibin Lan, Liqiang Niu, Fandong Meng + 2 more2026-03-03💬 cs.CL

Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

Le papier présente Vision-R1, un modèle multimodal de langage qui améliore les capacités de raisonnement grâce à une stratégie d'entraînement par apprentissage par renforcement combinant un jeu de données de chaîne de pensée initialisé automatiquement et une suppression progressive de la sur-réflexion, atteignant ainsi des performances compétitives sur les benchmarks de raisonnement mathématique.

Wenxuan Huang, Bohan Jia, Zijie Zhai + 7 more2026-03-03💬 cs.CL

SemHiTok: A Unified Image Tokenizer via Semantic-Guided Hierarchical Codebook for Multimodal Understanding and Generation

Ce papier présente SemHiTok, un décodeur d'images unifié innovant qui utilise un codebook hiérarchique guidé par la sémantique pour concilier efficacement les exigences contradictoires de la compréhension et de la génération multimodales.

Zisheng Chen, Chunwei Wang, Runhui Huang + 6 more2026-03-03🤖 cs.AI

Effective and Efficient Masked Image Generation Models

Ce papier présente eMIGM, un modèle unifié de génération d'images masquées qui, grâce à une exploration rigoureuse de l'espace de conception, surpasse des modèles de référence comme VAR et EDM2 sur ImageNet tout en nécessitant moins de calculs.

Zebin You, Jingyang Ou, Xiaolu Zhang + 3 more2026-03-03🤖 cs.LG

SPEED: Scalable, Precise, and Efficient Concept Erasure for Diffusion Models

Le papier présente SPEED, une méthode efficace d'effacement de concepts pour les modèles de diffusion qui modifie directement les paramètres via un espace nul optimisé par trois stratégies complémentaires, permettant ainsi d'éliminer jusqu'à 100 concepts en 5 secondes tout en préservant la qualité de génération des concepts non ciblés.

Ouxiang Li, Yuan Wang, Xinting Hu + 3 more2026-03-03💻 cs

A Multi-Objective Evaluation Framework for Analyzing Utility-Fairness Trade-Offs in Machine Learning Systems

Cet article présente un cadre d'évaluation multi-objectif, agnostique et disponible publiquement, conçu pour analyser et visualiser les compromis entre utilité et équité dans les systèmes d'apprentissage automatique, en mettant particulièrement l'accent sur leur application critique dans le domaine de l'imagerie médicale.

Gökhan Özbulak, Oscar Jimenez-del-Toro, Maíra Fatoretto + 2 more2026-03-03🤖 cs.LG

Target-Aware Video Diffusion Models

Les auteurs proposent un modèle de diffusion vidéo ciblé capable de générer des vidéos où un acteur interagit avec un objet spécifique défini par un masque de segmentation, en intégrant ce masque dans le prompt textuel et en affinant l'entraînement via une perte d'attention croisée pour garantir la précision des interactions humain-objet.

Taeksoo Kim, Hanbyul Joo2026-03-03💻 cs

AdaRank: Adaptive Rank Pruning for Enhanced Model Merging

Ce papier présente AdaRank, un cadre novateur de fusion de modèles qui améliore les performances multi-tâches en adaptivement élaguant les composantes singulières interférentes des vecteurs de tâche via une minimisation de l'entropie, réduisant ainsi l'écart de performance par rapport aux modèles affinés individuels à moins de 1 %.

Chanhyuk Lee, Jiho Choi, Chanryeol Lee + 2 more2026-03-03🤖 cs.AI

Physically Ground Commonsense Knowledge for Articulated Object Manipulation with Analytic Concepts

Les auteurs proposent d'utiliser des concepts analytiques, définis par des symboles mathématiques calculables, pour ancrer les connaissances de bon sens déduites par les modèles de langage multimodaux dans le monde physique et ainsi guider les robots vers une manipulation généralisée et précise d'objets articulés.

Jiude Wei, Yuxuan Li, Cewu Lu + 1 more2026-03-03💻 cs

OSDM-MReg: Multimodal Image Registration based One Step Diffusion Model

L'article présente OSDM-MReg, un cadre innovant d'enregistrement d'images multimodales qui utilise un modèle de diffusion conditionnel en une seule étape pour traduire les images dans un domaine commun, surmontant ainsi les écarts radiométriques et améliorant la précision de l'alignement.

Xiaochen Wei, Weiwei Guo, Wenxian Yu + 2 more2026-03-03⚡ eess

VR-FuseNet: A Fusion of Heterogeneous Fundus Data and Explainable Deep Network for Diabetic Retinopathy Classification

Ce papier présente VR-FuseNet, un modèle d'apprentissage profond hybride fusionnant VGG19 et ResNet50V2 sur un ensemble de données hétérogènes prétraité, qui atteint une précision de 91,824 % pour la classification de la rétinopathie diabétique tout en intégrant des techniques d'IA explicable pour interpréter cliniquement les prédictions.

Shamim Rahim Refat, Ziyan Shirin Raha, Shuvashis Sarker + 4 more2026-03-03💻 cs

Towards Application-Specific Evaluation of Vision Models: Case Studies in Ecology and Biology

Cet article plaide pour l'évaluation des modèles de vision par ordinateur en écologie et en biologie à l'aide de métriques spécifiques à l'application plutôt que de simples indicateurs d'apprentissage automatique, en démontrant par deux études de cas que des performances algorithmiques élevées ne garantissent pas nécessairement la précision des inférences biologiques finales.

Alex Hoi Hang Chan, Otto Brookes, Urs Waldmann + 11 more2026-03-03💻 cs

Wasserstein Distances Made Explainable: Insights Into Dataset Shifts and Transport Phenomena

Cet article propose une méthode d'IA explicable permettant d'attribuer efficacement et précisément les distances de Wasserstein à divers composants des données, tels que des sous-groupes ou des caractéristiques, afin de mieux comprendre les décalages de distribution et les phénomènes de transport.

Philip Naumann, Jacob Kauffmann, Grégoire Montavon2026-03-03🤖 cs.AI

Dynamic Uncertainty Learning with Noisy Correspondence for Text-Based Person Search

Cet article propose le cadre DURA, intégrant un sélecteur de caractéristiques clés et une nouvelle fonction de perte, pour améliorer la recherche de personnes basée sur le texte en atténuant efficacement le bruit des correspondances dans les données d'apprentissage.

Zequn Xie, Haoming Ji, Chengxuan Li + 1 more2026-03-03💻 cs

Adversarially Pretrained Transformers May Be Universally Robust In-Context Learners

Cette étude présente une analyse théorique démontrant que les transformateurs pré-entraînés de manière adversariale peuvent agir comme des modèles fondateurs universellement robustes, capables de s'adapter de manière résiliente à diverses tâches en aval via l'apprentissage contextuel sans nécessiter de réentraînement adversarial supplémentaire.

Soichiro Kumano, Hiroshi Kera, Toshihiko Yamasaki2026-03-03📊 stat

Flexible-weighted Chamfer Distance: Enhanced Objective Function for Point Cloud Completion

Cet article présente la Distance de Chamfer à poids flexible (FCD), une nouvelle fonction objectif qui améliore la complétion de nuages de points en découplant la précision locale et l'intégrité globale grâce à une stratégie de pondération asymétrique, réduisant ainsi les défauts structurels et les regroupements de points sur divers benchmarks et tâches.

Jie Li, Shengwei Tian, Long Yu + 1 more2026-03-03💻 cs

← Précédent Suivant →