cs.CV articles | Gist.Science

VR-FuseNet: A Fusion of Heterogeneous Fundus Data and Explainable Deep Network for Diabetic Retinopathy Classification

Ce papier présente VR-FuseNet, un modèle d'apprentissage profond hybride fusionnant VGG19 et ResNet50V2 sur un ensemble de données hétérogènes prétraité, qui atteint une précision de 91,824 % pour la classification de la rétinopathie diabétique tout en intégrant des techniques d'IA explicable pour interpréter cliniquement les prédictions.

Shamim Rahim Refat, Ziyan Shirin Raha, Shuvashis Sarker + 4 more2026-03-03💻 cs

Towards Application-Specific Evaluation of Vision Models: Case Studies in Ecology and Biology

Cet article plaide pour l'évaluation des modèles de vision par ordinateur en écologie et en biologie à l'aide de métriques spécifiques à l'application plutôt que de simples indicateurs d'apprentissage automatique, en démontrant par deux études de cas que des performances algorithmiques élevées ne garantissent pas nécessairement la précision des inférences biologiques finales.

Alex Hoi Hang Chan, Otto Brookes, Urs Waldmann + 11 more2026-03-03💻 cs

Wasserstein Distances Made Explainable: Insights Into Dataset Shifts and Transport Phenomena

Cet article propose une méthode d'IA explicable permettant d'attribuer efficacement et précisément les distances de Wasserstein à divers composants des données, tels que des sous-groupes ou des caractéristiques, afin de mieux comprendre les décalages de distribution et les phénomènes de transport.

Philip Naumann, Jacob Kauffmann, Grégoire Montavon2026-03-03🤖 cs.AI

Dynamic Uncertainty Learning with Noisy Correspondence for Text-Based Person Search

Cet article propose le cadre DURA, intégrant un sélecteur de caractéristiques clés et une nouvelle fonction de perte, pour améliorer la recherche de personnes basée sur le texte en atténuant efficacement le bruit des correspondances dans les données d'apprentissage.

Zequn Xie, Haoming Ji, Chengxuan Li + 1 more2026-03-03💻 cs

Adversarially Pretrained Transformers May Be Universally Robust In-Context Learners

Cette étude présente une analyse théorique démontrant que les transformateurs pré-entraînés de manière adversariale peuvent agir comme des modèles fondateurs universellement robustes, capables de s'adapter de manière résiliente à diverses tâches en aval via l'apprentissage contextuel sans nécessiter de réentraînement adversarial supplémentaire.

Soichiro Kumano, Hiroshi Kera, Toshihiko Yamasaki2026-03-03📊 stat

Flexible-weighted Chamfer Distance: Enhanced Objective Function for Point Cloud Completion

Cet article présente la Distance de Chamfer à poids flexible (FCD), une nouvelle fonction objectif qui améliore la complétion de nuages de points en découplant la précision locale et l'intégrité globale grâce à une stratégie de pondération asymétrique, réduisant ainsi les défauts structurels et les regroupements de points sur divers benchmarks et tâches.

Jie Li, Shengwei Tian, Long Yu + 1 more2026-03-03💻 cs

DeepEyes: Incentivizing "Thinking with Images" via Reinforcement Learning

DeepEyes est un modèle vision-langage entraîné par apprentissage par renforcement qui apprend nativement à « réfléchir avec des images » en intégrant activement l'information visuelle dans son raisonnement, améliorant ainsi ses performances en perception, en raisonnement mathématique et en réduction des hallucinations sans nécessiter de données de raisonnement préalables.

Ziwei Zheng, Michael Yang, Jack Hong + 5 more2026-03-03💻 cs

GradPCA: Leveraging NTK Alignment for Reliable Out-of-Distribution Detection

Le papier présente GradPCA, une méthode de détection hors distribution qui exploite la structure de rang faible des gradients induite par l'alignement du NTK via l'ACP, offrant des performances supérieures et un cadre théorique pour guider la conception de détecteurs spectraux.

Mariia Seleznova, Hung-Hsu Chou, Claudio Mayrink Verdun + 1 more2026-03-03🤖 cs.LG

Dynamic Token Reweighting for Robust Vision-Language Models

Ce papier présente DTR, une méthode de défense à l'inférence qui atténue les attaques de contournement multimodales dans les modèles vision-langage en optimisant dynamiquement les caches clé-valeur pour ajuster les poids des tokens visuels, améliorant ainsi la robustesse sans compromettre les performances générales.

Tanqiu Jiang, Jiacheng Liang, Rongyi Zhu + 3 more2026-03-03💬 cs.CL

Seek-CAD: A Self-refined Generative Modeling for 3D Parametric CAD Using Local Inference via DeepSeek

L'article présente Seek-CAD, une méthode sans entraînement pionnière qui utilise le modèle de langage ouvert DeepSeek-R1 couplé à un mécanisme d'auto-affinement basé sur la rétroaction visuelle et le raisonnement en chaîne de pensée pour générer des modèles CAO paramétriques 3D, validé par un nouveau jeu de données structuré selon le paradigme SSR.

Xueyang Li, Jiahao Li, Yu Song + 2 more2026-03-03🤖 cs.AI

Probabilistic Kernel Function for Fast Angle Testing

Cet article propose de nouvelles fonctions noyaux probabilistes basées sur des projections déterministes et des angles de référence pour le test d'angles, permettant d'accélérer la recherche de voisins les plus proches (ANNS) avec un débit de requêtes 2,5 à 3 fois supérieur à celui de l'algorithme HNSW.

Kejing Lu, Chuan Xiao, Yoshiharu Ishikawa2026-03-03🤖 cs.AI

Point-MoE: Large-Scale Multi-Dataset Training with Mixture-of-Experts for 3D Semantic Segmentation

Le papier présente Point-MoE, une architecture de type Mixture-of-Experts qui permet l'entraînement conjoint à grande échelle de modèles de segmentation sémantique 3D sur des ensembles de données hétérogènes sans étiquettes de jeu de données, en utilisant des experts spécialisés activés de manière parcimonieuse pour surmonter les biais inhérents aux différentes sources de nuages de points.

Xuweiyi Chen, Wentao Zhou, Aruni RoyChowdhury + 1 more2026-03-03💻 cs

SenseFlow: Scaling Distribution Matching for Flow-based Text-to-Image Distillation

Le papier présente SenseFlow, une méthode de distillation qui surmonte les difficultés de convergence de la distillation par correspondance de distribution sur les grands modèles de génération d'images basés sur le flux (comme SD 3.5 et FLUX) grâce à une alignement de distribution implicite et un guidage intra-segment, permettant d'obtenir des performances supérieures.

Xingtong Ge, Xin Zhang, Tongda Xu + 4 more2026-03-03💻 cs

Harnessing Chain-of-Thought Reasoning in Multimodal Large Language Models for Face Anti-Spoofing

Cette étude présente FaceCoT, le premier jeu de données VQA à grande échelle pour la détection de falsification faciale, enrichi par un modèle de légende optimisé par apprentissage par renforcement et une stratégie d'apprentissage progressif (CEPL) qui exploitent le raisonnement par chaîne de pensée pour améliorer la robustesse et l'interprétabilité des modèles multimodaux.

Honglu Zhang, Zhiqin Fang, Ningning Zhao + 4 more2026-03-03💻 cs

OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models

Ce travail présente OmniSpatial, un benchmark complet et difficile fondé sur la psychologie cognitive pour évaluer le raisonnement spatial des modèles vision-langage, révélant leurs limites actuelles et proposant des stratégies d'amélioration telles que PointGraph et SpatialCoT.

Mengdi Jia, Zekun Qi, Shaochen Zhang + 5 more2026-03-03💬 cs.CL

UniCUE: Unified Recognition and Generation Framework for Chinese Cued Speech Video-to-Speech Generation

Le papier présente UniCUE, un cadre unifié innovant qui génère directement de la parole à partir de vidéos de langage des signes chinois sans passer par un texte intermédiaire, en s'appuyant sur un nouveau jeu de données à grande échelle et en intégrant des tâches de reconnaissance pour guider la génération audio.

Jinting Wang, Shan Yang, Chenxing Li + 2 more2026-03-03⚡ eess

Improving Wildlife Out-of-Distribution Detection: Africas Big Five

Cette étude propose une méthode améliorée de détection hors distribution pour les animaux sauvages, démontrant que l'approche paramétrique Nearest Class Mean (NCM) combinée à des caractéristiques préentraînées sur ImageNet surpasse significativement les méthodes existantes pour identifier les membres de la « Big Five » africaine et ainsi atténuer les conflits homme-faune.

Mufhumudzi Muthivhi, Jiahao Huo, Fredrik Gustafsson + 1 more2026-03-03🤖 cs.AI

Meta-Adaptive Prompt Distillation for Few-Shot Visual Question Answering

Cet article propose une méthode d'adaptation méta-learnée par distillation de prompts souples à partir de caractéristiques visuelles pertinentes, permettant aux modèles multimodaux de grande taille d'améliorer significativement leurs performances en question-réponse visuelle avec peu d'exemples en surmontant les limites de l'apprentissage par contexte.

Akash Gupta, Amos Storkey, Mirella Lapata2026-03-03💬 cs.CL

BitVLA: 1-bit Vision-Language-Action Models for Robotics Manipulation

Ce papier présente BitVLA, un modèle entièrement natif en 1 bit pour la manipulation robotique qui, grâce à une conception optimisée et une stratégie d'entraînement « Quantize-then-Distill », atteint des performances comparables aux modèles pleine précision tout en réduisant la mémoire de 11 fois et la latence de 4,4 fois pour un déploiement efficace sur des dispositifs embarqués.

Hongyu Wang, Chuyan Xiong, Ruiping Wang + 1 more2026-03-03💻 cs

PD $^{2}$ GS: Part-Level Decoupling and Continuous Deformation of Articulated Objects via Gaussian Splatting

Le papier présente PD²GS, un cadre novateur utilisant le Gaussian Splatting pour modéliser la déformation continue d'objets articulés via un champ gaussien canonique partagé, permettant une découpe précise au niveau des parties et un contrôle fluide sans supervision manuelle, tout en étant validé par le nouveau jeu de données réel-to-sim RS-Art.

Haowen Wang, Xiaoping Yuan, Zhao Jin + 6 more2026-03-03💻 cs

← Précédent Suivant →

cs.CV