cs.CV articles | Gist.Science

Beyond Dominant Patches: Spatial Credit Redistribution For Grounded Vision-Language Models

Ce papier propose la Redistribution du Crédit Spatial (SCR), une méthode d'inférence sans entraînement qui atténue les hallucinations des modèles vision-langage en rééquilibrant les activations des patches visuels pour restaurer le contexte spatial supprimé, améliorant ainsi la fiabilité sans sacrifier la qualité de génération ni la latence.

Niamul Hassan Samin, Md Arifur Rahman, Abdullah Ibne Hanif Arean + 2 more2026-03-05🤖 cs.AI

EvalMVX: A Unified Benchmarking for Neural 3D Reconstruction under Diverse Multiview Setups

Ce papier présente EvalMVX, un nouveau jeu de données réel et un benchmark unifié permettant d'évaluer quantitativement et simultanément les méthodes de reconstruction 3D neuronale basées sur la stéréoscopie multivue, la photométrie multivue et la forme par polarisation sous diverses conditions d'éclairage et de géométrie.

Zaiyan Yang, Jieji Ren, Xiangyi Wang + 5 more2026-03-05💻 cs

Improved MambdaBDA Framework for Robust Building Damage Assessment Across Disaster Domains

Cet article propose une amélioration du cadre MambaBDA pour l'évaluation des dommages aux bâtiments par imagerie satellite, intégrant une perte focale, des portes d'attention et un module d'alignement pour surmonter les déséquilibres de classes et les décalages de domaine, ce qui se traduit par des gains de performance significatifs, notamment dans des scénarios de catastrophes non vus.

Alp Eren Gençoğlu, Hazım Kemal Ekenel2026-03-05💻 cs

A Unified Revisit of Temperature in Classification-Based Knowledge Distillation

Cet article propose une étude unifiée examinant systématiquement les interactions entre le paramètre de température et divers éléments d'entraînement dans la distillation de connaissances, afin d'identifier des situations clés guidant son choix optimal pour les praticiens.

Logan Frank, Jim Davis2026-03-05🤖 cs.LG

ITO: Images and Texts as One via Synergizing Multiple Alignment and Training-Time Fusion

Le papier propose ITO, un cadre d'apprentissage prédictif image-texte qui surpasse les méthodes existantes en combinant un alignement multiple multimodal et une fusion légère durant l'entraînement (abandonnée à l'inférence) pour éliminer l'écart modal et améliorer les performances sur divers benchmarks.

HanZpeng Liu, Yaqian Li, Zidan Wang + 6 more2026-03-05🤖 cs.AI

Toward Early Quality Assessment of Text-to-Image Diffusion Models

Ce travail propose Probe-Select, un module plug-in qui évalue la qualité des images dès les premières étapes de la génération par diffusion ou matching de flux en exploitant les activations intermédiaires, permettant ainsi d'arrêter précocement les échantillons peu prometteurs et de réduire les coûts de calcul de plus de 60 % tout en améliorant la qualité finale.

Huanlei Guo, Hongxin Wei, Bingyi Jing2026-03-05🤖 cs.LG

Generalized non-exponential Gaussian splatting

Cet article généralise le splattage gaussien 3D (3DGS) à des opérateurs de mélange alpha non exponentiels, permettant de réduire considérablement le nombre de surdessins et d'obtenir des accélérations allant jusqu'à 4 fois dans le rendu de scènes complexes tout en maintenant une qualité d'image équivalente.

Sébastien Speierer, Adrian Jarabo2026-03-05💻 cs

TRACE: Task-Adaptive Reasoning and Representation Learning for Universal Multimodal Retrieval

Le papier présente TRACE, une méthode innovante qui unifie le raisonnement génératif et l'apprentissage de représentations discriminatives pour la recherche multimodale universelle, permettant au modèle d'activer dynamiquement un processus de réflexion structuré pour les requêtes complexes tout en maintenant une efficacité optimale et une forte transférabilité zéro-shot.

Xiangzhao Hao, Shijie Wang, Tianyu Yang + 3 more2026-03-05💻 cs

MoECLIP: Patch-Specialized Experts for Zero-shot Anomaly Detection

Le papier présente MoECLIP, une architecture à mélange d'experts qui améliore la détection d'anomalies sans apprentissage préalable en acheminant dynamiquement chaque patch d'image vers un expert LoRA spécialisé, tout en utilisant des techniques de séparation orthogonale et de régularisation ETF pour éviter la redondance fonctionnelle.

Jun Yeong Park, JunYoung Seo, Minji Kang + 1 more2026-03-05🤖 cs.AI

ProSMA-UNet: Decoder Conditioning for Proximal-Sparse Skip Feature Selection

Le papier présente ProSMA-UNet, une architecture de segmentation médicale qui reformule la sélection des connexions de saut comme un problème de sélection de caractéristiques parcimonieuse conditionnée par le décodeur, utilisant un opérateur de seuillage proximal pour éliminer explicitement le bruit et améliorer significativement les performances sur des tâches d'imagerie clinique difficiles.

Chun-Wun Cheng, Yanqi Cheng, Peiyuan Jing + 4 more2026-03-05💻 cs

Specificity-aware reinforcement learning for fine-grained open-world classification

Cet article présente SpeciaRL, un cadre d'apprentissage par renforcement conscient de la spécificité qui affine les grands modèles multimodaux de raisonnement pour améliorer la classification fine d'images en monde ouvert en favorisant des prédictions précises sans compromettre leur exactitude.

Samuele Angheben, Davide Berasi, Alessandro Conti + 2 more2026-03-05💻 cs

Deep Sketch-Based 3D Modeling: A Survey

Cet article présente une enquête complète sur la modélisation 3D basée sur des croquis assistée par l'intelligence artificielle, en introduisant l'espace de conception MORPHEUS pour catégoriser les méthodes actuelles et identifier les opportunités de recherche interdisciplinaire visant à mieux répondre à l'intention des utilisateurs.

Alberto Tono, Jiajun Wu, Gordon Wetzstein + 4 more2026-03-05💻 cs

The Influence of Iconicity in Transfer Learning for Sign Language Recognition

Cette étude démontre que l'utilisation de la transférence d'apprentissage basée sur l'iconicité entre des paires de langues des signes spécifiques (chinois-arabe et grec-flamand) améliore significativement les performances de reconnaissance, avec des gains allant jusqu'à 7,02 % pour l'arabe.

Keren Artiaga, Conor Lynch, Haithem Afli + 1 more2026-03-05🤖 cs.AI

mHC-HSI: Clustering-Guided Hyper-Connection Mamba for Hyperspectral Image Classification

Cet article présente mHC-HSI, un modèle de classification d'images hyperspectrales basé sur Mamba et guidé par le clustering, qui améliore l'apprentissage des caractéristiques spatio-spectrales et l'interprétabilité grâce à une connexion hyper-hybride contrainte par la variété et à une intégration de connaissances physiques spectrales.

Yimin Zhu, Zack Dewis, Quinn Ledingham + 6 more2026-03-05💻 cs

Beyond Accuracy: Evaluating Visual Grounding In Multimodal Medical Reasoning

Cette étude révèle que l'apprentissage par renforcement basé uniquement sur le texte améliore la précision des modèles de raisonnement médical multimodal tout en dégradant leur ancrage visuel, démontrant ainsi la nécessité d'évaluations qui mesurent la dépendance réelle aux images au-delà de la simple exactitude.

Anas Zafar, Leema Krishna Murali, Ashish Vashist2026-03-05💻 cs

Proact-VL: A Proactive VideoLLM for Real-Time AI Companions

Ce papier présente Proact-VL, un cadre général pour des agents interactifs en temps réel capables de perception proactive, évalué via le Live Gaming Benchmark qui démontre des performances supérieures en latence et en qualité pour des applications d'accompagnement humain.

Weicai Yan, Yuhong Dai, Qi Ran + 6 more2026-03-05💻 cs

Impact of Localization Errors on Label Quality for Online HD Map Construction

Cette étude analyse l'impact des erreurs de localisation sur la qualité des étiquettes pour la construction de cartes HD en ligne, démontrant que les erreurs d'orientation dégradent les performances du modèle plus que les erreurs de position et que l'ajout de données bruitées entraîne une baisse de performance plus que linéaire.

Alexander Blumberg, Jonas Merkert, Richard Fehler + 4 more2026-03-05💻 cs

Beyond Pixel Histories: World Models with Persistent 3D State

Le papier présente PERSIST, un nouveau modèle de monde qui simule l'évolution d'une scène 3D latente persistante (environnement, caméra et rendu) pour surmonter les limites de cohérence spatiale et de mémoire des modèles vidéo interactifs actuels, permettant ainsi une génération de mondes 3D cohérents et une édition géométrique fine.

Samuel Garcin, Thomas Walker, Steven McDonagh + 5 more2026-03-05🤖 cs.AI

Phys4D: Fine-Grained Physics-Consistent 4D Modeling from Video Diffusion

L'article présente Phys4D, une méthode en trois étapes qui transforme les modèles de diffusion vidéo en représentations 4D cohérentes sur le plan physique en combinant un pré-entraînement pseudo-supervisé, un affinage supervisé basé sur la simulation et un apprentissage par renforcement pour corriger les violations physiques résiduelles.

Haoran Lu, Shang Wu, Jianshu Zhang + 9 more2026-03-05🤖 cs.AI

Geographically-Weighted Weakly Supervised Bayesian High-Resolution Transformer for 200m Resolution Pan-Arctic Sea Ice Concentration Mapping and Uncertainty Estimation using Sentinel-1, RCM, and AMSR2 Data

Cette étude propose une approche novatrice de Transformer bayésien à haute résolution, combinant des modules locaux et globaux, une fonction de perte faiblement supervisée pondérée géographiquement et une fusion de données multi-sources (Sentinel-1, RCM, AMSR2) pour produire des cartes de concentration de la glace de mer à l'échelle pan-arctique à 200 mètres avec une estimation fiable des incertitudes.

Mabel Heffring, Lincoln Linlin Xu2026-03-05🤖 cs.LG

← Précédent Suivant →