cs.CV articles | Gist.Science

Near--Real-Time Conflict-Related Fire Detection in Sudan Using Unsupervised Deep Learning

Cette étude présente une méthode de surveillance en quasi-temps réel des incendies liés au conflit au Soudan, utilisant un modèle d'auto-encodeur variationnel non supervisé sur des images satellites Planet Labs haute résolution, qui surpasse les techniques existantes en termes de rappel et de score F1 tout en restant opérationnellement viable.

Kuldip Singh Atwal, Dieter Pfoser, Daniel Rothbart2026-03-03🤖 cs.AI

Family Matters: A Systematic Study of Spatial vs. Frequency Masking for Continual Test-Time Adaptation

Cette étude systématique démontre que le choix de la famille de masquage (spatiale ou fréquentielle) est déterminant pour la stabilité de l'adaptation continue en temps réel, car le masquage spatial préserve les structures nécessaires sur les architectures à tokens de patchs tandis que le masquage fréquentiel s'avère compétitif pour les tâches fines sur les ViT, révélant ainsi que la cohérence structurelle est cruciale pour éviter l'effondrement catastrophique.

Chandler Timm C. Doloriel, Yunbei Zhang, Yeonguk Yu + 6 more2026-03-03💻 cs

Brain-Semantoks: Learning Semantic Tokens of Brain Dynamics with a Self-Distilled Foundation Model

Le papier présente Brain-Semantoks, un cadre auto-supervisé innovant qui utilise un tokeniseur sémantique et un objectif de distillation auto-enseignée pour apprendre des représentations robustes de la dynamique cérébrale à partir de séries temporelles fMRI bruyantes, permettant ainsi d'excellentes performances sur des tâches en aval sans nécessiter d'adaptation de domaine.

Sam Gijsen, Marc-Andre Schulz, Kerstin Ritter2026-03-03🧬 q-bio

$β$ -CLIP: Text-Conditioned Contrastive Learning for Multi-Granular Vision-Language Alignment

Le papier présente $\beta$ -CLIP, un cadre d'apprentissage contrastif multi-granulaire qui aligne hiérarchiquement les représentations visuelles et textuelles via une attention croisée et une nouvelle fonction de perte ( $\beta$ -CAL), établissant ainsi un nouvel état de l'art pour l'alignement vision-langage dense sans utiliser de négatifs durs.

Fatimah Zohra, Chen Zhao, Hani Itani + 1 more2026-03-03💻 cs

CRISP: Contact-Guided Real2Sim from Monocular Video with Planar Scene Primitives

Le papier présente CRISP, une méthode qui extrait de vidéos monoculaires des géométries de scène planes et propres ainsi que des mouvements humains simulables en intégrant la modélisation des contacts et un contrôle par apprentissage par renforcement, réduisant ainsi considérablement les échecs de suivi et accélérant la simulation pour des applications robotiques et AR/VR.

Zihan Wang, Jiashun Wang, Jeff Tan + 4 more2026-03-03💻 cs

SoFlow: Solution Flow Models for One-Step Generative Modeling

Ce papier présente SoFlow, un cadre de modélisation des flux de solutions permettant une génération en une seule étape sans calcul de produit Jacobien-vecteur, et démontrant des performances supérieures aux modèles MeanFlow sur ImageNet 256x256.

Tianze Luo, Haotian Yuan, Zhuang Liu2026-03-03🤖 cs.LG

AI-Powered Dermatological Diagnosis: From Interpretable Models to Clinical Implementation A Comprehensive Framework for Accessible and Trustworthy Skin Disease Detection

Cette recherche propose un cadre d'intelligence artificielle interprétable intégrant l'analyse d'images dermatologiques et les antécédents familiaux pour améliorer le diagnostic des maladies de peau, avec des essais cliniques prospectifs prévus pour valider son déploiement en milieu réel.

Satya Narayana Panda, Vaishnavi Kukkala, Spandana Iyer2026-03-03🤖 cs.AI

GeoTeacher: Geometry-Guided Semi-Supervised 3D Object Detection

Le papier propose GeoTeacher, une méthode semi-supervisée pour la détection 3D d'objets qui améliore l'apprentissage avec peu de données étiquetées en transférant des connaissances géométriques via une supervision basée sur les points clés et en utilisant une augmentation de données par voxels avec un mécanisme de décroissance de distance.

Jingyu Li, Xiaolong Zhao, Zhe Liu + 2 more2026-03-03💻 cs

ForCM: Forest Cover Mapping from Multispectral Sentinel-2 Image by Integrating Deep Learning with Object-Based Image Analysis

Cette étude propose la méthode ForCM, qui combine l'analyse d'images basée sur les objets (OBIA) avec des modèles d'apprentissage profond appliqués aux images Sentinel-2 pour améliorer la précision de la cartographie de la couverture forestière en Amazonie, atteignant jusqu'à 95,64 % de précision globale.

Maisha Haque, Israt Jahan Ayshi, Sadaf M. Anis + 8 more2026-03-03🤖 cs.AI

Plug-and-Play Fidelity Optimization for Diffusion Transformer Acceleration via Cumulative Error Minimization

Ce papier présente CEM, un plugin plug-and-play qui optimise la fidélité de l'accélération des Diffusion Transformers en minimisant l'erreur cumulative via un algorithme de programmation dynamique, permettant d'adapter dynamiquement les stratégies de mise en cache sans surcoût computationnel ni besoin d'entraînement.

Tong Shao, Yusen Fu, Guoying Sun + 3 more2026-03-03💻 cs

Aligned explanations in neural networks

Cet article propose les PiNets, un cadre d'apprentissage profond fondé sur le principe de lisibilité du modèle, qui garantit par conception que les explications des prédictions sont alignées avec le processus de décision réel du réseau, offrant ainsi des justifications fidèles, robustes et significatives.

Corentin Lobet, Francesca Chiaromonte2026-03-03📊 stat

TP-Blend: Textual-Prompt Attention Pairing for Precise Object-Style Blending in Diffusion Models

Le papier présente TP-Blend, un cadre léger et sans entraînement qui fusionne de manière précise un objet et un style distincts dans les modèles de diffusion en combinant une fusion d'attention croisée optimisée par transport optimal et une fusion d'attention auto-attentionnelle sensible aux détails via une normalisation instance.

Xin Jin, Yichuan Zhong, Yapeng Tian2026-03-03🤖 cs.AI

Copy-Trasform-Paste: Zero-Shot Object-Object Alignment Guided by Vision-Language and Geometric Constraints

Cet article propose une méthode sans apprentissage préalable pour l'alignement 3D zéro-shot de deux maillages à partir d'une description textuelle, en optimisant directement leur pose relative via des gradients CLIP et des contraintes géométriques pour obtenir des résultats sémantiquement fidèles et physiquement plausibles.

Rotem Gatenyo, Ohad Fried2026-03-03💻 cs

Counterfactual Explanations on Robust Perceptual Geodesics

Cet article présente les Perceptual Counterfactual Geodesics (PCG), une méthode qui génère des explications contrefactuelles en suivant des géodésiques dans un espace latent muni d'une métrique riemannienne perceptuelle, garantissant ainsi des transitions sémantiquement valides et robustes aux artefacts hors-manifold.

Eslam Zaher, Maciej Trzaskowski, Quan Nguyen + 1 more2026-03-03🤖 cs.LG

Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

Le papier présente Vision-DeepResearch, un nouveau paradigme de recherche profonde multimodale qui intègre des capacités de recherche itérative multi-tours, multi-entités et multi-échelles dans les grands modèles de langage multimodaux via un entraînement par supervision et renforcement, surpassant ainsi les modèles existants et les flux de travail basés sur des modèles propriétaires avancés dans des scénarios réels bruyants.

Wenxuan Huang, Yu Zeng, Qiuchen Wang + 13 more2026-03-03🤖 cs.AI

When Anomalies Depend on Context: Learning Conditional Compatibility for Anomaly Detection

Cet article présente CAAD-3K, un nouveau benchmark, et un cadre d'apprentissage de compatibilité conditionnelle basé sur des représentations vision-langage pour détecter les anomalies contextuelles en modélisant la compatibilité sujet-environnement, surpassant ainsi les méthodes existantes sur plusieurs jeux de données.

Shashank Mishra, Didier Stricker, Jason Rambach2026-03-03🤖 cs.LG

Unveiling the Cognitive Compass: Theory-of-Mind-Guided Multimodal Emotion Reasoning

Ce papier présente HitEmotion, un benchmark hiérarchique et une méthode d'apprentissage par renforcement (TMPO) guidés par la théorie de l'esprit pour améliorer le raisonnement émotionnel multimodal des grands modèles de langage en modélisant explicitement les états mentaux.

Meng Luo, Bobo Li, Shanqing Xu + 8 more2026-03-03💻 cs

Gradient-Aligned Calibration for Post-Training Quantization of Diffusion Models

Cet article propose une méthode de quantisation post-entraînement novatrice pour les modèles de diffusion, qui améliore l'efficacité en apprenant à attribuer des poids optimaux aux échantillons de calibration afin d'aligner les gradients à travers les différents pas de temps.

Dung Anh Hoang, Cuong Pham anh Trung Le, Jianfei Cai + 1 more2026-03-03🤖 cs.LG

Contribution-aware Token Compression for Efficient Video Understanding via Reinforcement Learning

Ce papier présente CaCoVID, une nouvelle méthode de compression de tokens pour la compréhension vidéo qui utilise l'apprentissage par renforcement et une optimisation combinatoire pour sélectionner dynamiquement les tokens les plus contributifs aux réponses correctes, réduisant ainsi la surcharge computationnelle sans sacrifier la performance.

Yinchao Ma, Qiang Zhou, Zhibin Wang + 4 more2026-03-03🤖 cs.AI

CloDS: Visual-Only Unsupervised Cloth Dynamics Learning in Unknown Conditions

Ce papier présente CloDS, un cadre d'apprentissage non supervisé qui permet d'inférer la dynamique des tissus à partir de simples observations visuelles multi-vues sans connaissance préalable des propriétés physiques, en utilisant une approche de splatting gaussien sur maillage pour gérer les déformations complexes et les occlusions.

Yuliang Zhan, Jian Li, Wenbing Huang + 3 more2026-03-03🤖 cs.AI

← Précédent Suivant →

cs.CV