Near--Real-Time Conflict-Related Fire Detection in Sudan Using Unsupervised Deep Learning

Cette étude présente une méthode de surveillance en quasi-temps réel des incendies liés au conflit au Soudan, utilisant un modèle d'auto-encodeur variationnel non supervisé sur des images satellites Planet Labs haute résolution, qui surpasse les techniques existantes en termes de rappel et de score F1 tout en restant opérationnellement viable.

Kuldip Singh Atwal, Dieter Pfoser, Daniel Rothbart2026-03-03🤖 cs.AI

Family Matters: A Systematic Study of Spatial vs. Frequency Masking for Continual Test-Time Adaptation

Cette étude systématique démontre que le choix de la famille de masquage (spatiale ou fréquentielle) est déterminant pour la stabilité de l'adaptation continue en temps réel, car le masquage spatial préserve les structures nécessaires sur les architectures à tokens de patchs tandis que le masquage fréquentiel s'avère compétitif pour les tâches fines sur les ViT, révélant ainsi que la cohérence structurelle est cruciale pour éviter l'effondrement catastrophique.

Chandler Timm C. Doloriel, Yunbei Zhang, Yeonguk Yu + 6 more2026-03-03💻 cs

Brain-Semantoks: Learning Semantic Tokens of Brain Dynamics with a Self-Distilled Foundation Model

Le papier présente Brain-Semantoks, un cadre auto-supervisé innovant qui utilise un tokeniseur sémantique et un objectif de distillation auto-enseignée pour apprendre des représentations robustes de la dynamique cérébrale à partir de séries temporelles fMRI bruyantes, permettant ainsi d'excellentes performances sur des tâches en aval sans nécessiter d'adaptation de domaine.

Sam Gijsen, Marc-Andre Schulz, Kerstin Ritter2026-03-03🧬 q-bio

ββ-CLIP: Text-Conditioned Contrastive Learning for Multi-Granular Vision-Language Alignment

Le papier présente β\beta-CLIP, un cadre d'apprentissage contrastif multi-granulaire qui aligne hiérarchiquement les représentations visuelles et textuelles via une attention croisée et une nouvelle fonction de perte (β\beta-CAL), établissant ainsi un nouvel état de l'art pour l'alignement vision-langage dense sans utiliser de négatifs durs.

Fatimah Zohra, Chen Zhao, Hani Itani + 1 more2026-03-03💻 cs

CRISP: Contact-Guided Real2Sim from Monocular Video with Planar Scene Primitives

Le papier présente CRISP, une méthode qui extrait de vidéos monoculaires des géométries de scène planes et propres ainsi que des mouvements humains simulables en intégrant la modélisation des contacts et un contrôle par apprentissage par renforcement, réduisant ainsi considérablement les échecs de suivi et accélérant la simulation pour des applications robotiques et AR/VR.

Zihan Wang, Jiashun Wang, Jeff Tan + 4 more2026-03-03💻 cs

AI-Powered Dermatological Diagnosis: From Interpretable Models to Clinical Implementation A Comprehensive Framework for Accessible and Trustworthy Skin Disease Detection

Cette recherche propose un cadre d'intelligence artificielle interprétable intégrant l'analyse d'images dermatologiques et les antécédents familiaux pour améliorer le diagnostic des maladies de peau, avec des essais cliniques prospectifs prévus pour valider son déploiement en milieu réel.

Satya Narayana Panda, Vaishnavi Kukkala, Spandana Iyer2026-03-03🤖 cs.AI

ForCM: Forest Cover Mapping from Multispectral Sentinel-2 Image by Integrating Deep Learning with Object-Based Image Analysis

Cette étude propose la méthode ForCM, qui combine l'analyse d'images basée sur les objets (OBIA) avec des modèles d'apprentissage profond appliqués aux images Sentinel-2 pour améliorer la précision de la cartographie de la couverture forestière en Amazonie, atteignant jusqu'à 95,64 % de précision globale.

Maisha Haque, Israt Jahan Ayshi, Sadaf M. Anis + 8 more2026-03-03🤖 cs.AI

Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

Le papier présente Vision-DeepResearch, un nouveau paradigme de recherche profonde multimodale qui intègre des capacités de recherche itérative multi-tours, multi-entités et multi-échelles dans les grands modèles de langage multimodaux via un entraînement par supervision et renforcement, surpassant ainsi les modèles existants et les flux de travail basés sur des modèles propriétaires avancés dans des scénarios réels bruyants.

Wenxuan Huang, Yu Zeng, Qiuchen Wang + 13 more2026-03-03🤖 cs.AI

Contribution-aware Token Compression for Efficient Video Understanding via Reinforcement Learning

Ce papier présente CaCoVID, une nouvelle méthode de compression de tokens pour la compréhension vidéo qui utilise l'apprentissage par renforcement et une optimisation combinatoire pour sélectionner dynamiquement les tokens les plus contributifs aux réponses correctes, réduisant ainsi la surcharge computationnelle sans sacrifier la performance.

Yinchao Ma, Qiang Zhou, Zhibin Wang + 4 more2026-03-03🤖 cs.AI