UniRain: Unified Image Deraining with RAG-based Dataset Distillation and Multi-objective Reweighted Optimization

Ce papier présente UniRain, un cadre unifié de dérainage d'images qui améliore la généralisation grâce à une distillation de données basée sur la génération augmentée par récupération (RAG) et une stratégie d'optimisation repondérée multi-objectifs intégrée à une architecture de mélange d'experts asymétrique, permettant ainsi de restaurer efficacement des images dégradées par la pluie et les gouttes dans diverses conditions diurnes et nocturnes.

Qianfeng Yang, Qiyuan Guan, Xiang Chen + 3 more2026-03-05💻 cs

When Visual Evidence is Ambiguous: Pareidolia as a Diagnostic Probe for Vision Models

Cette étude propose un cadre diagnostique basé sur la paréidolie faciale pour révéler comment les choix de représentation, plutôt que les seuils de score, déterminent si les modèles de vision interprètent les ambiguïtés visuelles par une suractivation sémantique (comme les VLM), une abstention par incertitude (comme ViT) ou une suppression conservatrice (comme les détecteurs).

Qianpu Chen, Derya Soydaner, Rob Saunders2026-03-05🤖 cs.AI

Rethinking the Efficiency and Effectiveness of Reinforcement Learning for Radiology Report Generation

Cet article propose un cadre d'apprentissage par renforcement pour la génération de rapports radiologiques qui améliore l'efficacité et l'efficacité clinique en introduisant une stratégie d'échantillonnage basée sur la diversité diagnostique et une optimisation de politique pondérée par les tokens diagnostiques (DiTPO), permettant d'atteindre des performances de pointe avec moins de données d'entraînement.

Zilin Lu, Ruifeng Yuan, Weiwei Cao + 6 more2026-03-05💻 cs

Volumetric Directional Diffusion: Anchoring Uncertainty Quantification in Anatomical Consensus for Ambiguous Medical Image Segmentation

Le papier propose le modèle de Diffusion Directionnelle Volumétrique (VDD), qui ancre la génération d'incertitudes dans un consensus anatomique déterministe pour quantifier précisément la variabilité inter-observateur dans la segmentation de lésions médicales 3D ambiguës, tout en évitant les hallucinations structurelles et en garantissant la cohérence topologique.

Chao Wu, Kangxian Xie, Mingchen Gao2026-03-05🤖 cs.AI

Revisiting the Role of Foundation Models in Cell-Level Histopathological Image Analysis under Small-Patch Constraints -- Effects of Training Data Scale and Blur Perturbations on CNNs and Vision Transformers

Cette étude démontre que, pour l'analyse de cellules dans des images histopathologiques de très faible résolution, les architectures spécifiques entraînées sur des données suffisantes surpassent les modèles de fondation en termes de précision et d'efficacité, sans offrir d'avantage en robustesse au flou.

Hiroki Kagiyama, Toru Nagasaka, Yukari Adachi + 5 more2026-03-05💻 cs

EgoPoseFormer v2: Accurate Egocentric Human Motion Estimation for AR/VR

Le papier présente EgoPoseFormer v2, une méthode basée sur les transformateurs et un système d'auto-étiquetage qui améliore considérablement l'estimation du mouvement humain en vue égocentrique pour la réalité augmentée et virtuelle, en surmontant les défis d'occlusion et de données limitées pour atteindre une précision et une stabilité temporelle supérieures aux méthodes actuelles.

Zhenyu Li, Sai Kumar Dwivedi, Filip Maric + 11 more2026-03-05💻 cs

Real Eyes Realize Faster: Gaze Stability and Pupil Novelty for Efficient Egocentric Learning

Cet article propose un sélecteur de trames « Dual-Criterion » exploitant la stabilité du regard et la réponse pupillaire pour filtrer efficacement les flux vidéo egocentriques, permettant d'atteindre des performances de classification équivalentes à celles du flux complet avec seulement 10 % des données tout en évitant l'inférence de modèles.

Ajan Subramanian, Sumukh Bettadapura, Rohan Sathish2026-03-05💻 cs