Fusion Complexity Inversion: Why Simpler Cross View Modules Outperform SSMs and Cross View Attention Transformers for Pasture Biomass Regression

Cette étude démontre que, pour l'estimation de la biomasse des pâturages sur des données agricoles limitées, la qualité du backbone pré-entraîné et l'utilisation de modules de fusion locaux et simples surpassent les architectures complexes comme les Transformers ou les SSM, révélant un principe d'inversion de la complexité de fusion.

Mridankan Mandal2026-03-10🤖 cs.LG

Transferable Optimization Network for Cross-Domain Image Reconstruction

Les auteurs proposent un cadre novateur d'apprentissage par transfert basé sur une optimisation bi-niveau, combinant un extracteur de caractéristiques universel et un adaptateur spécifique à la tâche, pour réaliser une reconstruction d'images de haute qualité, notamment en IRM sous-échantillonnée, malgré un manque de données d'entraînement en exploitant des sources hétérogènes et multi-domaines.

Yunmei Chen, Chi Ding, Xiaojing Ye2026-03-10🤖 cs.LG

Training-free Temporal Object Tracking in Surgical Videos

Cet article présente une méthode novatrice et sans entraînement pour le suivi temporel d'objets dans les vidéos chirurgicales, exploitant les capacités de localisation de modèles de diffusion pré-entraînés pour atteindre des performances supérieures sur le suivi d'instruments et de structures anatomiques lors de cholécystectomies.

Subhadeep Koley, Abdolrahim Kadkhodamohammadi, Santiago Barbarisi, Danail Stoyanov, Imanol Luengo2026-03-10💻 cs

Structure and Progress Aware Diffusion for Medical Image Segmentation

Cet article propose SPAD, une méthode de segmentation d'images médicales basée sur la diffusion qui utilise un planificateur progressif pour moduler l'apprentissage des structures anatomiques globales et des contours fins de manière séquentielle, en commençant par les morphologies stables avant d'affiner progressivement les frontières ambiguës.

Siyuan Song, Guyue Hu, Chenglong Li, Dengdi Sun, Zhe Jin, Jin Tang2026-03-10💻 cs

MINT: Molecularly Informed Training with Spatial Transcriptomics Supervision for Pathology Foundation Models

Le papier présente MINT, un cadre d'entraînement qui enrichit les modèles de base en pathologie par une supervision issue de la transcriptomique spatiale, améliorant ainsi la prédiction de l'expression génique et les tâches générales de pathologie sans oublier les représentations morphologiques apprises précédemment.

Minsoo Lee, Jonghyun Kim, Juseung Yun, Sunwoo Yu, Jongseong Jang2026-03-10💻 cs

Beyond Heuristic Prompting: A Concept-Guided Bayesian Framework for Zero-Shot Image Recognition

Cet article propose un cadre bayésien guidé par les concepts pour la reconnaissance d'images en zéro-shot, qui améliore les modèles vision-langage en synthétisant des concepts discriminatifs via des LLM et en atténuant l'impact des concepts aberrants grâce à une vraisemblance adaptative, surpassant ainsi les méthodes heuristiques existantes.

Hui Liu, Kecheng Chen, Jialiang Wang, Xianming Liu, Wenya Wang, Haoliang Li2026-03-10💻 cs

Enhancing Unregistered Hyperspectral Image Super-Resolution via Unmixing-based Abundance Fusion Learning

Cet article propose un cadre de fusion basé sur le démixage spectral pour améliorer la super-résolution d'images hyperspectrales non enregistrées, en découplant l'information spatiale et spectrale via une décomposition en valeurs singulières et un module d'agrégation déformable pour atteindre des performances state-of-the-art.

Yingkai Zhang, Tao Zhang, Jing Nie, Ying Fu2026-03-10💻 cs

IMSE: Intrinsic Mixture of Spectral Experts Fine-tuning for Test-Time Adaptation

Ce papier présente IMSE, une méthode d'adaptation au moment du test qui affine les grands modèles pré-entraînés en ajustant uniquement les valeurs singulières des experts spectraux intrinsèques aux Vision Transformers, tout en introduisant une perte de maximisation de la diversité pour éviter l'effondrement des caractéristiques et un mécanisme de récupération de codes spectraux pour une adaptation continue efficace.

Sunghyun Baek (Korea Advanced Institute of Science and Technology), Jaemyung Yu (Korea Advanced Institute of Science and Technology), Seunghee Koh (Korea Advanced Institute of Science and Technology), Minsu Kim (LG Energy Solution), Hyeonseong Jeon (LG Energy Solution), Junmo Kim (Korea Advanced Institute of Science and Technology)2026-03-10💻 cs

A Hybrid Vision Transformer Approach for Mathematical Expression Recognition

Cet article propose une approche hybride combinant un Vision Transformer avec encodage de position 2D et un décodeur à attention de couverture pour la reconnaissance d'expressions mathématiques, démontrant des performances supérieures aux méthodes actuelles sur le jeu de données IM2LATEX-100K avec un score BLEU de 89,94.

Anh Duy Le, Van Linh Pham, Vinh Loi Ly, Nam Quan Nguyen, Huu Thang Nguyen, Tuan Anh Tran2026-03-10💻 cs

Text to Automata Diagrams: Comparing TikZ Code Generation with Direct Image Synthesis

Cette étude évalue la capacité des modèles de langage et de vision à convertir des diagrammes d'automates dessinés par des étudiants en code TikZ, démontrant que la correction humaine des descriptions textuelles intermédiaires est essentielle pour obtenir des rendus graphiques précis et ainsi faciliter l'évaluation automatisée en éducation informatique.

Ethan Young, Zichun Wang, Aiden Taylor, Chance Jewell, Julian Myers, Satya Sri Rajiteswari Nimmagadda, Anthony White, Aniruddha Maiti, Ananya Jana2026-03-10💻 cs