cs.CV articles | Gist.Science

Fusion Complexity Inversion: Why Simpler Cross View Modules Outperform SSMs and Cross View Attention Transformers for Pasture Biomass Regression

Cette étude démontre que, pour l'estimation de la biomasse des pâturages sur des données agricoles limitées, la qualité du backbone pré-entraîné et l'utilisation de modules de fusion locaux et simples surpassent les architectures complexes comme les Transformers ou les SSM, révélant un principe d'inversion de la complexité de fusion.

Mridankan Mandal2026-03-10🤖 cs.LG

Transferable Optimization Network for Cross-Domain Image Reconstruction

Les auteurs proposent un cadre novateur d'apprentissage par transfert basé sur une optimisation bi-niveau, combinant un extracteur de caractéristiques universel et un adaptateur spécifique à la tâche, pour réaliser une reconstruction d'images de haute qualité, notamment en IRM sous-échantillonnée, malgré un manque de données d'entraînement en exploitant des sources hétérogènes et multi-domaines.

Yunmei Chen, Chi Ding, Xiaojing Ye2026-03-10🤖 cs.LG

GazeShift: Unsupervised Gaze Estimation and Dataset for VR

Ce papier présente GazeShift, un cadre d'estimation du regard non supervisé et le jeu de données VRGaze à grande échelle conçu spécifiquement pour la réalité virtuelle, permettant un suivi précis et en temps réel sans nécessiter de données étiquetées massives.

Gil Shapira, Ishay Goldin, Evgeny Artyomov, Donghoon Kim, Yosi Keller, Niv Zehngut2026-03-10💻 cs

Training-free Temporal Object Tracking in Surgical Videos

Cet article présente une méthode novatrice et sans entraînement pour le suivi temporel d'objets dans les vidéos chirurgicales, exploitant les capacités de localisation de modèles de diffusion pré-entraînés pour atteindre des performances supérieures sur le suivi d'instruments et de structures anatomiques lors de cholécystectomies.

Subhadeep Koley, Abdolrahim Kadkhodamohammadi, Santiago Barbarisi, Danail Stoyanov, Imanol Luengo2026-03-10💻 cs

SoundWeaver: Semantic Warm-Starting for Text-to-Audio Diffusion Serving

SoundWeaver est un système de service sans entraînement et agnostique au modèle qui accélère la génération d'audio par diffusion texte-son en amorçant le processus à partir d'audios mis en cache sémantiquement similaires, réduisant ainsi la latence de 1,8 à 3 fois tout en préservant la qualité perceptive.

Ayush Barik, Sofia Stoica, Nikhil Sarda, Arnav Kethana, Abhinav Khanduja, Muchen Xu, Fan Lai2026-03-10💻 cs

Toward Unified Multimodal Representation Learning for Autonomous Driving

Cet article propose un cadre de pré-entraînement par tenseur contrastif (CTP) qui aligne simultanément plusieurs modalités dans un espace d'incorporation unifié pour améliorer la compréhension des scènes et les performances des systèmes de conduite autonome, surpassant ainsi les méthodes traditionnelles d'alignement par paires.

Ximeng Tao, Dimitar Filev, Gaurav Pandey2026-03-10🤖 cs.LG

VLM-SubtleBench: How Far Are VLMs from Human-Level Subtle Comparative Reasoning?

Ce papier présente VLM-SubtleBench, un nouveau benchmark couvrant dix types de différences subtiles et divers domaines (industriel, médical, aérien) pour évaluer les lacunes des modèles vision-langage par rapport aux performances humaines dans le raisonnement comparatif fin.

Minkyu Kim, Sangheon Lee, Dongmin Park2026-03-10🤖 cs.LG

Structure and Progress Aware Diffusion for Medical Image Segmentation

Cet article propose SPAD, une méthode de segmentation d'images médicales basée sur la diffusion qui utilise un planificateur progressif pour moduler l'apprentissage des structures anatomiques globales et des contours fins de manière séquentielle, en commençant par les morphologies stables avant d'affiner progressivement les frontières ambiguës.

Siyuan Song, Guyue Hu, Chenglong Li, Dengdi Sun, Zhe Jin, Jin Tang2026-03-10💻 cs

Visualizing Coalition Formation: From Hedonic Games to Image Segmentation

Cet article propose l'utilisation de la segmentation d'images comme banc d'essai visuel pour étudier la formation de coalitions dans les jeux hédoniques, en reliant les paramètres de granularité aux structures d'équilibre et à leur capacité à identifier des objets foreground.

Pedro Henrique de Paula França, Lucas Lopes Felipe, Daniel Sadoc Menasché2026-03-10💻 cs

MINT: Molecularly Informed Training with Spatial Transcriptomics Supervision for Pathology Foundation Models

Le papier présente MINT, un cadre d'entraînement qui enrichit les modèles de base en pathologie par une supervision issue de la transcriptomique spatiale, améliorant ainsi la prédiction de l'expression génique et les tâches générales de pathologie sans oublier les représentations morphologiques apprises précédemment.

Minsoo Lee, Jonghyun Kim, Juseung Yun, Sunwoo Yu, Jongseong Jang2026-03-10💻 cs

Revisiting Unknowns: Towards Effective and Efficient Open-Set Active Learning

Ce papier présente E²OAL, un cadre unifié et sans détecteur pour l'apprentissage actif en contexte ouvert qui exploite efficacement les inconnues étiquetées via un clustering guidé par les étiquettes et une calibration Dirichlet pour surpasser les méthodes existantes en précision, efficacité et robustesse.

Chen-Chen Zong, Yu-Qi Chi, Xie-Yang Wang, Yan Cui, Sheng-Jun Huang2026-03-10🤖 cs.LG

Beyond Heuristic Prompting: A Concept-Guided Bayesian Framework for Zero-Shot Image Recognition

Cet article propose un cadre bayésien guidé par les concepts pour la reconnaissance d'images en zéro-shot, qui améliore les modèles vision-langage en synthétisant des concepts discriminatifs via des LLM et en atténuant l'impact des concepts aberrants grâce à une vraisemblance adaptative, surpassant ainsi les méthodes heuristiques existantes.

Hui Liu, Kecheng Chen, Jialiang Wang, Xianming Liu, Wenya Wang, Haoliang Li2026-03-10💻 cs

Geometric Transformation-Embedded Mamba for Learned Video Compression

Cet article présente un cadre de compression vidéo appris fondé sur une transformation directe et intégrant un module Mamba en cascade avec des transformations géométriques, ainsi qu'un réseau de raffinement local, pour surpasser les méthodes de l'état de l'art en termes de qualité perceptive et de cohérence temporelle à faible débit.

Hao Wei, Yanhui Zhou, Chenyang Ge2026-03-10💻 cs

Enhancing Unregistered Hyperspectral Image Super-Resolution via Unmixing-based Abundance Fusion Learning

Cet article propose un cadre de fusion basé sur le démixage spectral pour améliorer la super-résolution d'images hyperspectrales non enregistrées, en découplant l'information spatiale et spectrale via une décomposition en valeurs singulières et un module d'agrégation déformable pour atteindre des performances state-of-the-art.

Yingkai Zhang, Tao Zhang, Jing Nie, Ying Fu2026-03-10💻 cs

RLPR: Radar-to-LiDAR Place Recognition via Two-Stage Asymmetric Cross-Modal Alignment for Autonomous Driving

Ce papier présente RLPR, un cadre robuste de reconnaissance de lieux radar-vers-LiDAR qui utilise un alignement croisé asymétrique en deux étapes pour surmonter les défis de l'hétérogénéité des signaux et du manque de données appariées, permettant ainsi une localisation fiable par tous les temps.

Zhangshuo Qi, Jingyi Xu, Luqi Cheng, Shichen Wen, Guangming Xiong2026-03-10💻 cs

IMSE: Intrinsic Mixture of Spectral Experts Fine-tuning for Test-Time Adaptation

Ce papier présente IMSE, une méthode d'adaptation au moment du test qui affine les grands modèles pré-entraînés en ajustant uniquement les valeurs singulières des experts spectraux intrinsèques aux Vision Transformers, tout en introduisant une perte de maximisation de la diversité pour éviter l'effondrement des caractéristiques et un mécanisme de récupération de codes spectraux pour une adaptation continue efficace.

Sunghyun Baek (Korea Advanced Institute of Science and Technology), Jaemyung Yu (Korea Advanced Institute of Science and Technology), Seunghee Koh (Korea Advanced Institute of Science and Technology), Minsu Kim (LG Energy Solution), Hyeonseong Jeon (LG Energy Solution), Junmo Kim (Korea Advanced Institute of Science and Technology)2026-03-10💻 cs

A Hybrid Vision Transformer Approach for Mathematical Expression Recognition

Cet article propose une approche hybride combinant un Vision Transformer avec encodage de position 2D et un décodeur à attention de couverture pour la reconnaissance d'expressions mathématiques, démontrant des performances supérieures aux méthodes actuelles sur le jeu de données IM2LATEX-100K avec un score BLEU de 89,94.

Anh Duy Le, Van Linh Pham, Vinh Loi Ly, Nam Quan Nguyen, Huu Thang Nguyen, Tuan Anh Tran2026-03-10💻 cs

Text to Automata Diagrams: Comparing TikZ Code Generation with Direct Image Synthesis

Cette étude évalue la capacité des modèles de langage et de vision à convertir des diagrammes d'automates dessinés par des étudiants en code TikZ, démontrant que la correction humaine des descriptions textuelles intermédiaires est essentielle pour obtenir des rendus graphiques précis et ainsi faciliter l'évaluation automatisée en éducation informatique.

Ethan Young, Zichun Wang, Aiden Taylor, Chance Jewell, Julian Myers, Satya Sri Rajiteswari Nimmagadda, Anthony White, Aniruddha Maiti, Ananya Jana2026-03-10💻 cs

$L^3$ :Scene-agnostic Visual Localization in the Wild

Le papier présente $L^3$ , un cadre de localisation visuelle sans carte qui utilise la reconstruction 3D en ligne et une récupération d'échelle métrique pour atteindre une précision comparable aux méthodes de l'état de l'art sans nécessiter de prétraitement ou de stockage de représentations de scène hors ligne.

Yu Zhang, Muhua Zhu, Yifei Xue, Tie Ji, Yizhen Lao2026-03-10💻 cs

VisualAD: Language-Free Zero-Shot Anomaly Detection via Vision Transformer

L'article présente VisualAD, une méthode de détection d'anomalies en zéro-shot sans langage qui utilise exclusivement des Transformers de vision avec des tokens apprenables et des modules d'attention spatiale pour atteindre des performances de pointe sur divers benchmarks industriels et médicaux.

Yanning Hou, Peiyuan Li, Zirui Liu, Yitong Wang, Yanran Ruan, Jianfeng Qiu, Ke Xu2026-03-10💻 cs

← Précédent Suivant →

cs.CV