How To Embed Matters: Evaluation of EO Embedding Design Choices

Cet article présente une analyse systématique des choix de conception des embeddings dans les flux de travail d'observation de la Terre basés sur des modèles de fondation géospatiaux, démontrant que des représentations compactes peuvent être efficacement générées et optimisées en ajustant l'architecture, la profondeur et les stratégies d'agrégation pour améliorer les performances des tâches en aval.

Luis Gilch, Isabelle Wittmann, Maximilian Nitsche, Johannes Jakubik, Arne Ewald, Thomas Brunschwiler2026-03-12💻 cs

A2^2-Edit: Precise Reference-Guided Image Editing of Arbitrary Objects and Ambiguous Masks

Ce papier présente A²-Edit, un cadre d'édition d'images unifié qui, grâce à un nouveau jeu de données diversifié (UniEdit-500K), un module Mixture of Transformer et une stratégie d'entraînement par recuit de masque, permet de remplacer n'importe quel objet ciblé par une référence en utilisant uniquement un masque grossier, surpassant ainsi les méthodes existantes.

Huayu Zheng, Guangzhao Li, Baixuan Zhao, Siqi Luo, Hantao Jiang, Guangtao Zhai, Xiaohong Liu2026-03-12💻 cs

MapGCLR: Geospatial Contrastive Learning of Representations for Online Vectorized HD Map Construction

L'article MapGCLR propose une approche semi-supervisée pour la construction de cartes HD vectorisées en ligne, qui améliore les performances de perception en utilisant un apprentissage contrastif géospatial sur des données non étiquetées pour enrichir les représentations de caractéristiques en vue aérienne.

Jonas Merkert, Alexander Blumberg, Jan-Hendrik Pauls, Christoph Stiller2026-03-12💻 cs

UniCom: Unified Multimodal Modeling via Compressed Continuous Semantic Representations

Le papier présente UniCom, un cadre unifié qui harmonise la compréhension et la génération multimodales en utilisant des représentations sémantiques continues compressées via un compresseur attentionnel et une architecture de transfusion, surpassant ainsi les modèles existants en performance de génération et en contrôle pour l'édition d'images.

Yaqi Zhao, Wang Lin, Zijian Zhang, Miles Yang, Jingyuan Chen, Wentao Zhang, Zhao Zhong, Liefeng Bo2026-03-12💻 cs

eLasmobranc Dataset: An Image Dataset for Elasmobranch Species Recognition and Biodiversity Monitoring

Cet article présente le jeu de données eLasmobranc, une collection publique d'images validées par des experts de sept espèces d'élasmobranches de la Méditerranée espagnole, acquises hors de l'eau pour faciliter la reconnaissance fine des espèces et le suivi de la biodiversité grâce à l'intelligence artificielle.

Ismael Beviá-Ballesteros, Mario Jerez-Tallón, Nieves Aranda-Garrido, Isabel Abel-Abellán, Irene Antón-Linares, Jorge Azorín-López, Marcelo Saval-Calvo, Andres Fuster-Guilló, Francisca Giménez-Casalduero2026-03-12💻 cs

Event-based Photometric Stereo via Rotating Illumination and Per-Pixel Learning

Cette étude propose un système de stéréophotométrie basé sur des événements utilisant une source lumineuse rotative et un réseau neuronal léger par pixel pour estimer les normales de surface sans calibration, surpassant les méthodes existantes en précision et en robustesse face à l'éclairage ambiant et aux spécularités.

Hyunwoo Kim, Won-Hoe Kim, Sanghoon Lee, Jianfei Cai, Giljoo Nam, Jae-Sang Hyun2026-03-12💻 cs

CodePercept: Code-Grounded Visual STEM Perception for MLLMs

Le papier présente CodePercept, une approche qui améliore la perception visuelle des modèles de langage multimodaux dans les domaines STEM en utilisant l'exécution de code comme médium perceptuel, soutenue par un nouveau jeu de données ICC-1M et un benchmark d'évaluation STEM2Code-Eval.

Tongkun Guan, Zhibo Yang, Jianqiang Wan, Mingkun Yang, Zhengtao Guo, Zijian Hu, Ruilin Luo, Ruize Chen, Songtao Jiang, Peng Wang, Wei Shen, Junyang Lin, Xiaokang Yang2026-03-12💻 cs

Phase-Interface Instance Segmentation as a Visual Sensor for Laboratory Process Monitoring

Cet article présente LGA-RCM-YOLO, un modèle d'instance de segmentation des interfaces de phase basé sur YOLO11m et entraîné sur le jeu de données CTG 2.0, qui permet une surveillance visuelle fiable et en temps réel des processus chimiques en laboratoire, notamment dans des verreries transparentes.

Mingyue Li, Xin Yang, Shilin Yan, Jinye Ran, Morui Zhu, Zirui Peng, Huanqing Peng, Wei Peng, Guanghua Zhang, Shuo Li, Hao Zhang2026-03-12💻 cs