How To Embed Matters: Evaluation of EO Embedding Design Choices

Dit artikel presenteert een systematische analyse van ontwerpkeuzes voor embeddings in aardobservatie-workflows op basis van GeoFMs, waarbij wordt aangetoond dat compacte, herbruikbare representaties mogelijk zijn en dat transformer-architecturen met gemiddelde pooling, tussenliggende ResNet-lagen en het combineren van zelftoezicht-objectieven de prestaties consistent verbeteren.

Luis Gilch, Isabelle Wittmann, Maximilian Nitsche, Johannes Jakubik, Arne Ewald, Thomas Brunschwiler2026-03-12💻 cs

A2^2-Edit: Precise Reference-Guided Image Editing of Arbitrary Objects and Ambiguous Masks

A2^2-Edit is een nieuw inpainting-framework dat, ondersteund door het UniEdit-500K-dataset en innovatieve technieken zoals de Mixture of Transformer-module en Mask Annealing Training Strategy, het mogelijk maakt om willekeurige objecten in afbeeldingen nauwkeurig te vervangen met een referentieobject, zelfs bij gebruik van ruwe maskers.

Huayu Zheng, Guangzhao Li, Baixuan Zhao, Siqi Luo, Hantao Jiang, Guangtao Zhai, Xiaohong Liu2026-03-12💻 cs

UniCom: Unified Multimodal Modeling via Compressed Continuous Semantic Representations

UniCom is een unificerend multimodaal framework dat de prestaties van beeldgeneratie en -begrip verbetert door gedetailleerde semantische informatie te behouden via gecomprimeerde continue representaties in plaats van discrete tokenizers, wat leidt tot state-of-the-art resultaten en superieure controleerbaarheid.

Yaqi Zhao, Wang Lin, Zijian Zhang, Miles Yang, Jingyuan Chen, Wentao Zhang, Zhao Zhong, Liefeng Bo2026-03-12💻 cs

eLasmobranc Dataset: An Image Dataset for Elasmobranch Species Recognition and Biodiversity Monitoring

Dit paper introduceert de eLasmobranc-dataset, een publiek beschikbare verzameling van expert-gevalideerde afbeeldingen van zeven haai- en roggensoorten uit de oostelijke Middellandse Zee, die is ontworpen om nauwkeurige soortherkenning en biodiversiteitsmonitoring te ondersteunen via kunstmatige intelligentie.

Ismael Beviá-Ballesteros, Mario Jerez-Tallón, Nieves Aranda-Garrido, Isabel Abel-Abellán, Irene Antón-Linares, Jorge Azorín-López, Marcelo Saval-Calvo, Andres Fuster-Guilló, Francisca Giménez-Casalduero2026-03-12💻 cs

Event-based Photometric Stereo via Rotating Illumination and Per-Pixel Learning

Deze paper introduceert een kalibratievrije, gebeurtenisgebaseerde fotometrische stereosysteem dat gebruikmaakt van een roterende lichtbron en een lichtgewicht per-pixel neurale netwerken om oppervlaktenormalen nauwkeuriger en robuuster te schatten dan bestaande methoden, zelfs onder uitdagende omstandigheden zoals sterke omgevingsverlichting en speculaire reflecties.

Hyunwoo Kim, Won-Hoe Kim, Sanghoon Lee, Jianfei Cai, Giljoo Nam, Jae-Sang Hyun2026-03-12💻 cs

CodePercept: Code-Grounded Visual STEM Perception for MLLMs

Dit paper introduceert CodePercept, een aanpak die de visuele STEM-perceptie van multimodale taalmodellen verbetert door uitvoerbare code als grondslag te gebruiken voor het genereren van beschrijvingen en het reconstrueren van afbeeldingen, gebaseerd op de bevinding dat het schalen van perceptie effectiever is dan het schalen van redenering.

Tongkun Guan, Zhibo Yang, Jianqiang Wan, Mingkun Yang, Zhengtao Guo, Zijian Hu, Ruilin Luo, Ruize Chen, Songtao Jiang, Peng Wang, Wei Shen, Junyang Lin, Xiaokang Yang2026-03-12💻 cs