Less is More: Decoder-Free Masked Modeling for Efficient Skeleton Representation Learning

Die Arbeit stellt SLiM vor, ein neuartiges, dekodiererfreies Framework für das Lernen von Skelettdarstellungen, das Masked Modeling und Contrastive Learning vereint, um durch semantische Rohrmaskierung und skelettspezifische Augmentierungen sowohl state-of-the-art Genauigkeit als auch eine um den Faktor 7,89 reduzierte Inferenzkosten im Vergleich zu herkömmlichen MAE-Methoden zu erreichen.

Jeonghyeok Do, Yun Chen, Geunhyuk Youk, Munchurl Kim2026-03-12💻 cs

How To Embed Matters: Evaluation of EO Embedding Design Choices

Diese Studie analysiert systematisch die Auswirkungen verschiedener Designentscheidungen auf die Leistung von Erdbeobachtungs-Embeddings in GeoFM-basierten Workflows und zeigt, dass Transformer-Architekturen mit Mean Pooling sowie die Kombination mehrerer Selbstüberwachungs-Ziele robuste und extrem kompakte Repräsentationen für skalierbare Anwendungen liefern.

Luis Gilch, Isabelle Wittmann, Maximilian Nitsche, Johannes Jakubik, Arne Ewald, Thomas Brunschwiler2026-03-12💻 cs

An FPGA Implementation of Displacement Vector Search for Intra Pattern Copy in JPEG XS

Diese Arbeit stellt eine effiziente, pipelinierte FPGA-Architektur für die Verschiebungsvektorsuche im Intra-Pattern-Copy-Modul von JPEG XS vor, die durch optimierte Speicherorganisation eine hohe Durchsatzrate von 38,3 Megapixeln pro Sekunde bei geringem Energieverbrauch erreicht und somit die praktische Hardware-Implementierung ermöglicht.

Qiyue Chen, Yao Li, Jie Tao, Song Chen, Li Li, Dong Liu2026-03-12⚡ eess

A2^2-Edit: Precise Reference-Guided Image Editing of Arbitrary Objects and Ambiguous Masks

Das Paper stellt A2^2-Edit vor, ein einheitliches Inpainting-Framework, das mithilfe des neuartigen UniEdit-500K-Datensatzes, eines Mixture-of-Transformer-Moduls und einer Mask-Annealing-Trainingsstrategie präzises, referenzgesteuertes Bearbeiten beliebiger Objekte mit nur groben Masken ermöglicht und dabei den aktuellen Stand der Technik übertrifft.

Huayu Zheng, Guangzhao Li, Baixuan Zhao, Siqi Luo, Hantao Jiang, Guangtao Zhai, Xiaohong Liu2026-03-12💻 cs

UniCom: Unified Multimodal Modeling via Compressed Continuous Semantic Representations

Das Paper stellt UniCom vor, ein einheitliches Multimodal-Modell, das durch komprimierte kontinuierliche semantische Repräsentationen und eine Transfusionsarchitektur die Lücke zwischen visuellem Verständnis und Generierung schließt und dabei state-of-the-art Ergebnisse in Bildgenerierung und -bearbeitung erzielt.

Yaqi Zhao, Wang Lin, Zijian Zhang, Miles Yang, Jingyuan Chen, Wentao Zhang, Zhao Zhong, Liefeng Bo2026-03-12💻 cs

WalkGPT: Grounded Vision-Language Conversation with Depth-Aware Segmentation for Pedestrian Navigation

Das Paper stellt WalkGPT vor, ein pixelbasiertes Vision-Language-Modell mit Tiefenwahrnehmung und Segmentierungsfähigkeiten, das zusammen mit dem neuen Benchmark PAVE zuverlässige, zugängliche Navigationshinweise für Fußgänger in komplexen städtischen Umgebungen generiert.

Rafi Ibn Sultan, Hui Zhu, Xiangyu Zhou, Chengyin Li, Prashant Khanduri, Marco Brocanelli, Dongxiao Zhu2026-03-12💻 cs

UAV traffic scene understanding: A cross-spectral guided approach and a unified benchmark

Die Arbeit stellt CTCNet vor, ein neuartiges, cross-spektrales Netzwerk mit Wissens-Einbettung und spektraler Kompensation für eine robuste UAV-Verkehrsszenenanalyse unter schwierigen Lichtverhältnissen, und stellt gleichzeitig Traffic-VQA, den ersten großskaligen optisch-thermischen Benchmark für kognitive Verkehrsverständnis-Aufgaben, vor.

Yu Zhang, Zhicheng Zhao, Ze Luo, Chenglong Li, Jin Tang2026-03-12🤖 cs.AI

eLasmobranc Dataset: An Image Dataset for Elasmobranch Species Recognition and Biodiversity Monitoring

Die Studie stellt den eLasmobranc-Datensatz vor, eine öffentlich zugängliche, kuratierte Bildsammlung von sieben Elasmobranchier-Arten aus dem östlichen Mittelmeer, die unter standardisierten Bedingungen außerhalb des Wassers aufgenommen wurde, um die artgenaue Klassifizierung und das Biodiversitätsmonitoring durch künstliche Intelligenz zu unterstützen.

Ismael Beviá-Ballesteros, Mario Jerez-Tallón, Nieves Aranda-Garrido, Isabel Abel-Abellán, Irene Antón-Linares, Jorge Azorín-López, Marcelo Saval-Calvo, Andres Fuster-Guilló, Francisca Giménez-Casalduero2026-03-12💻 cs

Event-based Photometric Stereo via Rotating Illumination and Per-Pixel Learning

Die Autoren stellen ein neuartiges, kalibrierungsfreies photometrisches Stereo-System vor, das eine rotierende Lichtquelle mit einem Ereigniskamera-basierten, pixelweisen neuronalen Netzwerk kombiniert, um präzise Oberflächennormalen auch unter schwierigen Bedingungen wie starkem Umgebungslicht und spiegelnden Reflexionen zu schätzen.

Hyunwoo Kim, Won-Hoe Kim, Sanghoon Lee, Jianfei Cai, Giljoo Nam, Jae-Sang Hyun2026-03-12💻 cs

CodePercept: Code-Grounded Visual STEM Perception for MLLMs

Die Arbeit „CodePercept" identifiziert die Wahrnehmungsfähigkeit als den entscheidenden Engpass für MLLMs im visuellen STEM-Reasoning und schlägt einen Paradigmenwechsel vor, bei dem ausführbarer Code als präzises Wahrnehmungsmedium dient, was durch die Einführung des 1-Millionen-Einträge-Datensatzes ICC-1M und des Evaluierungsbenchmarks STEM2Code-Eval untermauert wird.

Tongkun Guan, Zhibo Yang, Jianqiang Wan, Mingkun Yang, Zhengtao Guo, Zijian Hu, Ruilin Luo, Ruize Chen, Songtao Jiang, Peng Wang, Wei Shen, Junyang Lin, Xiaokang Yang2026-03-12💻 cs

Phase-Interface Instance Segmentation as a Visual Sensor for Laboratory Process Monitoring

Die vorgestellte Arbeit stellt mit LGA-RCM-YOLO ein auf YOLO11m-basiertes Modell vor, das zusammen mit dem neuen CTG 2.0-Datensatz die instanzbasierte Segmentierung von Phasengrenzen in transparentem Labor-Glaswerk ermöglicht und so eine zuverlässige visuelle Überwachung chemischer Prozesse für die Laborautomatisierung realisiert.

Mingyue Li, Xin Yang, Shilin Yan, Jinye Ran, Morui Zhu, Zirui Peng, Huanqing Peng, Wei Peng, Guanghua Zhang, Shuo Li, Hao Zhang2026-03-12💻 cs