PET-F2I: A Comprehensive Benchmark and Parameter-Efficient Fine-Tuning of LLMs for PET/CT Report Impression Generation

Die Studie stellt mit PET-F2I-41K einen umfassenden Benchmark für die Generierung von PET/CT-Befunden vor und zeigt, dass ein mittels LoRA feinabgestimmtes, parameter-effizientes 7B-Modell (PET-F2I-7B) in Bezug auf diagnostische Vollständigkeit und faktenbasierte Zuverlässigkeit deutlich besser abschneidet als bestehende Zero-Shot-Modelle.

Yuchen Liu, Wenbo Zhang, Liling Peng, Yichi Zhang, Yu Fu, Xin Guo, Chao Qu, Yuan Qi, Le Xue2026-03-12💻 cs

Need for Speed: Zero-Shot Depth Completion with Single-Step Diffusion

Die Arbeit stellt Marigold-SSD vor, ein effizientes Ein-Schritt-Diffusions-Framework zur Zero-Shot-Tiefenvervollständigung, das durch Verlagerung der Rechenlast auf das Fine-Tuning die Inferenzgeschwindigkeit drastisch erhöht und dabei eine starke Generalisierungsfähigkeit über verschiedene Domänen hinweg erreicht.

Jakub Gregorek, Paraskevas Pegios, Nando Metzger, Konrad Schindler, Theodora Kontogianni, Lazaros Nalpantidis2026-03-12💻 cs

Layer Consistency Matters: Elegant Latent Transition Discrepancy for Generalizable Synthetic Image Detection

Die Arbeit stellt eine neue Methode namens Latent Transition Discrepancy (LTD) vor, die durch die Analyse der Konsistenzunterschiede in den latenten Darstellungen zwischen echten und synthetischen Bildern eine überlegene Generalisierbarkeit und Detektionsgenauigkeit bei der Erkennung von KI-generierten Bildern erreicht.

Yawen Yang, Feng Li, Shuqi Kong, Yunfeng Diao, Xinjian Gao, Zenglin Shi, Meng Wang2026-03-12💻 cs

Less is More: Decoder-Free Masked Modeling for Efficient Skeleton Representation Learning

Die Arbeit stellt SLiM vor, ein neuartiges, dekodiererfreies Framework für das Lernen von Skelettdarstellungen, das Masked Modeling und Contrastive Learning vereint, um durch semantische Rohrmaskierung und skelettspezifische Augmentierungen sowohl state-of-the-art Genauigkeit als auch eine um den Faktor 7,89 reduzierte Inferenzkosten im Vergleich zu herkömmlichen MAE-Methoden zu erreichen.

Jeonghyeok Do, Yun Chen, Geunhyuk Youk, Munchurl Kim2026-03-12💻 cs

How To Embed Matters: Evaluation of EO Embedding Design Choices

Diese Studie analysiert systematisch die Auswirkungen verschiedener Designentscheidungen auf die Leistung von Erdbeobachtungs-Embeddings in GeoFM-basierten Workflows und zeigt, dass Transformer-Architekturen mit Mean Pooling sowie die Kombination mehrerer Selbstüberwachungs-Ziele robuste und extrem kompakte Repräsentationen für skalierbare Anwendungen liefern.

Luis Gilch, Isabelle Wittmann, Maximilian Nitsche, Johannes Jakubik, Arne Ewald, Thomas Brunschwiler2026-03-12💻 cs

An FPGA Implementation of Displacement Vector Search for Intra Pattern Copy in JPEG XS

Diese Arbeit stellt eine effiziente, pipelinierte FPGA-Architektur für die Verschiebungsvektorsuche im Intra-Pattern-Copy-Modul von JPEG XS vor, die durch optimierte Speicherorganisation eine hohe Durchsatzrate von 38,3 Megapixeln pro Sekunde bei geringem Energieverbrauch erreicht und somit die praktische Hardware-Implementierung ermöglicht.

Qiyue Chen, Yao Li, Jie Tao, Song Chen, Li Li, Dong Liu2026-03-12⚡ eess

A2^2-Edit: Precise Reference-Guided Image Editing of Arbitrary Objects and Ambiguous Masks

Das Paper stellt A2^2-Edit vor, ein einheitliches Inpainting-Framework, das mithilfe des neuartigen UniEdit-500K-Datensatzes, eines Mixture-of-Transformer-Moduls und einer Mask-Annealing-Trainingsstrategie präzises, referenzgesteuertes Bearbeiten beliebiger Objekte mit nur groben Masken ermöglicht und dabei den aktuellen Stand der Technik übertrifft.

Huayu Zheng, Guangzhao Li, Baixuan Zhao, Siqi Luo, Hantao Jiang, Guangtao Zhai, Xiaohong Liu2026-03-12💻 cs

UniCom: Unified Multimodal Modeling via Compressed Continuous Semantic Representations

Das Paper stellt UniCom vor, ein einheitliches Multimodal-Modell, das durch komprimierte kontinuierliche semantische Repräsentationen und eine Transfusionsarchitektur die Lücke zwischen visuellem Verständnis und Generierung schließt und dabei state-of-the-art Ergebnisse in Bildgenerierung und -bearbeitung erzielt.

Yaqi Zhao, Wang Lin, Zijian Zhang, Miles Yang, Jingyuan Chen, Wentao Zhang, Zhao Zhong, Liefeng Bo2026-03-12💻 cs

WalkGPT: Grounded Vision-Language Conversation with Depth-Aware Segmentation for Pedestrian Navigation

Das Paper stellt WalkGPT vor, ein pixelbasiertes Vision-Language-Modell mit Tiefenwahrnehmung und Segmentierungsfähigkeiten, das zusammen mit dem neuen Benchmark PAVE zuverlässige, zugängliche Navigationshinweise für Fußgänger in komplexen städtischen Umgebungen generiert.

Rafi Ibn Sultan, Hui Zhu, Xiangyu Zhou, Chengyin Li, Prashant Khanduri, Marco Brocanelli, Dongxiao Zhu2026-03-12💻 cs

UAV traffic scene understanding: A cross-spectral guided approach and a unified benchmark

Die Arbeit stellt CTCNet vor, ein neuartiges, cross-spektrales Netzwerk mit Wissens-Einbettung und spektraler Kompensation für eine robuste UAV-Verkehrsszenenanalyse unter schwierigen Lichtverhältnissen, und stellt gleichzeitig Traffic-VQA, den ersten großskaligen optisch-thermischen Benchmark für kognitive Verkehrsverständnis-Aufgaben, vor.

Yu Zhang, Zhicheng Zhao, Ze Luo, Chenglong Li, Jin Tang2026-03-12🤖 cs.AI