Spectrum Shortage for Radio Sensing? Leveraging Ambient 5G Signals for Human Activity Detection

Die vorgestellte Arbeit stellt „Ambient Radio Sensing" (ARS) vor, ein neuartiges ISAC-Konzept, das bestehende 5G-Signale passiv zur berührungslosen und datenschutzfreundlichen menschlichen Aktivitätserkennung nutzt und dabei durch eine innovative Hardware-Architektur sowie ein multimodales Lernframework die Herausforderung des spektralen Mangels löst.

Kunzhe Song, Maxime Zingraff, Huacheng Zeng2026-03-05💻 cs

Detection and Identification of Penguins Using Appearance and Motion Features

Diese Studie stellt einen Framework vor, der durch die Integration von Bewegungs- und Erscheinungsmerkmalen mittels eines an YOLO11 angepassten Zwei-Rahmen-Ansatzes für die Detektion und einer tracklet-basierten kontrastiven Lernmethode für die Identifizierung die Überwachung von Pinguinen in Tierhaltungsanlagen trotz homogener Merkmale und Umgebungsrauschen verbessert.

Kasumi Seko, Hiroki Kinoshita, Raj Rajeshwar Malinda + 1 more2026-03-05💻 cs

Parallax to Align Them All: An OmniParallax Attention Mechanism for Distributed Multi-View Image Compression

Die Arbeit stellt ParaHydra vor, einen neuartigen verteilten Multi-View-Image-Compression-Ansatz, der mittels eines OmniParallax-Aufmerksamkeitsmechanismus (OPAM) und einer adaptiven Informationsfusion (PMIFM) nicht nur den Rechenaufwand drastisch senkt, sondern erstmals auch die Kodierungseffizienz bestehender Multi-View-Methoden übertrifft.

Haotian Zhang, Feiyue Long, Yixin Yu + 7 more2026-03-05💻 cs

LeafInst - Unified Instance Segmentation Network for Fine-Grained Forestry Leaf Phenotype Analysis: A New UAV based Benchmark

Die Studie stellt den ersten UAV-basierten Datensatz für die instanzbasierte Segmentierung von Laub in offenen Waldbeständen vor und entwickelt mit LeafInst ein neues neuronales Netzwerk, das durch innovative Komponenten wie AFPN und DASP die Herausforderungen der Feinanalyse von Baumblättern unter natürlichen Bedingungen erfolgreich bewältigt und dabei den aktuellen Stand der Technik übertrifft.

Taige Luo, Junru Xie, Chenyang Fan + 5 more2026-03-05💻 cs

RAGTrack: Language-aware RGBT Tracking with Retrieval-Augmented Generation

Das Paper stellt RAGTrack vor, ein neuartiges Framework für die robuste RGBT-Objektverfolgung, das durch die Einführung textueller Beschreibungen mittels Multi-modal Large Language Models und die Integration von Retrieval-Augmented Generation sowie adaptiver Token-Fusion die Anpassungsfähigkeit an visuelle Veränderungen und die Unterdrückung von Hintergrundstörungen verbessert.

Hao Li, Yuhao Wang, Wenning Hao + 3 more2026-03-05💻 cs

Image-based Prompt Injection: Hijacking Multimodal LLMs through Visually Embedded Adversarial Instructions

Diese Arbeit untersucht Image-based Prompt Injection (IPI), eine Black-Box-Angriffsmethode, bei der durch visuelle Anpassungen getarnte adversarische Anweisungen in Bilder eingebettet werden, um Multimodal Large Language Models (MLLMs) erfolgreich zu manipulieren und dabei bis zu 64 % Erfolgsrate unter Stealth-Bedingungen zu erreichen.

Neha Nagaraja, Lan Zhang, Zhilong Wang + 2 more2026-03-05🤖 cs.AI

InfinityStory: Unlimited Video Generation with World Consistency and Character-Aware Shot Transitions

Das Paper stellt InfinityStory vor, ein neuartiges Framework, Dataset und Modell, das durch konsistente Hintergründe, nahtlose Übergänge zwischen mehreren Subjekten und Skalierbarkeit auf stundenlange Erzählungen die Herausforderungen der langformatigen Videoerstellung löst und dabei auf VBench neue Bestwerte in Bezug auf Konsistenz und Kohärenz erzielt.

Mohamed Elmoghany, Liangbing Zhao, Xiaoqian Shen + 27 more2026-03-05💻 cs