Polarization Uncertainty-Guided Diffusion Model for Color Polarization Image Demosaicking

Die vorgestellte Arbeit führt einen Diffusionsmodell-Ansatz ein, der durch die explizite Modellierung und Nutzung von Polarisationsunsicherheiten die Rekonstruktion von Farb-Polarisationsbildern verbessert und so die Genauigkeit bei der Wiederherstellung von Polarisationsmerkmalen wie dem Polarisationsgrad und dem Polarisationswinkel signifikant steigert.

Chenggong Li, Yidong Luo, Junchao Zhang + 1 more2026-03-02⚡ eess

Open-Vocabulary Semantic Segmentation in Remote Sensing via Hierarchical Attention Masking and Model Composition

Die Arbeit stellt ReSeg-CLIP vor, eine trainingsfreie Methode für die offenwortschatzgestützte semantische Segmentierung von Fernerkundungsdaten, die durch hierarchische Maskierung mit SAM und eine gewichtete Modellkomposition von CLIP-Varianten den State-of-the-Art auf drei Benchmarks erreicht.

Mohammadreza Heidarianbaei, Mareike Dorozynski, Hubert Kanyamahanga + 2 more2026-03-02💻 cs

Bandwidth-adaptive Cloud-Assisted 360-Degree 3D Perception for Autonomous Vehicles

Dieser Beitrag stellt einen bandbreitenadaptiven, cloudbasierten Ansatz vor, der durch dynamische Aufteilung der Verarbeitung und Kompression von Merkmalsvektoren die Latenz bei der 360-Grad-3D-Umgebungserkennung für autonome Fahrzeuge im Vergleich zu rein onboard-Lösungen um 72 % reduziert und gleichzeitig die Genauigkeit unter schwankenden Netzwerkbedingungen um bis zu 20 % steigert.

Faisal Hawladera, Rui Meireles, Gamal Elghazaly + 2 more2026-03-02🤖 cs.LG

SelfOccFlow: Towards end-to-end self-supervised 3D Occupancy Flow prediction

Der Artikel stellt SelfOccFlow vor, eine selbstüberwachte Methode zur end-to-end Vorhersage von 3D-Besetzungsfluss, die ohne menschliche Annotationen oder externe Flussüberwachung auskommt, indem sie die Szene in statische und dynamische Signed-Distance-Fields zerlegt und Bewegung durch zeitliche Aggregation sowie einen auf Kosinusähnlichkeit basierenden Fluss-Indikator lernt.

Xavier Timoneda, Markus Herb, Fabian Duerr + 1 more2026-03-02💻 cs

Ref-Adv: Exploring MLLM Visual Reasoning in Referring Expression Tasks

Das Paper stellt Ref-Adv vor, einen neuen Benchmark für das Verständnis von Referenzäußerungen, der durch gezielte Herausforderungen wie harte Ablenkungen und nicht-triviale sprachliche Ausdrücke zeigt, dass aktuelle multimodale Large Language Models trotz guter Ergebnisse auf herkömmlichen Datensätzen oft auf Abkürzungen angewiesen sind und echte visuelle Schlussfolgerungen sowie Verankerungsfähigkeiten noch erheblich verbessern müssen.

Qihua Dong, Kuo Yang, Lin Ju + 6 more2026-03-02💬 cs.CL

Experience-Guided Self-Adaptive Cascaded Agents for Breast Cancer Screening and Diagnosis with Reduced Biopsy Referrals

Die Studie stellt BUSD-Agent vor, ein erfahrungsgesteuertes, selbstadaptives Kaskaden-Multi-Agenten-System für die Brustultraschall-Screening und -Diagnose, das durch den Einsatz eines zweistufigen Entscheidungsprozesses und eines speicherbasierten Kontext-Lernmechanismus unnötige Biopsieüberweisungen signifikant reduziert und gleichzeitig die Spezifität der Diagnose verbessert.

Pramit Saha, Mohammad Alsharid, Joshua Strong + 1 more2026-03-02🤖 cs.AI

ABPolicy: Asynchronous B-Spline Flow Policy for Real-Time and Smooth Robotic Manipulation

Die Arbeit stellt ABPolicy vor, einen asynchronen Flow-Matching-Algorithmus im B-Spline-Kontrollpunktraum, der durch bidirektionale Vorhersage und Nachoptimierung sowohl intra- als auch inter-chunkige Kontinuität gewährleistet und so für robotische Manipulationsaufgaben glattere, reaktionsschnellere und performantere Bewegungsabläufe ermöglicht.

Fan Yang, Peiguang Jing, Kaihua Qu + 2 more2026-03-02💻 cs

Enhancing Vision-Language Navigation with Multimodal Event Knowledge from Real-World Indoor Tour Videos

Diese Arbeit stellt eine neuartige, ereigniszentrierte Strategie für die Vision-Language-Navigation vor, die mithilfe des multimodalen Wissensgraphen YE-KG und des Modells STE-VLN die langfristige Reasoning-Fähigkeit von Agenten in unbekannten Umgebungen durch die Integration von episodischem Gedächtnis aus realen Indoor-Videos verbessert.

Haoxuan Xu, Tianfu Li, Wenbo Chen + 4 more2026-03-02💻 cs

CC-VQA: Conflict- and Correlation-Aware Method for Mitigating Knowledge Conflict in Knowledge-Based Visual Question Answering

Die Arbeit stellt CC-VQA vor, eine trainingsfreie Methode für wissensbasiertes visuelles Fragenbeantworten, die durch visozentrische Konfliktanalyse und korrelationsgesteuerte Kodierung sowie Dekodierung Konflikte zwischen parametrischem Modellwissen und dynamisch abgerufenen Informationen effektiv löst und damit den aktuellen Stand der Technik auf mehreren Benchmarks verbessert.

Yuyang Hong, Jiaqi Gu, Yujin Lou + 7 more2026-03-02💻 cs