ARSGaussian: 3D Gaussian Splatting with LiDAR for Aerial Remote Sensing Novel View Synthesis

Die Studie stellt ARSGaussian vor, eine Methode zur Synthese neuer Ansichten in der Luftbild-Fernerkundung, die LiDAR-Punktwolken und eine verzerrungskompensierende Koordinatentransformation nutzt, um geometrische Fehler wie schwebende Objekte zu reduzieren und eine präzise 3D-Rekonstruktion zu ermöglichen, wobei zudem der neue AIR-LONGYAN-Datensatz veröffentlicht wird.

Yiling Yao, Bing Zhang, Wenjuan Zhang, Lianru Gao, Dailiang Peng, Bocheng Li, Yaning Wang, Bowen Wang2026-03-11💻 cs

Unveiling the Potential of iMarkers: Invisible Fiducial Markers for Advanced Robotics

Die Arbeit stellt iMarkers vor, eine innovative Klasse unsichtbarer fiduzieller Marker, die speziell für Roboter und AR-Geräte entwickelt wurden, um die visuelle Ästhetik von Umgebungen zu bewahren, während sie gleichzeitig eine flexible, robuste und für Menschen nicht wahrnehmbare Orientierung und Objekterkennung ermöglichen.

Ali Tourani, Deniz Isinsu Avsar, Hriday Bavle, Jose Luis Sanchez-Lopez, Jan Lagerwall, Holger Voos2026-03-11💻 cs

A Survey on Wi-Fi Sensing Generalizability: Taxonomy, Techniques, Datasets, and Future Research Prospects

Diese umfassende Umfrage analysiert über 200 Forschungsarbeiten zur Verbesserung der Generalisierbarkeit von Wi-Fi-Sensing-Systemen, indem sie Techniken, Datensätze und zukünftige Forschungsrichtungen strukturiert zusammenfasst und eine neue Plattform für den Datenaustausch einführt.

Fei Wang, Tingting Zhang, Wei Xi, Han Ding, Ge Wang, Di Zhang, Yuanhao Cui, Fan Liu, Jinsong Han, Jie Xu, Tony Xiao Han2026-03-11💻 cs

Recognition-Synergistic Scene Text Editing

Die Arbeit stellt RS-STE vor, einen neuartigen Ansatz für die Bearbeitung von Szenentext, der Texterkennung und -manipulation in einem einheitlichen Framework vereint, um durch eine parallele Transformer-Decodierung und eine zyklische selbstüberwachte Feinabstimmung komplexe Pipelines zu überwinden und gleichzeitig State-of-the-Art-Ergebnisse auf synthetischen und realen Datensätzen zu erzielen.

Zhengyao Fang, Pengyuan Lyu, Jingjing Wu, Chengquan Zhang, Jun Yu, Guangming Lu, Wenjie Pei2026-03-11💻 cs

Semi-Supervised Biomedical Image Segmentation via Diffusion Models and Teacher-Student Co-Training

Diese Arbeit stellt ein neuartiges halbüberwachtes Lehrer-Schüler-Framework für die biomedizinische Bildsegmentation vor, das Diffusionsmodelle nutzt, um durch iterative Pseudo-Label-Generierung und Co-Training auch bei begrenzten annotierten Daten eine überlegene Leistung im Vergleich zu bestehenden Methoden zu erzielen.

Luca Ciampi, Gabriele Lagani, Giuseppe Amato, Fabrizio Falchi2026-03-11💻 cs

Embodied AI with Foundation Models for Mobile Service Robots: A Systematic Review

Diese systematische Übersicht untersucht die Integration von Foundation-Modellen in mobile Serviceroboter, indem sie technische Fortschritte bei der Aufgabenausführung und multimodalen Wahrnehmung analysiert, reale Anwendungsbereiche beleuchtet und ethische sowie zukünftige Forschungsfragen im Kontext sicherer und vertrauenswürdiger Mensch-Roboter-Interaktionen diskutiert.

Matthew Lisondra, Beno Benhabib, Goldie Nejat2026-03-11💬 cs.CL

SpikeSMOKE: Spiking Neural Networks for Monocular 3D Object Detection with Cross-Scale Gated Coding

Die Arbeit stellt SpikeSMOKE vor, einen energieeffizienten Ansatz für die monokulare 3D-Objektdetektion mittels Spiking Neural Networks, der durch einen neuartigen Cross-Scale Gating Coding-Mechanismus und leichte Restblöcke die Informationsverluste überwindet und gleichzeitig die Rechenkosten im Vergleich zu herkömmlichen Methoden drastisch senkt.

Xuemei Chen, Huamin Wang, Jing Peng, Hangchi Shen, Shukai Duan, Shiping Wen, Tingwen Huang2026-03-11💻 cs

Improving Large Vision-Language Models' Understanding for Flow Field Data

Die Arbeit stellt FieldLVLM vor, ein neuartiges Framework, das durch eine feldbewusste Sprachgenerierungsstrategie und eine datenkomprimierte Multimodal-Modellanpassung die Fähigkeit von Large Vision-Language Models verbessert, komplexe Strömungsfelddaten zu verstehen und wissenschaftliche Entdeckungen zu unterstützen.

Xiaomei Zhang, Hanyu Zheng, Xiangyu Zhu, Jinghuan Wei, Junhong Zou, Zhen Lei, Zhaoxiang Zhang2026-03-11💻 cs

MGCR-Net:Multimodal Graph-Conditioned Vision-Language Reconstruction Network for Remote Sensing Change Detection

Die Arbeit stellt MGCR-Net vor, ein neuartiges multimodales Graph-basiertes Vision-Language-Rekonstruktionsnetzwerk, das durch die Generierung textueller Daten mittels Multimodal Large Language Models und die Einführung einer graphenbasierten semantischen Rekonstruktion die Leistung der Fernerkundungs-Veränderungserkennung signifikant verbessert.

Chengming Wang, Guodong Fan, Jinjiang Li + 2 more2026-03-11⚡ eess

Personalized Feature Translation for Expression Recognition: An Efficient Source-Free Domain Adaptation Method

Die Arbeit stellt SFDA-PFT vor, eine effiziente, quellenfreie Domänenanpassungsmethode, die durch personalisierte Feature-Translation im latenten Raum die Gesichtsausdruckserkennung in Privatsphären-sensitiven Szenarien verbessert, indem sie sich ausschließlich auf ungelabelte neutrale Zieldaten verlässt und dabei auf die Verfügbarkeit von Quelldaten oder die Synthese von Bildern verzichtet.

Masoumeh Sharafi, Soufiane Belharbi, Muhammad Osama Zeeshan, Houssem Ben Salem, Ali Etemad, Alessandro Lameiras Koerich, Marco Pedersoli, Simon Bacon, Eric Granger2026-03-11🤖 cs.AI

EgoCross: Benchmarking Multimodal Large Language Models for Cross-Domain Egocentric Video Question Answering

Das Paper stellt EgoCross vor, ein umfassendes Benchmark-Tool, das die Generalisierungsfähigkeit multimodaler großer Sprachmodelle (MLLMs) bei der egozentrischen Video-Fragebeantwortung über vier herausfordernde Domänen hinaus des alltäglichen Lebens hinweg bewertet und dabei erhebliche Defizite der aktuellen Modelle aufzeigt.

Yanjun Li, Yuqian Fu, Tianwen Qian, Qi'ao Xu, Silong Dai, Danda Pani Paudel, Luc Van Gool, Xiaoling Wang2026-03-11🤖 cs.AI

CoRe-GS: Coarse-to-Refined Gaussian Splatting with Semantic Object Focus

Die Arbeit stellt CoRe-GS vor, ein grob-zu-fein Framework für semantisches Gaussian Splatting, das durch eine aufgabenspezifische, selektive Optimierung nur relevanter Punkte von Interesse die Trainingszeit drastisch verkürzt und gleichzeitig die Rekonstruktionsqualität für robotische Anwendungen verbessert.

Hannah Schieber, Dominik Frischmann, Victor Schaack, Simon Boche, Angela Schoellig, Stefan Leutenegger, Daniel Roth2026-03-11💻 cs

VocSegMRI: Multimodal Learning for Precise Vocal Tract Segmentation in Real-time MRI

Die Arbeit stellt VocSegMRI vor, ein multimodales Framework, das durch die Integration von Video-, Audio- und phonologischen Daten mittels Cross-Attention-Fusion und kontrastivem Lernen eine präzise Echtzeit-Segmentierung des Stimmtrakts in MRT-Bildern ermöglicht und dabei neue State-of-the-Art-Ergebnisse erzielt.

Daiqi Liu, Tomás Arias-Vergara, Johannes Enk, Fangxu Xing, Maureen Stone, Jerry L. Prince, Jana Hutter, Andreas Maier, Jonghye Woo, Paula Andrea Pérez-Toro2026-03-11💻 cs