cs.CV Arbeiten | Gist.Science

ARSGaussian: 3D Gaussian Splatting with LiDAR for Aerial Remote Sensing Novel View Synthesis

Die Studie stellt ARSGaussian vor, eine Methode zur Synthese neuer Ansichten in der Luftbild-Fernerkundung, die LiDAR-Punktwolken und eine verzerrungskompensierende Koordinatentransformation nutzt, um geometrische Fehler wie schwebende Objekte zu reduzieren und eine präzise 3D-Rekonstruktion zu ermöglichen, wobei zudem der neue AIR-LONGYAN-Datensatz veröffentlicht wird.

Yiling Yao, Bing Zhang, Wenjuan Zhang, Lianru Gao, Dailiang Peng, Bocheng Li, Yaning Wang, Bowen Wang2026-03-11💻 cs

CuriousBot: Interactive Mobile Exploration via Actionable 3D Relational Object Graph

Die Arbeit stellt CuriousBot vor, ein mobiles Explorationsystem, das durch einen 3D-relationalen Objektgraphen interaktives Erkunden komplexer Umgebungen ermöglicht und dabei VLM-basierte Ansätze in Bezug auf Generalisierung und Effektivität übertrifft.

Yixuan Wang, Leonor Fermoselle, Tarik Kelestemur, Jiuguang Wang, Yunzhu Li2026-03-11🤖 cs.LG

Unveiling the Potential of iMarkers: Invisible Fiducial Markers for Advanced Robotics

Die Arbeit stellt iMarkers vor, eine innovative Klasse unsichtbarer fiduzieller Marker, die speziell für Roboter und AR-Geräte entwickelt wurden, um die visuelle Ästhetik von Umgebungen zu bewahren, während sie gleichzeitig eine flexible, robuste und für Menschen nicht wahrnehmbare Orientierung und Objekterkennung ermöglichen.

Ali Tourani, Deniz Isinsu Avsar, Hriday Bavle, Jose Luis Sanchez-Lopez, Jan Lagerwall, Holger Voos2026-03-11💻 cs

LAYOUTDREAMER: Physics-guided Layout for Text-to-3D Compositional Scene Generation

Das Paper stellt LayoutDreamer vor, ein Framework, das 3D-Gaussian-Splatting mit physikbasierten Layout- und Energieoptimierungen kombiniert, um textgesteuerte, physikalisch plausible und kontrollierbare kompositorische 3D-Szenen zu generieren und dabei den aktuellen Stand der Technik zu übertreffen.

Yang Zhou, Zongjin He, Qixuan Li + 1 more2026-03-11🤖 cs.AI

A Survey on Wi-Fi Sensing Generalizability: Taxonomy, Techniques, Datasets, and Future Research Prospects

Diese umfassende Umfrage analysiert über 200 Forschungsarbeiten zur Verbesserung der Generalisierbarkeit von Wi-Fi-Sensing-Systemen, indem sie Techniken, Datensätze und zukünftige Forschungsrichtungen strukturiert zusammenfasst und eine neue Plattform für den Datenaustausch einführt.

Fei Wang, Tingting Zhang, Wei Xi, Han Ding, Ge Wang, Di Zhang, Yuanhao Cui, Fan Liu, Jinsong Han, Jie Xu, Tony Xiao Han2026-03-11💻 cs

Recognition-Synergistic Scene Text Editing

Die Arbeit stellt RS-STE vor, einen neuartigen Ansatz für die Bearbeitung von Szenentext, der Texterkennung und -manipulation in einem einheitlichen Framework vereint, um durch eine parallele Transformer-Decodierung und eine zyklische selbstüberwachte Feinabstimmung komplexe Pipelines zu überwinden und gleichzeitig State-of-the-Art-Ergebnisse auf synthetischen und realen Datensätzen zu erzielen.

Zhengyao Fang, Pengyuan Lyu, Jingjing Wu, Chengquan Zhang, Jun Yu, Guangming Lu, Wenjie Pei2026-03-11💻 cs

Semi-Supervised Biomedical Image Segmentation via Diffusion Models and Teacher-Student Co-Training

Diese Arbeit stellt ein neuartiges halbüberwachtes Lehrer-Schüler-Framework für die biomedizinische Bildsegmentation vor, das Diffusionsmodelle nutzt, um durch iterative Pseudo-Label-Generierung und Co-Training auch bei begrenzten annotierten Daten eine überlegene Leistung im Vergleich zu bestehenden Methoden zu erzielen.

Luca Ciampi, Gabriele Lagani, Giuseppe Amato, Fabrizio Falchi2026-03-11💻 cs

Zooming In on Fakes: A Novel Dataset for Localized AI-Generated Image Detection with Forgery Amplification Approach

Die Arbeit stellt den groß angelegten Datensatz BR-Gen für lokalisierte KI-generierte Bildfälschungen vor und schlägt das Modell NFA-ViT vor, das durch eine rauschgesteuerte Verstärkung von Fälschungsspuren die Erkennungsgenauigkeit und Generalisierungsfähigkeit verbessert.

Lvpan Cai, Haowei Wang, Jiayi Ji, Yanshu Zhoumen, Shen Chen, Taiping Yao, Xiaoshuai Sun2026-03-11💻 cs

M4-SAR: A Multi-Resolution, Multi-Polarization, Multi-Scene, Multi-Source Dataset and Benchmark for optical-SAR Object Detection

Das Paper stellt den M4-SAR-Datensatz und ein Benchmark-Toolkit vor, die durch die Fusion von optischen und SAR-Bildern die Objekterkennung in komplexen Umgebungen signifikant verbessern und dabei einen neuen End-to-End-Detektionsrahmen sowie umfangreiche annotierte Daten bereitstellen.

Chao Wang, Wei Lu, Xiang Li, Jian Yang, Lei Luo2026-03-11💻 cs

MARRS: Masked Autoregressive Unit-based Reaction Synthesis

Das Paper stellt MARRS vor, ein neuartiges Framework, das auf einem unit-differenzierten VAE, Action-Conditioned Fusion und Adaptive Unit Modulation basiert, um koordinierte und feinabgestimmte menschliche Reaktionsbewegungen durch kontinuierliche Repräsentationen zu synthetisieren und dabei die Nachteile diskreter Vektorquantisierung zu umgehen.

Yabiao Wang, Shuo Wang, Jiangning Zhang, Jiafu Wu, Qingdong He, Yong Liu2026-03-11💻 cs

Embodied AI with Foundation Models for Mobile Service Robots: A Systematic Review

Diese systematische Übersicht untersucht die Integration von Foundation-Modellen in mobile Serviceroboter, indem sie technische Fortschritte bei der Aufgabenausführung und multimodalen Wahrnehmung analysiert, reale Anwendungsbereiche beleuchtet und ethische sowie zukünftige Forschungsfragen im Kontext sicherer und vertrauenswürdiger Mensch-Roboter-Interaktionen diskutiert.

Matthew Lisondra, Beno Benhabib, Goldie Nejat2026-03-11💬 cs.CL

EasyText: Controllable Diffusion Transformer for Multilingual Text Rendering

Das Paper stellt EasyText vor, einen auf Diffusion Transformern basierenden Rahmen für die präzise und kontrollierbare multilinguale Textgenerierung, der durch neuartige Positionierungscodierungen und ein umfangreiches synthetisches Datenset übertrifft.

Runnan Lu, Yuxuan Zhang, Jiaming Liu, Haofan Wang, Yiren Song2026-03-11💻 cs

SpikeSMOKE: Spiking Neural Networks for Monocular 3D Object Detection with Cross-Scale Gated Coding

Die Arbeit stellt SpikeSMOKE vor, einen energieeffizienten Ansatz für die monokulare 3D-Objektdetektion mittels Spiking Neural Networks, der durch einen neuartigen Cross-Scale Gating Coding-Mechanismus und leichte Restblöcke die Informationsverluste überwindet und gleichzeitig die Rechenkosten im Vergleich zu herkömmlichen Methoden drastisch senkt.

Xuemei Chen, Huamin Wang, Jing Peng, Hangchi Shen, Shukai Duan, Shiping Wen, Tingwen Huang2026-03-11💻 cs

Improving Large Vision-Language Models' Understanding for Flow Field Data

Die Arbeit stellt FieldLVLM vor, ein neuartiges Framework, das durch eine feldbewusste Sprachgenerierungsstrategie und eine datenkomprimierte Multimodal-Modellanpassung die Fähigkeit von Large Vision-Language Models verbessert, komplexe Strömungsfelddaten zu verstehen und wissenschaftliche Entdeckungen zu unterstützen.

Xiaomei Zhang, Hanyu Zheng, Xiangyu Zhu, Jinghuan Wei, Junhong Zou, Zhen Lei, Zhaoxiang Zhang2026-03-11💻 cs

MGCR-Net:Multimodal Graph-Conditioned Vision-Language Reconstruction Network for Remote Sensing Change Detection

Die Arbeit stellt MGCR-Net vor, ein neuartiges multimodales Graph-basiertes Vision-Language-Rekonstruktionsnetzwerk, das durch die Generierung textueller Daten mittels Multimodal Large Language Models und die Einführung einer graphenbasierten semantischen Rekonstruktion die Leistung der Fernerkundungs-Veränderungserkennung signifikant verbessert.

Chengming Wang, Guodong Fan, Jinjiang Li + 2 more2026-03-11⚡ eess

Personalized Feature Translation for Expression Recognition: An Efficient Source-Free Domain Adaptation Method

Die Arbeit stellt SFDA-PFT vor, eine effiziente, quellenfreie Domänenanpassungsmethode, die durch personalisierte Feature-Translation im latenten Raum die Gesichtsausdruckserkennung in Privatsphären-sensitiven Szenarien verbessert, indem sie sich ausschließlich auf ungelabelte neutrale Zieldaten verlässt und dabei auf die Verfügbarkeit von Quelldaten oder die Synthese von Bildern verzichtet.

Masoumeh Sharafi, Soufiane Belharbi, Muhammad Osama Zeeshan, Houssem Ben Salem, Ali Etemad, Alessandro Lameiras Koerich, Marco Pedersoli, Simon Bacon, Eric Granger2026-03-11🤖 cs.AI

EgoCross: Benchmarking Multimodal Large Language Models for Cross-Domain Egocentric Video Question Answering

Das Paper stellt EgoCross vor, ein umfassendes Benchmark-Tool, das die Generalisierungsfähigkeit multimodaler großer Sprachmodelle (MLLMs) bei der egozentrischen Video-Fragebeantwortung über vier herausfordernde Domänen hinaus des alltäglichen Lebens hinweg bewertet und dabei erhebliche Defizite der aktuellen Modelle aufzeigt.

Yanjun Li, Yuqian Fu, Tianwen Qian, Qi'ao Xu, Silong Dai, Danda Pani Paudel, Luc Van Gool, Xiaoling Wang2026-03-11🤖 cs.AI

You Only Pose Once: A Minimalist's Detection Transformer for Monocular RGB Category-level 9D Multi-Object Pose Estimation

Der Artikel stellt YOPO vor, einen minimalistischen, einstufigen Transformer-basierten Ansatz, der die 9-DoF-Pose-Schätzung von Objekten in einer Kategorie aus einzelnen RGB-Bildern direkt mit der Objekterkennung vereint und dabei ohne zusätzliche Tiefendaten oder CAD-Modelle neue State-of-the-Art-Ergebnisse erzielt.

Hakjin Lee, Junghoon Seo, Jaehoon Sim2026-03-11💻 cs

CoRe-GS: Coarse-to-Refined Gaussian Splatting with Semantic Object Focus

Die Arbeit stellt CoRe-GS vor, ein grob-zu-fein Framework für semantisches Gaussian Splatting, das durch eine aufgabenspezifische, selektive Optimierung nur relevanter Punkte von Interesse die Trainingszeit drastisch verkürzt und gleichzeitig die Rekonstruktionsqualität für robotische Anwendungen verbessert.

Hannah Schieber, Dominik Frischmann, Victor Schaack, Simon Boche, Angela Schoellig, Stefan Leutenegger, Daniel Roth2026-03-11💻 cs

VocSegMRI: Multimodal Learning for Precise Vocal Tract Segmentation in Real-time MRI

Die Arbeit stellt VocSegMRI vor, ein multimodales Framework, das durch die Integration von Video-, Audio- und phonologischen Daten mittels Cross-Attention-Fusion und kontrastivem Lernen eine präzise Echtzeit-Segmentierung des Stimmtrakts in MRT-Bildern ermöglicht und dabei neue State-of-the-Art-Ergebnisse erzielt.

Daiqi Liu, Tomás Arias-Vergara, Johannes Enk, Fangxu Xing, Maureen Stone, Jerry L. Prince, Jana Hutter, Andreas Maier, Jonghye Woo, Paula Andrea Pérez-Toro2026-03-11💻 cs

← Zurück Weiter →