cs Arbeiten | Gist.Science

SPEX: A Vision-Language Model for Land Cover Extraction on Spectral Remote Sensing Images

Das Paper stellt SPEX vor, ein multimodales Vision-Language-Modell, das mithilfe des neuartigen SPIE-Datensatzes und spezieller Trainingsstrategien erstmals spektrale Informationen nutzt, um eine präzise, instruktionsgesteuerte Landbedeckungsextraktion aus multispektralen Fernerkundungsbildern mit erklärenden Texten zu ermöglichen.

Dongchen Si, Di Wang, Erzhong Gao, Xiaolei Qin, Liu Zhao, Jing Zhang, Minqiang Xu, Jianbo Zhan, Jianshe Wang, Lin Liu, Bo Du, Liangpei Zhang2026-03-10💻 cs

3D Gaussian Splatting with Fisheye Images: Field of View Analysis and Depth-Based Initialization

Diese Arbeit stellt die erste Bewertung von 3D-Gaussian-Splatting-Methoden auf realen Fisheye-Bildern mit einem Sichtfeld über 180° vor, zeigt, dass 160° die optimale Balance zwischen Abdeckung und Qualität bieten, und führt eine neue, auf UniK3D basierende Tiefen-Initialisierung ein, die die oft fehlschlagende SfM-Initialisierung bei extremen Verzerrungen erfolgreich ersetzt.

Ulas Gunes, Matias Turkulainen, Mikhail Silaev, Juho Kannala, Esa Rahtu2026-03-10💻 cs

Experimental Validation of Provably Covert Communication Using Software-Defined Radio

Diese Studie präsentiert eine experimentelle Validierung von mathematisch nachweisbar verdeckter Funkkommunikation mittels Software-Defined Radios, die die theoretischen Grenzen des Quadratwurzelgesetzes bestätigt und praktische Implementierungsmöglichkeiten eröffnet.

Rohan Bali, Trevor E. Bailey, Michael S. Bullock, Boulat A. Bash2026-03-10💻 cs

Unified and Semantically Grounded Domain Adaptation for Medical Image Segmentation

Die Autoren stellen ein einheitliches, semantisch fundiertes Framework vor, das durch das Erlernen eines domainsunabhängigen probabilistischen Mannigfaltigkeitsraums anatomischer Regularitäten sowohl source-accessible als auch source-free Domain-Adaptation für die medizinische Bildsegmentierung ermöglicht und dabei state-of-the-art-Ergebnisse in beiden Szenarien erzielt.

Xin Wang, Yin Guo, Jiamin Xia, Kaiyu Zhang, Niranjan Balu, Mahmud Mossa-Basha, Linda Shapiro, Chun Yuan2026-03-10💻 cs

Video-EM: Event-Centric Episodic Memory for Long-Form Video Understanding

Das Paper stellt Video-EM vor, ein trainingsfreies Framework, das durch die Orchestrierung von LLMs und Werkzeugen zur ereignisbasierten Konstruktion und Verfeinerung einer kompakten episodischen Gedächtnisrepräsentation die Herausforderungen des Verständnisses langer Videos für bestehende Video-LLMs löst.

Yun Wang, Long Zhang, Jingren Liu, Jiaqi Yan, Zhanjie Zhang, Jiahao Zheng, Ao Ma, Run Ling, Xun Yang, Dapeng Wu, Xiangyu Chen, Xuelong Li2026-03-10💻 cs

UniUGG: Unified 3D Understanding and Generation via Geometric-Semantic Encoding

Die Arbeit stellt UniUGG vor, das erste einheitliche Framework für das Verständnis und die Generierung von 3D-Daten, welches durch einen räumlichen Decoder auf Basis eines latenten Diffusionsmodells und eine geometrisch-semantische Lernstrategie hochwertige 3D-Szenen erzeugt und räumliche VQA-Aufgaben löst.

Yueming Xu, Jiahui Zhang, Ze Huang, Yurui Chen, Yanpeng Zhou, Zhenyu Chen, Yu-Jie Yuan, Pengxiang Xia, Guowei Huang, Xinyue Cai, Zhongang Qi, Xingyue Quan, Jianye Hao, Hang Xu, Li Zhang2026-03-10💻 cs

UniCast: A Unified Framework for Instance-Conditioned Multimodal Time-Series Forecasting

Das Paper stellt UniCast vor, ein parameter-effizientes multimodales Framework, das durch instanzbedingtes Prompting und dynamisches Modality-Routing bestehende Zeitreihen-Grundmodelle erweitert, um deren Vorhersagegenauigkeit durch die adaptive Integration von Zeitreihen-, Bild- und Textdaten zu steigern.

Sehyuk Park, Soyeon Caren Han, Eduard Hovy2026-03-10💻 cs

Efficient Diffusion-Based 3D Human Pose Estimation with Hierarchical Temporal Pruning

Diese Arbeit stellt einen effizienten, diffusionsbasierten Rahmen für die 3D-Menschliche-Pose-Schätzung vor, der durch eine hierarchische zeitliche Beschneidungsstrategie (HTP) den Rechenaufwand erheblich reduziert und gleichzeitig eine state-of-the-art Leistung erzielt.

Yuquan Bi, Hongsong Wang, Xinli Shi, Zhipeng Gui, Jie Gui, Yuan Yan Tang2026-03-10💻 cs

PointSlice: Accurate and Efficient Slice-Based Representation for 3D Object Detection from Point Clouds

Die Arbeit stellt PointSlice vor, eine neuartige, auf horizontalen Schnitten basierende Methode zur 3D-Objekterkennung aus Punktwolken, die durch eine effiziente 2D-Datenrepräsentation und ein Slice-Interaktions-Netzwerk (SIN) eine überlegene Balance zwischen Detektionsgenauigkeit und Inferenzgeschwindigkeit im Vergleich zu herkömmlichen Voxel- und Säulen-basierten Ansätzen erreicht.

Liu Qifeng, Zhao Dawei, Dong Yabo, Xiao Liang, Wang Juan, Min Chen, Li Fuyang, Jiang Weizhong, Lu Dongming, Nie Yiming2026-03-10💻 cs

AmphiKey: A Dual-Mode Secure Authenticated Key Encapsulation Protocol for Smart Grid

Das Paper stellt AmphiKey vor, ein hybrides Post-Quantum-Authentifizierungsprotokoll für Smart Grids, das zwei Betriebsmodi (authentifiziert und ablehnbar) kombiniert und durch eine umfassende Leistungsbewertung auf heterogenen Testumgebungen sowohl hohe Sicherheit als auch Effizienz nachweist.

Kazi Hassan Shakib, Muhammad Asfand Hafeez, Arslan Munir2026-03-10💻 cs

Mix-modal Federated Learning for MRI Image Segmentation

Der Artikel stellt ein neues Paradigma namens MixMFL sowie ein darauf aufbauendes Framework namens MDM-MixMFL vor, das durch Modality-Decoupling und einen Modality-Memorizing-Mechanismus die Herausforderungen der Heterogenität bei dezentralen, multimodalen MRI-Bildsegmentierungsaufgaben in verteilten Krankenhäusern löst.

Guyue Hu, Siyuan Song, Jingpeng Sun, Zhe Jin, Chenglong Li, Jin Tang2026-03-10💻 cs

UltraUPConvNet: A UPerNet- and ConvNeXt-Based Multi-Task Network for Ultrasound Tissue Segmentation and Disease Prediction

Die Studie stellt UltraUPConvNet vor, einen rechen-effizienten Multi-Task-Deep-Learning-Ansatz auf Basis von UPerNet und ConvNeXt, der gleichzeitig die Gewebesegmentierung und die Krankheitsvorhersage in Ultraschallbildern mit state-of-the-art-Leistung und geringerem Rechenaufwand ermöglicht.

Zhi Chen, Le Zhang2026-03-10💻 cs

Traffic-MLLM: Curiosity-Regularized Supervised Learning for Traffic Scenario Case-Based Reasoning

Die Arbeit stellt Traffic-MLLM vor, ein retrieval-freies Framework für multimodales Verkehrsreasoning, das durch curiosity-gesteuertes, überwachtes Lernen auf einer multi-quelligenen Datenbasis eine generalisierbare Fallraum-Repräsentation erlernt und damit die Robustheit von autonomen Fahrsystemen in langschwanzigen Szenarien verbessert.

Waikit Xiu, Qiang Lu, Bingchen Liu, Chen Sun, Xiying Li2026-03-10💻 cs

ActivePose: Active 6D Object Pose Estimation and Tracking for Robotic Manipulation

Der Artikel stellt ActivePose vor, ein aktives System zur 6D-Pose-Schätzung und -Verfolgung, das Vision-Language-Modelle mit „robotischer Imagination" und Diffusionsrichtlinien kombiniert, um durch dynamische Kamerabewegungen und Next-Best-View-Strategien Mehrdeutigkeiten in Echtzeit aufzulösen und die Sichtbarkeit von Objekten zu gewährleisten.

Sheng Liu, Zhe Li, Weiheng Wang, Han Sun, Heng Zhang, Hongpeng Chen, Yusen Qin, Arash Ajoudani, Yizhao Wang2026-03-10💻 cs

Bio-inspired tail oscillation enables robot fast crawling on deformable granular terrains

Inspiriert vom Schlammfisch zeigt diese Studie, dass die aktive Schwanzbewegung eines Roboters den Untergrund aufweicht, wodurch der Widerstand verringert und die Fortbewegungsgeschwindigkeit auf deformierbarem Sand um 67 % gesteigert wird.

Shipeng Liu, Meghana Sagare, Shubham Patil, Feifei Qian2026-03-10💻 cs

SAGA: Selective Adaptive Gating for Efficient and Expressive Linear Attention

Die Arbeit stellt SAGA vor, eine Methode zur selektiven adaptiven Gating, die die Effizienz und Ausdruckskraft linearer Aufmerksamkeit für Vision-Transformer verbessert, indem sie durch lernbare Gatter die uniforme Kompression von Key-Value-Informationen vermeidet und so sowohl die Rechenleistung als auch die Genauigkeit bei der Verarbeitung hochauflösender Bilder signifikant steigert.

Yuan Cao, Dong Wang2026-03-10💻 cs

Cumulative Consensus Score: Label-Free and Model-Agnostic Evaluation of Object Detectors in Deployment

Die Arbeit stellt den Cumulative Consensus Score (CCS) vor, eine modellunabhängige und annotierungsfreie Metrik, die durch Messung der räumlichen Konsistenz von Bounding-Box-Vorhersagen über Testzeit-Augmentierungen hinweg die Zuverlässigkeit von Objektdetektoren im Einsatz überwacht und dabei eine hohe Übereinstimmung mit etablierten Qualitätsmaßen aufweist.

Avinaash Manoharan, Xiangyu Yin, Domenik Helm, Chih-Hong Cheng2026-03-10💻 cs

WHU-STree: A Multi-modal Benchmark Dataset for Street Tree Inventory

Die Studie stellt WHU-STree vor, ein umfassendes, multimodales Benchmark-Datenset mit synchronisierten Punktwolken und hochauflösenden Bildern aus zwei Städten, das über 21.000 annotierte Straßenbäume umfasst und als Grundlage für die Automatisierung der Bestandsaufnahme sowie die Erforschung von Multi-Modalitäts- und Domänenanpassungsmethoden dient.

Ruifei Ding, Zhe Chen, Wen Fan + 5 more2026-03-10💻 cs

Agile in the Face of Delay: Asynchronous End-to-End Learning for Real-World Aerial Navigation

Die Autoren stellen ein asynchrones Reinforcement-Learning-Framework vor, das durch die Entkopplung von Wahrnehmung und Steuerung sowie die Verwendung eines temporalen Kodierungsmoduls hochfrequente, agile autonome Navigation von Luftfahrzeugen in komplexen Umgebungen trotz verzögerter Sensorik ermöglicht und erfolgreich in der realen Welt demonstriert wurde.

Yude Li, Zhexuan Zhou, Huizhe Li, Youmin Gong, Jie Mei2026-03-10💻 cs

GeoAware-VLA: Implicit Geometry Aware Vision-Language-Action Model

GeoAware-VLA ist ein Ansatz, der durch die Integration vorgefertigter geometrischer Merkmale in die visuelle Verarbeitung die Generalisierungsfähigkeit von Vision-Language-Action-Modellen auf neue Kameraperspektiven erheblich verbessert, ohne dabei die Leistung im Trainingsbereich zu beeinträchtigen.

Ali Abouzeid, Malak Mansour, Qinbo Sun, Zezhou Sun, Dezhen Song2026-03-10💻 cs

← Zurück Weiter →