cs Arbeiten | Gist.Science

$\pi^3$ : Permutation-Equivariant Visual Geometry Learning

Die Arbeit stellt $Ï^3$ vor, ein feed-forward neuronales Netzwerk mit vollständig permutationsäquivarianter Architektur, das durch den Verzicht auf feste Referenzansichten robustere und genauere Ergebnisse bei Aufgaben der visuellen Geometrie wie Kamerapose-Schätzung und Tiefenrekonstruktion erzielt.

Yifan Wang, Jianjun Zhou, Haoyi Zhu, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Jiangmiao Pang, Chunhua Shen, Tong He2026-03-10💻 cs

Post-Disaster Affected Area Segmentation with a Vision Transformer (ViT)-based EVAP Model using Sentinel-2 and Formosat-5 Imagery

Die Studie stellt ein auf Vision Transformern (ViT) basierendes Deep-Learning-Framework vor, das mithilfe von Sentinel-2- und Formosat-5-Bilddaten sowie einer schwach überwachten Trainingsstrategie die Segmentierung von Katastrophengebieten für das EVAP-Programm der Taiwan Space Agency verbessert und dabei die Zuverlässigkeit und räumliche Kohärenz der Ergebnisse erhöht.

Yi-Shan Chu, Hsuan-Cheng Wei2026-03-10💻 cs

Auto-scaling Approaches for Microservice Applications: A Survey and Taxonomy

Diese Arbeit bietet eine umfassende Übersicht und Taxonomie von Auto-Scaling-Ansätzen für Microservice-Anwendungen seit 2018, die fünf Dimensionen beleuchten und darauf abzielen, Ressourceneffizienz, Kosteneffizienz und SLA-Einhaltung durch service-spezifische, dependency-bewusste Strategien zu optimieren.

Minxian Xu, Junhan Liao, Linfeng Wen, Huaming Wu, Kejiang Ye, Rajkumar Buyya, Chengzhong Xu2026-03-10💻 cs

BrownoutServe: SLO-Aware Inference Serving under Bursty Workloads for MoE-based LLMs

Die Arbeit stellt BrownoutServe vor, ein neuartiges Serving-Framework für MoE-basierte LLMs, das durch die Einführung von „united experts" und einen dynamischen Brownout-Mechanismus die Inference-Effizienz unter schwankenden Lasten optimiert, den Durchsatz im Vergleich zu vLLM um das 2,07-Fache steigert und SLO-Verletzungen um 90,28 % reduziert.

Jianmin Hu, Minxian Xu, Kejiang Ye + 1 more2026-03-10💻 cs

C-Koordinator: Interference-aware Management for Large-scale and Co-located Microservice Clusters

Die Arbeit stellt C-Koordinator vor, eine von Alibaba entwickelte Open-Source-Plattform, die durch die Nutzung von CPI-basierten Interferenzvorhersagemodellen mit über 90,3 % Genauigkeit die Ressourcennutzung in großskaligen, gemeinsam genutzten Microservice-Clustern optimiert und dabei die Antwortzeiten im Vergleich zu bestehenden Systemen um 16,7 % bis 36,1 % verbessert.

Shengye Song, Minxian Xu, Zuowei Zhang + 5 more2026-03-10💻 cs

They See Me Rolling: High-Speed Event Vision-Based Tactile Roller Sensor for Large Surface Inspection

Diese Arbeit stellt einen neuartigen, rollenden taktilen Sensor vor, der eine neuromorphe Kamera mit einer ereignisbasierten 3D-Rekonstruktion kombiniert, um große Industrieflächen wie Flugzeugrümpfe bei bis zu 0,5 m/s mit einer Genauigkeit unter 100 Mikrometern elfmal schneller als bisherige kontinuierliche Methoden zu inspizieren.

Akram Khairi, Hussain Sajwani, Abdallah Mohammad Alkilany, Laith AbuAssi, Mohamad Halwani, Islam Mohamed Zaid, Ahmed Awadalla, Dewald Swart, Abdulla Ayyad, Yahya Zweiri2026-03-10💻 cs

Dynamic Symbolic Execution for Semantic Difference Analysis of Component and Connector Architectures

Diese Arbeit untersucht die Anwendung der dynamischen symbolischen Ausführung zur semantischen Differenzanalyse von MontiArc-Architekturen, stellt dabei ein Framework zur Bewertung verschiedener Ausführungsstrategien vor und identifiziert Skalierbarkeit als zentrale Herausforderung für den Einsatz in größeren Systemen.

Johanna Grahl, Bernhard Rumpe, Max Stachon, Sebastian Stüber2026-03-10💻 cs

Empowering Microscopic Traffic Simulators with Realistic Perception using Surrogate Sensor Models

Das Paper stellt MIDAR vor, ein effizientes Surrogat-Modell für LiDAR-Erkennung, das mithilfe eines geometrieaware Graph Transformers realistische Detektionsergebnisse in mikroskopischen Verkehrssimulatoren erzeugt und so die Skalierbarkeit bei der Evaluierung autonomer Fahrzeuge mit hoher Genauigkeit verbindet.

Tianheng Zhu, Yiheng Feng2026-03-10💻 cs

TransUNet-GradCAM: A Hybrid Transformer-U-Net with Self-Attention and Explainable Visualizations for Foot Ulcer Segmentation

Diese Studie stellt TransUNet-GradCAM vor, einen hybriden Transformer-U-Net-Ansatz mit Selbstattention und erklärbarer Visualisierung, der durch die Integration globaler Kontextinformationen und lokaler Details eine robuste und generalisierbare Segmentierung von diabetischen Fußulzera ermöglicht.

Akwasi Asare, Mary Sagoe, Justice Williams Asare, Stephen Edward Moore2026-03-10💻 cs

S $^2$ Q-VDiT: Accurate Quantized Video Diffusion Transformer with Salient Data and Sparse Token Distillation

Die Arbeit stellt S²Q-VDiT vor, ein Nachtrainierungs-Quantisierungsframework für Video-Diffusions-Transformer, das durch saliente Datenselektion und sparse Token-Distillation eine verlustfreie Leistung bei 4-Bit-Gewichten und 6-Bit-Aktivierungen mit signifikant reduzierten Speicher- und Rechenkosten erreicht.

Weilun Feng, Haotong Qin, Chuanguang Yang, Xiangqi Li, Han Yang, Yuqi Li, Zhulin An, Libo Huang, Michele Magno, Yongjun Xu2026-03-10💻 cs

SPEX: A Vision-Language Model for Land Cover Extraction on Spectral Remote Sensing Images

Das Paper stellt SPEX vor, ein multimodales Vision-Language-Modell, das mithilfe des neuartigen SPIE-Datensatzes und spezieller Trainingsstrategien erstmals spektrale Informationen nutzt, um eine präzise, instruktionsgesteuerte Landbedeckungsextraktion aus multispektralen Fernerkundungsbildern mit erklärenden Texten zu ermöglichen.

Dongchen Si, Di Wang, Erzhong Gao, Xiaolei Qin, Liu Zhao, Jing Zhang, Minqiang Xu, Jianbo Zhan, Jianshe Wang, Lin Liu, Bo Du, Liangpei Zhang2026-03-10💻 cs

3D Gaussian Splatting with Fisheye Images: Field of View Analysis and Depth-Based Initialization

Diese Arbeit stellt die erste Bewertung von 3D-Gaussian-Splatting-Methoden auf realen Fisheye-Bildern mit einem Sichtfeld über 180° vor, zeigt, dass 160° die optimale Balance zwischen Abdeckung und Qualität bieten, und führt eine neue, auf UniK3D basierende Tiefen-Initialisierung ein, die die oft fehlschlagende SfM-Initialisierung bei extremen Verzerrungen erfolgreich ersetzt.

Ulas Gunes, Matias Turkulainen, Mikhail Silaev, Juho Kannala, Esa Rahtu2026-03-10💻 cs

Experimental Validation of Provably Covert Communication Using Software-Defined Radio

Diese Studie präsentiert eine experimentelle Validierung von mathematisch nachweisbar verdeckter Funkkommunikation mittels Software-Defined Radios, die die theoretischen Grenzen des Quadratwurzelgesetzes bestätigt und praktische Implementierungsmöglichkeiten eröffnet.

Rohan Bali, Trevor E. Bailey, Michael S. Bullock, Boulat A. Bash2026-03-10💻 cs

Unified and Semantically Grounded Domain Adaptation for Medical Image Segmentation

Die Autoren stellen ein einheitliches, semantisch fundiertes Framework vor, das durch das Erlernen eines domainsunabhängigen probabilistischen Mannigfaltigkeitsraums anatomischer Regularitäten sowohl source-accessible als auch source-free Domain-Adaptation für die medizinische Bildsegmentierung ermöglicht und dabei state-of-the-art-Ergebnisse in beiden Szenarien erzielt.

Xin Wang, Yin Guo, Jiamin Xia, Kaiyu Zhang, Niranjan Balu, Mahmud Mossa-Basha, Linda Shapiro, Chun Yuan2026-03-10💻 cs

Video-EM: Event-Centric Episodic Memory for Long-Form Video Understanding

Das Paper stellt Video-EM vor, ein trainingsfreies Framework, das durch die Orchestrierung von LLMs und Werkzeugen zur ereignisbasierten Konstruktion und Verfeinerung einer kompakten episodischen Gedächtnisrepräsentation die Herausforderungen des Verständnisses langer Videos für bestehende Video-LLMs löst.

Yun Wang, Long Zhang, Jingren Liu, Jiaqi Yan, Zhanjie Zhang, Jiahao Zheng, Ao Ma, Run Ling, Xun Yang, Dapeng Wu, Xiangyu Chen, Xuelong Li2026-03-10💻 cs

UniUGG: Unified 3D Understanding and Generation via Geometric-Semantic Encoding

Die Arbeit stellt UniUGG vor, das erste einheitliche Framework für das Verständnis und die Generierung von 3D-Daten, welches durch einen räumlichen Decoder auf Basis eines latenten Diffusionsmodells und eine geometrisch-semantische Lernstrategie hochwertige 3D-Szenen erzeugt und räumliche VQA-Aufgaben löst.

Yueming Xu, Jiahui Zhang, Ze Huang, Yurui Chen, Yanpeng Zhou, Zhenyu Chen, Yu-Jie Yuan, Pengxiang Xia, Guowei Huang, Xinyue Cai, Zhongang Qi, Xingyue Quan, Jianye Hao, Hang Xu, Li Zhang2026-03-10💻 cs

UniCast: A Unified Framework for Instance-Conditioned Multimodal Time-Series Forecasting

Das Paper stellt UniCast vor, ein parameter-effizientes multimodales Framework, das durch instanzbedingtes Prompting und dynamisches Modality-Routing bestehende Zeitreihen-Grundmodelle erweitert, um deren Vorhersagegenauigkeit durch die adaptive Integration von Zeitreihen-, Bild- und Textdaten zu steigern.

Sehyuk Park, Soyeon Caren Han, Eduard Hovy2026-03-10💻 cs

Efficient Diffusion-Based 3D Human Pose Estimation with Hierarchical Temporal Pruning

Diese Arbeit stellt einen effizienten, diffusionsbasierten Rahmen für die 3D-Menschliche-Pose-Schätzung vor, der durch eine hierarchische zeitliche Beschneidungsstrategie (HTP) den Rechenaufwand erheblich reduziert und gleichzeitig eine state-of-the-art Leistung erzielt.

Yuquan Bi, Hongsong Wang, Xinli Shi, Zhipeng Gui, Jie Gui, Yuan Yan Tang2026-03-10💻 cs

PointSlice: Accurate and Efficient Slice-Based Representation for 3D Object Detection from Point Clouds

Die Arbeit stellt PointSlice vor, eine neuartige, auf horizontalen Schnitten basierende Methode zur 3D-Objekterkennung aus Punktwolken, die durch eine effiziente 2D-Datenrepräsentation und ein Slice-Interaktions-Netzwerk (SIN) eine überlegene Balance zwischen Detektionsgenauigkeit und Inferenzgeschwindigkeit im Vergleich zu herkömmlichen Voxel- und Säulen-basierten Ansätzen erreicht.

Liu Qifeng, Zhao Dawei, Dong Yabo, Xiao Liang, Wang Juan, Min Chen, Li Fuyang, Jiang Weizhong, Lu Dongming, Nie Yiming2026-03-10💻 cs

AmphiKey: A Dual-Mode Secure Authenticated Key Encapsulation Protocol for Smart Grid

Das Paper stellt AmphiKey vor, ein hybrides Post-Quantum-Authentifizierungsprotokoll für Smart Grids, das zwei Betriebsmodi (authentifiziert und ablehnbar) kombiniert und durch eine umfassende Leistungsbewertung auf heterogenen Testumgebungen sowohl hohe Sicherheit als auch Effizienz nachweist.

Kazi Hassan Shakib, Muhammad Asfand Hafeez, Arslan Munir2026-03-10💻 cs

← Zurück Weiter →

cs

π3\pi^3π3: Permutation-Equivariant Visual Geometry Learning