cs papers | Gist.Science

Open-Vocabulary Camouflaged Object Segmentation with Cascaded Vision Language Models

Deze paper introduceert een nieuw VLM-geleid cascadekader voor Open-Vocabulary Camouflaged Object Segmentation dat de Segment Anything Model (SAM) stuurt met VLM-features voor nauwkeurigere segmentatie en een zachte ruimtelijke prior gebruikt om het domeinverschil bij classificatie te overbruggen, waardoor zowel de lokalisatie als de classificatie van gecamoufleerde objecten aanzienlijk verbetert.

Kai Zhao, Wubang Yuan, Zheng Wang, Guanyi Li, Xiaoqiang Zhu, Deng-ping Fan, Dan Zeng2026-03-10💻 cs

WaLi: Can Pressure Sensors in HVAC Systems Capture Human Speech?

Dit paper introduceert WaLi, een aanval die intelligibele spraak reconstrueert uit ruisende druksensor-data van HVAC-systemen door gebruik te maken van een complex-waardige conformer en een Complex Global Attention Block, waarmee een tot nu toe onbekend privacyrisico voor deze sensoren wordt blootgelegd.

Tarikul Islam Tamiti, Biraj Joshi, Rida Hasan, Anomadarshi Barua2026-03-10💻 cs

SUBARU: A Practical Approach to Power Saving in Hearables Using SUB-Nyquist Audio Resolution Upsampling

Dit paper introduceert SUBARU, een energiezuinige aanpak voor hearables die door het bewust toepassen van sub-Nyquist sampling en lage bit-resolutie in combinatie met een breedband-reconstructiemethode, de stroomverbruik met een factor 3,31 verlaagt terwijl het spraakverbetering in realistische omstandigheden behoudt.

Tarikul Islam Tamiti, Sajid Fardin Dipto, Luke Benjamin Baja-Ricketts, David C Vergano, Anomadarshi Barua2026-03-10💻 cs

Autonomous Vision-Aided UAV Positioning for Obstacle-Aware Wireless Connectivity

Dit paper introduceert VTOPA, een visie-gestuurd algoritme dat UAV's autonoom positioneert op basis van computerzicht voor obstakelbewuste draadloze connectiviteit, wat in simulaties leidt tot een tot 50% hogere doorvoer en een 50% lagere vertraging in stedelijke omgevingen.

Kamran Shafafi, Manuel Ricardo, Rui Campos2026-03-10💻 cs

LD-RPS: Zero-Shot Unified Image Restoration via Latent Diffusion Recurrent Posterior Sampling

LD-RPS is een nieuwe, datasetvrije methode voor universele beeldherstel die een vooraf getraind latent diffusion-model combineert met recurrente posterior sampling en semantische priors om diverse degradaties zonder gespecialiseerde training te verhelpen.

Huaqiu Li, Yong Wang, Tongwen Huang, Hailang Huang, Haoqian Wang, Xiangxiang Chu2026-03-10💻 cs

Query-Based Adaptive Aggregation for Multi-Dataset Joint Training Toward Universal Visual Place Recognition

Dit artikel introduceert Query-based Adaptive Aggregation (QAA), een innovatieve techniek voor het gezamenlijk trainen van modellen op meerdere datasets om universele visuele plaatsherkenning te bereiken met verbeterde generalisatie en robuustheid.

Jiuhong Xiao, Yang Zhou, Giuseppe Loianno2026-03-10💻 cs

Hybrid Diffusion Policies with Projective Geometric Algebra for Efficient Robot Manipulation Learning

Deze paper introduceert hPGA-DP, een hybride diffusiebeleid dat Projective Geometric Algebra (PGA) integreert in de netwerkarchitectuur om de trainingsefficiëntie en prestaties van robotmanipulatie te verbeteren door fundamentele ruimtelijke concepten niet opnieuw te hoeven leren.

Xiatao Sun, Yuxuan Wang, Shuo Yang, Yinxing Chen, Daniel Rakita2026-03-10💻 cs

A Robust Incomplete Multimodal Low-Rank Adaptation Approach for Emotion Recognition

Dit artikel introduceert MCULoRA, een robuust raamwerk voor emotionele herkenning met onvolledige multimodale data dat door middel van ontkoppeling en dynamische aanpassing van laag-rang adaptatie de prestaties van bestaande methoden aanzienlijk verbetert.

Xinkui Zhao, Jinsong Shu, Yangyang Wu, Guanjie Cheng, Zihe Liu, Naibo Wang, Shuiguang Deng, Zhongle Xie, Jianwei Yin2026-03-10💻 cs

Unified Medical Image Segmentation with State Space Modeling Snake

Deze paper introduceert Mamba Snake, een nieuw raamwerk voor geünificeerde medische beeldsegmentatie dat state space-modellering en een snake-specifiek visiemodule combineert om de complexe morfologische en topologische uitdagingen van meervoudige orgaandetectie effectiever op te lossen dan bestaande methoden.

Ruicheng Zhang, Haowei Guo, Kanghui Tian, Jun Zhou, Mingliang Yan, Zeyu Zhang, Shen Zhao2026-03-10💻 cs

$\pi^3$ : Permutation-Equivariant Visual Geometry Learning

Dit paper introduceert $π^3$ , een voeding-neuraal netwerk dat gebruikmaakt van een volledig permutatie-equivariante architectuur om visuele geometrie te reconstrueren zonder afhankelijkheid van een vaste referentiebeeld, wat leidt tot robuustere en state-of-the-art prestaties bij taken zoals camerapositieschatting en diepteanalyse.

Yifan Wang, Jianjun Zhou, Haoyi Zhu, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Jiangmiao Pang, Chunhua Shen, Tong He2026-03-10💻 cs

Post-Disaster Affected Area Segmentation with a Vision Transformer (ViT)-based EVAP Model using Sentinel-2 and Formosat-5 Imagery

Dit paper introduceert een op Vision Transformers gebaseerd framework dat, door gebruik te maken van Sentinel-2 en Formosat-5-beelden en een zwak-toezichtstrategie met PCA en een betrouwbaarheidsindex, de segmentatie van door rampen getroffen gebieden verbetert om de EVAP-producten van het Taiwan Space Agency te ondersteunen.

Yi-Shan Chu, Hsuan-Cheng Wei2026-03-10💻 cs

Auto-scaling Approaches for Microservice Applications: A Survey and Taxonomy

Dit artikel presenteert een taxonomie en grondige analyse van de meest geavanceerde auto-scaling-aanpakpen voor microservice-toepassingen sinds 2018, met als doel de balans tussen resource-efficiëntie, kosten en SLA-naleving te optimaliseren via een overzicht van infrastructuur, architectuur, schaalmethoden, optimalisatiedoelen en gedragsmodellering.

Minxian Xu, Junhan Liao, Linfeng Wen, Huaming Wu, Kejiang Ye, Rajkumar Buyya, Chengzhong Xu2026-03-10💻 cs

BrownoutServe: SLO-Aware Inference Serving under Bursty Workloads for MoE-based LLMs

BrownoutServe is een nieuw raamwerk voor het bedienen van MoE-gebaseerde LLM's dat door middel van 'united experts' en een dynamische brownout-mechanisme de doorvoersnelheid verhoogt en SLO-overtredingen onder bursty werklasten aanzienlijk vermindert.

Jianmin Hu, Minxian Xu, Kejiang Ye + 1 more2026-03-10💻 cs

C-Koordinator: Interference-aware Management for Large-scale and Co-located Microservice Clusters

Dit paper introduceert C-Koordinator, een open-source platform van Alibaba dat gebruikmaakt van CPI-gebaseerde interferentievoorspelling om prestatieverlies te mitigeren en de latentie in grote, gedeelde microservice-clusters aanzienlijk te verbeteren.

Shengye Song, Minxian Xu, Zuowei Zhang + 5 more2026-03-10💻 cs

They See Me Rolling: High-Speed Event Vision-Based Tactile Roller Sensor for Large Surface Inspection

Deze paper introduceert een innovatieve, op een neuromorfe camera gebaseerde rollende tactiele sensor die door het gebruik van gebeurtenisgebaseerde 3D-reconstructie en Bayesiaanse fusie inspectiesnelheden tot 0,5 m/s mogelijk maakt met een nauwkeurigheid van minder dan 100 micron, waardoor deze elf keer sneller is dan eerdere methoden voor continue tactiele inspectie.

Akram Khairi, Hussain Sajwani, Abdallah Mohammad Alkilany, Laith AbuAssi, Mohamad Halwani, Islam Mohamed Zaid, Ahmed Awadalla, Dewald Swart, Abdulla Ayyad, Yahya Zweiri2026-03-10💻 cs

Dynamic Symbolic Execution for Semantic Difference Analysis of Component and Connector Architectures

Dit onderzoek onderzocht de toepassing van dynamische symbolische uitvoering voor semantisch verschilanalyse van component- en connectorarchitecturen in MontiArc-modellen, waarbij gebleken is dat de methode waardevolle inzichten biedt maar beperkt wordt door schaalbaarheidsuitdagingen.

Johanna Grahl, Bernhard Rumpe, Max Stachon, Sebastian Stüber2026-03-10💻 cs

Empowering Microscopic Traffic Simulators with Realistic Perception using Surrogate Sensor Models

Dit paper introduceert MIDAR, een surrogaat LiDAR-detectiemodel dat realistische waarnemingen genereert voor microscopische verkeerssimulatoren door gebruik te maken van hoogwaardige kenmerken en geometrische grafieken, waardoor schaalbare en nauwkeurige evaluaties van intelligente vervoerssystemen mogelijk worden gemaakt.

Tianheng Zhu, Yiheng Feng2026-03-10💻 cs

TransUNet-GradCAM: A Hybrid Transformer-U-Net with Self-Attention and Explainable Visualizations for Foot Ulcer Segmentation

Dit artikel introduceert TransUNet-GradCAM, een hybride Transformer-U-Net-model dat door het combineren van globale en lokale kenmerken een robuuste en verklaarbare segmentatie van diabetische voetzweren mogelijk maakt, wat wordt onderbouwd door sterke prestaties op zowel interne als externe datasets.

Akwasi Asare, Mary Sagoe, Justice Williams Asare, Stephen Edward Moore2026-03-10💻 cs

S $^2$ Q-VDiT: Accurate Quantized Video Diffusion Transformer with Salient Data and Sparse Token Distillation

Dit paper introduceert S $^2$ Q-VDiT, een post-training kwantisatiekader voor video-diffusietransformators dat gebruikmaakt van hessiaan-gevoelige saliente dataselectie en op aandacht gebaseerde distillatie van schaarse tokens om verliesvrije prestaties te bereiken met aanzienlijke compressie en versnelling.

Weilun Feng, Haotong Qin, Chuanguang Yang, Xiangqi Li, Han Yang, Yuqi Li, Zhulin An, Libo Huang, Michele Magno, Yongjun Xu2026-03-10💻 cs

SPEX: A Vision-Language Model for Land Cover Extraction on Spectral Remote Sensing Images

Dit paper introduceert SPEX, het eerste multimodale vision-language model dat specrale informatie uit remote sensing-beelden effectief benut voor instructiegedreven landbedekkingsextractie en -uitleg, ondersteund door een nieuw dataset genaamd SPIE.

Dongchen Si, Di Wang, Erzhong Gao, Xiaolei Qin, Liu Zhao, Jing Zhang, Minqiang Xu, Jianbo Zhan, Jianshe Wang, Lin Liu, Bo Du, Liangpei Zhang2026-03-10💻 cs

← Vorige Volgende →

cs