cs articoli | Gist.Science

Light of Normals: Unified Feature Representation for Universal Photometric Stereo

Il paper presenta LINO UniPS, un approccio unificato per la fotometria stereoscopica universale che, grazie a token di registrazione luminosa, blocchi di attenzione intercalati e un'architettura basata su wavelet, garantisce il disaccoppiamento tra illuminazione e normali preservando i dettagli geometrici ad alta frequenza, ottenendo risultati all'avanguardia su benchmark pubblici e generalizzando meglio ai materiali reali.

Houyuan Chen, Hong Li, Chongjie Ye + 11 more2026-03-10💻 cs

Open-Vocabulary Camouflaged Object Segmentation with Cascaded Vision Language Models

Questo articolo propone un nuovo framework a cascata guidato da modelli visione-linguaggio che utilizza le loro caratteristiche come prompt espliciti per il Segment Anything Model al fine di migliorare la segmentazione e, sfruttando l'output come prior spaziale morbida, la classificazione degli oggetti mimetizzati in scenari a vocabolario aperto, superando così le limitazioni delle metodologie precedenti.

Kai Zhao, Wubang Yuan, Zheng Wang, Guanyi Li, Xiaoqiang Zhu, Deng-ping Fan, Dan Zeng2026-03-10💻 cs

WaLi: Can Pressure Sensors in HVAC Systems Capture Human Speech?

Il paper presenta WaLi, un attacco che dimostra come i sensori di pressione negli impianti HVAC possano essere sfruttati per ricostruire e intercettare discorsi umani intelligibili, superando le limitazioni dei lavori precedenti e proponendo al contempo soluzioni difensive.

Tarikul Islam Tamiti, Biraj Joshi, Rida Hasan, Anomadarshi Barua2026-03-10💻 cs

SUBARU: A Practical Approach to Power Saving in Hearables Using SUB-Nyquist Audio Resolution Upsampling

Il paper presenta SUBARU, un approccio pratico che riduce il consumo energetico degli auricolari intelligenti del 3,31 volte sfruttando la sottocampionatura e la bassa risoluzione dei convertitori analogico-digitali, pur garantendo un'efficace enhancement del parlato in tempo reale tramite un innovativo metodo di upsampling.

Tarikul Islam Tamiti, Sajid Fardin Dipto, Luke Benjamin Baja-Ricketts, David C Vergano, Anomadarshi Barua2026-03-10💻 cs

Autonomous Vision-Aided UAV Positioning for Obstacle-Aware Wireless Connectivity

Questo articolo presenta VTOPA, un algoritmo di posizionamento autonomo per UAV che utilizza la visione artificiale per mappare ostacoli e utenti, ottimizzando dinamicamente la posizione dei droni per massimizzare la connettività in linea di vista e le prestazioni di rete in ambienti urbani complessi.

Kamran Shafafi, Manuel Ricardo, Rui Campos2026-03-10💻 cs

LD-RPS: Zero-Shot Unified Image Restoration via Latent Diffusion Recurrent Posterior Sampling

Il paper presenta LD-RPS, un metodo zero-shot e unificato per il ripristino delle immagini che utilizza il campionamento ricorsivo del posteriore su un modello di diffusione latente pre-addestrato, integrato con un modello di comprensione multimodale per fornire priori semantici e un modulo leggero per l'allineamento, superando così i limiti dei metodi esistenti senza richiedere dataset di addestramento.

Huaqiu Li, Yong Wang, Tongwen Huang, Hailang Huang, Haoqian Wang, Xiangxiang Chu2026-03-10💻 cs

Query-Based Adaptive Aggregation for Multi-Dataset Joint Training Toward Universal Visual Place Recognition

Il paper propone QAA, un metodo di aggregazione adattiva basato su query che migliora la generalizzazione del Riconoscimento Visivo dei Luoghi (VPR) attraverso l'addestramento congiunto su più dataset, superando i limiti dei modelli attuali senza aumentare significativamente la complessità computazionale.

Jiuhong Xiao, Yang Zhou, Giuseppe Loianno2026-03-10💻 cs

Hybrid Diffusion Policies with Projective Geometric Algebra for Efficient Robot Manipulation Learning

Il paper presenta hPGA-DP, una nuova politica di diffusione ibrida che integra l'Algebra Geometrica Proiettiva (PGA) nell'architettura di rete per migliorare l'efficienza dell'apprendimento e le prestazioni nella manipolazione robotica riducendo la ridondanza nel riapprendimento dei concetti spaziali fondamentali.

Xiatao Sun, Yuxuan Wang, Shuo Yang, Yinxing Chen, Daniel Rakita2026-03-10💻 cs

A Robust Incomplete Multimodal Low-Rank Adaptation Approach for Emotion Recognition

Il paper propone MCULoRA, un nuovo framework basato su un adattamento a basso rango decoupled e dinamico che risolve i conflitti di gradiente nell'addestramento di modelli per il riconoscimento delle emozioni con modalità incomplete, ottenendo prestazioni superiori rispetto agli approcci esistenti.

Xinkui Zhao, Jinsong Shu, Yangyang Wu, Guanjie Cheng, Zihe Liu, Naibo Wang, Shuiguang Deng, Zhongle Xie, Jianwei Yin2026-03-10💻 cs

Unified Medical Image Segmentation with State Space Modeling Snake

Il paper presenta Mamba Snake, un nuovo framework di deep snake basato sulla modellazione degli spazi di stato che risolve le sfide dell'segmentazione medica unificata modellando le relazioni topologiche inter-organo e affinando i contorni microscopici, ottenendo prestazioni superiori rispetto agli stati dell'arte su cinque dataset clinici.

Ruicheng Zhang, Haowei Guo, Kanghui Tian, Jun Zhou, Mingliang Yan, Zeyu Zhang, Shen Zhao2026-03-10💻 cs

$\pi^3$ : Permutation-Equivariant Visual Geometry Learning

Il paper introduce $\pi^3$ , una rete neurale feed-forward permutazionalmente equivariante che supera i limiti dei metodi basati su una vista di riferimento fissa, ottenendo prestazioni all'avanguardia nella ricostruzione geometrica visiva, nella stima della posa della camera e nella profondità senza bisogno di frame di riferimento.

Yifan Wang, Jianjun Zhou, Haoyi Zhu, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Jiangmiao Pang, Chunhua Shen, Tong He2026-03-10💻 cs

Post-Disaster Affected Area Segmentation with a Vision Transformer (ViT)-based EVAP Model using Sentinel-2 and Formosat-5 Imagery

Questo studio propone un framework di deep learning basato su Vision Transformer (ViT) che, utilizzando immagini Sentinel-2 e Formosat-5 e un approccio di apprendimento semi-supervisionato per espandere le annotazioni manuali, migliora la segmentazione delle aree colpite da disastri naturali, ottimizzando così il prodotto EVAP dell'Agenzia Spaziale Taiwanese (TASA).

Yi-Shan Chu, Hsuan-Cheng Wei2026-03-10💻 cs

Auto-scaling Approaches for Microservice Applications: A Survey and Taxonomy

Questo articolo presenta un'analisi e una tassonomia degli approcci di auto-scaling per le applicazioni microservizi sviluppati dal 2018, classificandoli secondo cinque dimensioni chiave per ottimizzare l'efficienza delle risorse, ridurre i costi e garantire il rispetto degli accordi sul livello di servizio (SLA).

Minxian Xu, Junhan Liao, Linfeng Wen, Huaming Wu, Kejiang Ye, Rajkumar Buyya, Chengzhong Xu2026-03-10💻 cs

BrownoutServe: SLO-Aware Inference Serving under Bursty Workloads for MoE-based LLMs

Il documento presenta BrownoutServe, un nuovo framework di serving per modelli LLM basati su architetture Mixture-of-Experts che, attraverso l'introduzione di "united experts" e un meccanismo di brownout dinamico, ottimizza l'efficienza dell'inferenza e garantisce il rispetto degli obiettivi di servizio (SLO) durante picchi di traffico, riducendo significativamente le violazioni degli SLO e migliorando il throughput rispetto a soluzioni esistenti come vLLM.

Jianmin Hu, Minxian Xu, Kejiang Ye + 1 more2026-03-10💻 cs

C-Koordinator: Interference-aware Management for Large-scale and Co-located Microservice Clusters

Questo articolo presenta C-Koordinator, una soluzione open-source adottata da Alibaba per la gestione di cluster di microservizi su larga scala e co-locati, che utilizza modelli di previsione dell'interferenza basati sul CPI per mitigare le competizioni per le risorse e ridurre significativamente la latenza delle applicazioni.

Shengye Song, Minxian Xu, Zuowei Zhang + 5 more2026-03-10💻 cs

They See Me Rolling: High-Speed Event Vision-Based Tactile Roller Sensor for Large Surface Inspection

Il paper presenta un innovativo sensore tattile basato su visione a roller che integra una camera neuromorfica per l'ispezione ad alta velocità e risoluzione di grandi superfici industriali, ottenendo una ricostruzione 3D precisa fino a 0,5 m/s e superando significativamente le prestazioni dei metodi continui precedenti.

Akram Khairi, Hussain Sajwani, Abdallah Mohammad Alkilany, Laith AbuAssi, Mohamad Halwani, Islam Mohamed Zaid, Ahmed Awadalla, Dewald Swart, Abdulla Ayyad, Yahya Zweiri2026-03-10💻 cs

Dynamic Symbolic Execution for Semantic Difference Analysis of Component and Connector Architectures

Questo articolo propone l'applicazione dell'esecuzione simbolica dinamica per analizzare le differenze semantiche nelle architetture a componenti e connettori basate su MontiArc, evidenziando il suo potenziale nel tracciare il comportamento del sistema pur riconoscendo le attuali limitazioni di scalabilità.

Johanna Grahl, Bernhard Rumpe, Max Stachon, Sebastian Stüber2026-03-10💻 cs

Empowering Microscopic Traffic Simulators with Realistic Perception using Surrogate Sensor Models

Il paper presenta MIDAR, un modello surrogato per la rilevazione LiDAR che utilizza un Graph Transformer geometrico per generare percezioni realistiche nei simulatori di traffico microscopico, colmando il divario tra scalabilità computazionale e fedeltà della simulazione per le applicazioni di sistemi di trasporto intelligenti.

Tianheng Zhu, Yiheng Feng2026-03-10💻 cs

TransUNet-GradCAM: A Hybrid Transformer-U-Net with Self-Attention and Explainable Visualizations for Foot Ulcer Segmentation

Questo studio presenta TransUNet-GradCAM, un modello ibrido Transformer-U-Net che combina meccanismi di attenzione globale e locali per ottenere un'accurata segmentazione e visualizzazione spiegabile delle ulcere diabetiche del piede, dimostrando elevate prestazioni e robusta trasferibilità su dataset clinici esterni senza necessità di riaddestramento.

Akwasi Asare, Mary Sagoe, Justice Williams Asare, Stephen Edward Moore2026-03-10💻 cs

S $^2$ Q-VDiT: Accurate Quantized Video Diffusion Transformer with Salient Data and Sparse Token Distillation

Il paper presenta S²Q-VDiT, un framework di quantizzazione post-addestramento per trasformatori di diffusione video che combina la selezione di dati salienti basata sull'elmo Hessiano e la distillazione di token sparsi guidata dall'attenzione per ottenere prestazioni senza perdite, una compressione del modello di 3,9 volte e un'accelerazione dell'inferenza di 1,3 volte.

Weilun Feng, Haotong Qin, Chuanguang Yang, Xiangqi Li, Han Yang, Yuqi Li, Zhulin An, Libo Huang, Michele Magno, Yongjun Xu2026-03-10💻 cs

← Precedente Successivo →

cs