cs articoli | Gist.Science

Hierarchical Observe-Orient-Decide-Act Enabled UAV Swarms in Uncertain Environments: Frameworks, Potentials, and Challenges

Questo articolo propone un framework gerarchico basato sul ciclo OODA (Osserva-Orienta-Decidi-Agisci) distribuito su livelli cloud-edge-terminal e potenziato dalla virtualizzazione delle funzioni di rete, per migliorare l'adattabilità, l'efficienza e il processo decisionale cooperativo degli sciami di droni in ambienti incerti.

Ziye Jia, Yao Wu, Qihui Wu, Lijun He, Qiuming Zhu, Fuhui Zhou, Zhu Han2026-03-11💻 cs

WESPR: Wind-adaptive Energy-Efficient Safe Perception & Planning for Robust Flight with Quadrotors

Il paper presenta WESPR, un framework rapido che integra percezione geometrica e dati meteorologici per prevedere i campi di vento locali e adattare proattivamente la pianificazione e il controllo dei droni, migliorando significativamente stabilità e precisione di volo in ambienti turbolenti.

Khuzema Habib, Pranav Deshakulkarni Manjunath, Kasra Torshizi, Troi Williams, Pratap Tokekar2026-03-11💻 cs

Geometry-Aware Metric Learning for Cross-Lingual Few-Shot Sign Language Recognition on Static Hand Keypoints

Questo articolo propone un framework di apprendimento metrico basato su descrittori geometrici invarianti (angoli inter-articolari) derivati da punti chiave statici delle mani, che supera i limiti delle rappresentazioni coordinate tradizionali consentendo un trasferimento cross-linguistico efficace nel riconoscimento della lingua dei segni con pochi esempi.

Chayanin Chamachot, Kanokphan Lertniponphan2026-03-11💻 cs

PIM-SHERPA: Software Method for On-device LLM Inference by Resolving PIM Memory Attribute and Layout Inconsistencies

Il paper introduce PIM-SHERPA, un metodo software che risolve le inconsistenze negli attributi e nel layout della memoria per abilitare un'efficiente inferenza di modelli linguistici di grandi dimensioni (LLM) su dispositivi edge tramite Processing-in-Memory (PIM), ottenendo risparmi significativi nella capacità di memoria senza compromettere le prestazioni.

Sunjung Lee, Sanghoon Cha, Hyeonsu Kim, Seungwoo Seo, Yuhwan Ro, Sukhan Lee, Byeongho Kim, Yongjun Park, Kyomin Sohn, Seungwon Lee, Jaehoon Yu2026-03-11💻 cs

TubeMLLM: A Foundation Model for Topology Knowledge Exploration in Vessel-like Anatomy

Il paper presenta TubeMLLM, un modello fondazionale multimodale che integra conoscenze topologiche tramite prompt testuali e un'architettura condivisa per migliorare la percezione e la generazione coerente di anatomie vascolari, superando gli attuali limiti di consistenza topologica e dimostrando prestazioni all'avanguardia in compiti zero-shot su diverse modalità di imaging medico.

Yaoyu Liu, Minghui Zhang, Xin You, Hanxiao Zhang, Yun Gu2026-03-11💻 cs

Distributed Convolutional Neural Networks for Object Recognition

Questo articolo propone una nuova funzione di perdita per le reti neurali convoluzionali distribuite (DisCNN) che, mappando i campioni positivi in uno spazio compatto e quelli negativi nell'origine, estrae esclusivamente le caratteristiche della classe positiva, garantendo un'architettura leggera, un'eccellente generalizzazione su dati non visti e una rilevazione efficace degli oggetti in contesti complessi.

Liang Sun2026-03-11💻 cs

UniField: A Unified Field-Aware MRI Enhancement Framework

Il paper presenta UniField, un framework unificato per il potenziamento delle immagini MRI che sfrutta modelli fondazionali 3D e un meccanismo di rettifica spettrale consapevole del campo magnetico per superare i limiti di generalizzazione e scarsità dei dati, supportato dal rilascio di un nuovo dataset multi-campo su larga scala.

Yiyang Lin, Chenhui Wang, Zhihao Peng, Yixuan Yuan2026-03-11💻 cs

TRIP-Bag: A Portable Teleoperation System for Plug-and-Play Robotic Arms and Leaders

Il paper presenta TRIP-Bag, un sistema di teleoperazione portatile e pronto all'uso contenuto in una valigiera commerciale che permette la raccolta rapida di dati ad alta fedeltà per l'apprendimento robotico, colmando il divario tra le piattaforme di raccolta e i robot target senza richiedere competenze tecniche avanzate.

Noboru Myers, Sankalp Yamsani, Obin Kwon, Joohyung Kim2026-03-11💻 cs

Flash-KMeans: Fast and Memory-Efficient Exact K-Means

Il paper presenta Flash-KMeans, un'implementazione GPU ottimizzata che supera i colli di bottiglia di I/O e di contenzione delle versioni esistenti tramite le innovazioni FlashAssign e sort-inverse update, ottenendo speedup fino a 17,9 volte rispetto ai migliori baseline e fino a 200 volte rispetto alle librerie industriali come FAISS.

Shuo Yang, Haocheng Xi, Yilong Zhao, Muyang Li, Xiaoze Fan, Jintao Zhang, Han Cai, Yujun Lin, Xiuyu Li, Kurt Keutzer, Song Han, Chenfeng Xu, Ion Stoica2026-03-11💻 cs

HelixTrack: Event-Based Tracking and RPM Estimation of Propeller-like Objects

Il paper presenta HelixTrack, un metodo basato su eventi che traccia oggetti simili a eliche e ne stima il regime di rotazione (RPM) con latenza microsecondica, superando i limiti dei metodi basati su fotogrammi e introducendo il nuovo dataset TQE per validare le prestazioni in scenari di movimento ego e distrattori.

Radim Spetlik, Michal Pliska, Vojtech Vrba, Jiri Matas2026-03-11💻 cs

MO-Playground: Massively Parallelized Multi-Objective Reinforcement Learning for Robotics

Il paper presenta MORLAX e MO-Playground, un nuovo algoritmo MORL nativo per GPU e un ambiente di gioco accelerato che sfruttano il parallelismo massivo per ridurre drasticamente i tempi di calcolo e migliorare le prestazioni nella risoluzione di complessi problemi robotici multi-obiettivo.

Neil Janwani, Ellen Novoseller, Vernon J. Lawhern, Maegan Tucker2026-03-11💻 cs

RAE-NWM: Navigation World Model in Dense Visual Representation Space

Il paper propone RAE-NWM, un modello di navigazione che opera nello spazio delle rappresentazioni visive dense di DINOv2 invece che in uno spazio latente compresso, utilizzando un Conditional Diffusion Transformer per migliorare la stabilità strutturale e la precisione delle azioni durante la pianificazione.

Mingkun Zhang, Wangtian Shen, Fan Zhang, Haijian Qin, Zihao Pei, Ziyang Meng2026-03-11💻 cs

When Detectors Forget Forensics: Blocking Semantic Shortcuts for Generalizable AI-Generated Image Detection

Il paper propone il modulo Geometric Semantic Decoupling (GSD), una soluzione priva di parametri che migliora la generalizzabilità dei rilevatori di immagini generati dall'IA disaccoppiando le rappresentazioni semantiche dai tracciati forensi, superando così il problema del "semantic fallback" e ottenendo prestazioni superiori nelle valutazioni cross-dataset.

Chao Shuai, Zhenguang Liu, Shaojing Fan, Bin Gong, Weichen Lian, Xiuli Bi, Zhongjie Ba, Kui Ren2026-03-11💻 cs

Towards Instance Segmentation with Polygon Detection Transformers

Il paper presenta Poly-DETR, un modello Transformer che riformula la segmentazione di istanze come regressione sparsa di vertici tramite una rappresentazione polare, superando i limiti delle predizioni dense di pixel per ottenere prestazioni superiori e un minore consumo di memoria, specialmente in scenari ad alta risoluzione e su oggetti di forma regolare.

Jiacheng Sun, Jiaqi Lin, Wenlong Hu, Haoyang Li, Xinghong Zhou, Chenghai Mao, Yan Peng, Xiaomao Li2026-03-11💻 cs

Reasoning-Oriented Programming: Chaining Semantic Gadgets to Jailbreak Large Vision Language Models

Il paper introduce "Reasoning-Oriented Programming", un nuovo paradigma di attacco che sfrutta la capacità di ragionamento composizionale dei modelli visione-linguaggio per aggirare le allineamenti di sicurezza concatenando input benigni e ortogonali, superando così le difese esistenti su modelli sia open-source che commerciali.

Quanchen Zou, Moyang Chen, Zonghao Ying, Wenzhuo Xu, Yisong Xiao, Deyue Zhang, Dongdong Yang, Zhao Liu, Xiangzheng Zhang2026-03-11💻 cs

Evoking User Memory: Personalizing LLM via Recollection-Familiarity Adaptive Retrieval

Il paper propone RF-Mem, un sistema di recupero della memoria per LLM personalizzati che, ispirandosi al processo duale umano di familiarità e rievocazione, adatta dinamicamente la strategia di ricerca per migliorare precisione e scalabilità superando i limiti dei metodi tradizionali.

Yingyi Zhang, Junyi Li, Wenlin Zhang, Penyue Jia, Xianneng Li, Yichao Wang, Derong Xu, Yi Wen, Huifeng Guo, Yong Liu, Xiangyu Zhao2026-03-11💻 cs

Platooning as a Service (PlaaS): A Sustainable Transportation Framework for Connected and Autonomous Vehicles

Questo articolo presenta "Platooning as a Service" (PlaaS), un framework decisionale basato su un gioco di Stackelberg che ottimizza la tariffazione e l'adesione al convoglio per veicoli autonomi connessi, dimostrando come le politiche di prezzo e i sussidi governativi possano massimizzare i profitti del fornitore e ridurre le emissioni di CO₂, sebbene i benefici sul consumo di carburante siano ottimali solo a velocità moderate.

Bhosale Akshay Tanaji, Sayak Roychowdhury, Anand Abrahamb2026-03-11💻 cs

Multimodal Graph Representation Learning with Dynamic Information Pathways

Il paper propone DiP, un nuovo framework di apprendimento rappresentazionale per grafi multimodali che utilizza nodi pseudo specifici per modalità e percorsi informativi dinamici per superare le limitazioni delle strutture statiche, garantendo una propagazione dei messaggi adattiva, espressiva ed efficiente.

Xiaobin Hong, Mingkai Lin, Xiaoli Wang, Chaoqun Wang, Wenzhong Li2026-03-11💻 cs

Implicit Geometry Representations for Vision-and-Language Navigation from Web Videos

Questo lavoro introduce un framework su larga scala per la navigazione visione-linguaggio che sfrutta video web e rappresentazioni geometriche implicite per superare i limiti dei simulatori, ottenendo prestazioni all'avanguardia e agenti di navigazione zero-shot più robusti.

Mingfei Han, Haihong Hao, Liang Ma, Kamila Zhumakhanova, Ekaterina Radionova, Jingyi Zhang, Xiaojun Chang, Xiaodan Liang, Ivan Laptev2026-03-11💻 cs

From Perception to Cognition: How Latency Affects Interaction Fluency and Social Presence in VR Conferencing

Questo studio analizza l'impatto della latenza end-to-end sulla fluidità di interazione e sulla presenza sociale nelle conferenze in realtà virtuale attraverso esperimenti soggettivi che confrontano questi sistemi con la videoconferenza tradizionale, fornendo indicazioni per ottimizzare l'esperienza utente negli ambienti virtuali immersivi.

Jiarun Song, Ninghao Wan, FuZheng Yang, Weisi Lin2026-03-11💻 cs

← Precedente Successivo →