Point Cloud as a Foreign Language for Multi-modal Large Language Model

Il paper presenta SAGE, il primo modello linguistico grande multimodale end-to-end che elabora direttamente nuvole di punti grezze trattandole come un "linguaggio straniero" tramite un tokenizzatore 3D leggero e una strategia di ottimizzazione delle preferenze, superando i metodi basati su encoder pre-addestrati in termini di efficienza computazionale, allineamento semantico e robustezza.

Sneha Paul, Zachary Patterson, Nizar Bouguila2026-03-11💻 cs

STONE Dataset: A Scalable Multi-Modal Surround-View 3D Traversability Dataset for Off-Road Robot Navigation

Il paper presenta STONE, un dataset multi-modale su larga scala per la navigazione robotica off-road che offre mappe di traversabilità 3D generate automaticamente e dati sensoriali sincronizzati (LiDAR, telecamere e radar) per abilitare la previsione di terreni percorribili senza annotazione manuale.

Konyul Park, Daehun Kim, Jiyong Oh, Seunghoon Yu, Junseo Park, Jaehyun Park, Hongjae Shin, Hyungchan Cho, Jungho Kim, Jun Won Choi2026-03-11💻 cs

Evaluating the Practical Effectiveness of LLM-Driven Index Tuning with Microsoft Database Tuning Advisor

Questo studio valuta l'efficacia pratica del tuning degli indici guidato dai LLM confrontandolo con il Database Tuning Advisor (DTA) di Microsoft, rivelando che, sebbene i LLM possano identificare configurazioni superiori in alcuni casi grazie a intuizioni umane, la loro adozione in produzione è attualmente limitata da una significativa variabilità delle prestazioni e da costi di validazione elevati.

Xiaoying Wang, Wentao Wu, Vivek Narasayya, Surajit Chaudhuri2026-03-11💻 cs

Robust Spatiotemporal Motion Planning for Multi-Agent Autonomous Racing via Topological Gap Identification and Accelerated MPC

Questo articolo presenta un framework innovativo per la pianificazione del movimento in gare autonome multi-agente ad alta velocità, che combina l'identificazione topologica dei varchi tramite processi gaussiani spaziotemporali e un MPC accelerato per garantire manovre di sorpasso robuste, sicure e computazionalmente efficienti.

Mingyi Zhang, Cheng Hu, Yiqin Wang, Haotong Qin, Hongye Su, Lei Xie2026-03-11💻 cs

Hierarchical Observe-Orient-Decide-Act Enabled UAV Swarms in Uncertain Environments: Frameworks, Potentials, and Challenges

Questo articolo propone un framework gerarchico basato sul ciclo OODA (Osserva-Orienta-Decidi-Agisci) distribuito su livelli cloud-edge-terminal e potenziato dalla virtualizzazione delle funzioni di rete, per migliorare l'adattabilità, l'efficienza e il processo decisionale cooperativo degli sciami di droni in ambienti incerti.

Ziye Jia, Yao Wu, Qihui Wu, Lijun He, Qiuming Zhu, Fuhui Zhou, Zhu Han2026-03-11💻 cs

WESPR: Wind-adaptive Energy-Efficient Safe Perception & Planning for Robust Flight with Quadrotors

Il paper presenta WESPR, un framework rapido che integra percezione geometrica e dati meteorologici per prevedere i campi di vento locali e adattare proattivamente la pianificazione e il controllo dei droni, migliorando significativamente stabilità e precisione di volo in ambienti turbolenti.

Khuzema Habib, Pranav Deshakulkarni Manjunath, Kasra Torshizi, Troi Williams, Pratap Tokekar2026-03-11💻 cs

Geometry-Aware Metric Learning for Cross-Lingual Few-Shot Sign Language Recognition on Static Hand Keypoints

Questo articolo propone un framework di apprendimento metrico basato su descrittori geometrici invarianti (angoli inter-articolari) derivati da punti chiave statici delle mani, che supera i limiti delle rappresentazioni coordinate tradizionali consentendo un trasferimento cross-linguistico efficace nel riconoscimento della lingua dei segni con pochi esempi.

Chayanin Chamachot, Kanokphan Lertniponphan2026-03-11💻 cs

PIM-SHERPA: Software Method for On-device LLM Inference by Resolving PIM Memory Attribute and Layout Inconsistencies

Il paper introduce PIM-SHERPA, un metodo software che risolve le inconsistenze negli attributi e nel layout della memoria per abilitare un'efficiente inferenza di modelli linguistici di grandi dimensioni (LLM) su dispositivi edge tramite Processing-in-Memory (PIM), ottenendo risparmi significativi nella capacità di memoria senza compromettere le prestazioni.

Sunjung Lee, Sanghoon Cha, Hyeonsu Kim, Seungwoo Seo, Yuhwan Ro, Sukhan Lee, Byeongho Kim, Yongjun Park, Kyomin Sohn, Seungwon Lee, Jaehoon Yu2026-03-11💻 cs

TubeMLLM: A Foundation Model for Topology Knowledge Exploration in Vessel-like Anatomy

Il paper presenta TubeMLLM, un modello fondazionale multimodale che integra conoscenze topologiche tramite prompt testuali e un'architettura condivisa per migliorare la percezione e la generazione coerente di anatomie vascolari, superando gli attuali limiti di consistenza topologica e dimostrando prestazioni all'avanguardia in compiti zero-shot su diverse modalità di imaging medico.

Yaoyu Liu, Minghui Zhang, Xin You, Hanxiao Zhang, Yun Gu2026-03-11💻 cs

Distributed Convolutional Neural Networks for Object Recognition

Questo articolo propone una nuova funzione di perdita per le reti neurali convoluzionali distribuite (DisCNN) che, mappando i campioni positivi in uno spazio compatto e quelli negativi nell'origine, estrae esclusivamente le caratteristiche della classe positiva, garantendo un'architettura leggera, un'eccellente generalizzazione su dati non visti e una rilevazione efficace degli oggetti in contesti complessi.

Liang Sun2026-03-11💻 cs

Flash-KMeans: Fast and Memory-Efficient Exact K-Means

Il paper presenta Flash-KMeans, un'implementazione GPU ottimizzata che supera i colli di bottiglia di I/O e di contenzione delle versioni esistenti tramite le innovazioni FlashAssign e sort-inverse update, ottenendo speedup fino a 17,9 volte rispetto ai migliori baseline e fino a 200 volte rispetto alle librerie industriali come FAISS.

Shuo Yang, Haocheng Xi, Yilong Zhao, Muyang Li, Xiaoze Fan, Jintao Zhang, Han Cai, Yujun Lin, Xiuyu Li, Kurt Keutzer, Song Han, Chenfeng Xu, Ion Stoica2026-03-11💻 cs

When Detectors Forget Forensics: Blocking Semantic Shortcuts for Generalizable AI-Generated Image Detection

Il paper propone il modulo Geometric Semantic Decoupling (GSD), una soluzione priva di parametri che migliora la generalizzabilità dei rilevatori di immagini generati dall'IA disaccoppiando le rappresentazioni semantiche dai tracciati forensi, superando così il problema del "semantic fallback" e ottenendo prestazioni superiori nelle valutazioni cross-dataset.

Chao Shuai, Zhenguang Liu, Shaojing Fan, Bin Gong, Weichen Lian, Xiuli Bi, Zhongjie Ba, Kui Ren2026-03-11💻 cs