Flash-KMeans: Fast and Memory-Efficient Exact K-Means

Il paper presenta Flash-KMeans, un'implementazione GPU ottimizzata che supera i colli di bottiglia di I/O e di contenzione delle versioni esistenti tramite le innovazioni FlashAssign e sort-inverse update, ottenendo speedup fino a 17,9 volte rispetto ai migliori baseline e fino a 200 volte rispetto alle librerie industriali come FAISS.

Shuo Yang, Haocheng Xi, Yilong Zhao, Muyang Li, Xiaoze Fan, Jintao Zhang, Han Cai, Yujun Lin, Xiuyu Li, Kurt Keutzer, Song Han, Chenfeng Xu, Ion StoicaWed, 11 Ma💻 cs

When Detectors Forget Forensics: Blocking Semantic Shortcuts for Generalizable AI-Generated Image Detection

Il paper propone il modulo Geometric Semantic Decoupling (GSD), una soluzione priva di parametri che migliora la generalizzabilità dei rilevatori di immagini generati dall'IA disaccoppiando le rappresentazioni semantiche dai tracciati forensi, superando così il problema del "semantic fallback" e ottenendo prestazioni superiori nelle valutazioni cross-dataset.

Chao Shuai, Zhenguang Liu, Shaojing Fan, Bin Gong, Weichen Lian, Xiuli Bi, Zhongjie Ba, Kui RenWed, 11 Ma💻 cs

Towards Instance Segmentation with Polygon Detection Transformers

Il paper presenta Poly-DETR, un modello Transformer che riformula la segmentazione di istanze come regressione sparsa di vertici tramite una rappresentazione polare, superando i limiti delle predizioni dense di pixel per ottenere prestazioni superiori e un minore consumo di memoria, specialmente in scenari ad alta risoluzione e su oggetti di forma regolare.

Jiacheng Sun, Jiaqi Lin, Wenlong Hu, Haoyang Li, Xinghong Zhou, Chenghai Mao, Yan Peng, Xiaomao LiWed, 11 Ma💻 cs

Reasoning-Oriented Programming: Chaining Semantic Gadgets to Jailbreak Large Vision Language Models

Il paper introduce "Reasoning-Oriented Programming", un nuovo paradigma di attacco che sfrutta la capacità di ragionamento composizionale dei modelli visione-linguaggio per aggirare le allineamenti di sicurezza concatenando input benigni e ortogonali, superando così le difese esistenti su modelli sia open-source che commerciali.

Quanchen Zou, Moyang Chen, Zonghao Ying, Wenzhuo Xu, Yisong Xiao, Deyue Zhang, Dongdong Yang, Zhao Liu, Xiangzheng ZhangWed, 11 Ma💻 cs

Evoking User Memory: Personalizing LLM via Recollection-Familiarity Adaptive Retrieval

Il paper propone RF-Mem, un sistema di recupero della memoria per LLM personalizzati che, ispirandosi al processo duale umano di familiarità e rievocazione, adatta dinamicamente la strategia di ricerca per migliorare precisione e scalabilità superando i limiti dei metodi tradizionali.

Yingyi Zhang, Junyi Li, Wenlin Zhang, Penyue Jia, Xianneng Li, Yichao Wang, Derong Xu, Yi Wen, Huifeng Guo, Yong Liu, Xiangyu ZhaoWed, 11 Ma💻 cs

Platooning as a Service (PlaaS): A Sustainable Transportation Framework for Connected and Autonomous Vehicles

Questo articolo presenta "Platooning as a Service" (PlaaS), un framework decisionale basato su un gioco di Stackelberg che ottimizza la tariffazione e l'adesione al convoglio per veicoli autonomi connessi, dimostrando come le politiche di prezzo e i sussidi governativi possano massimizzare i profitti del fornitore e ridurre le emissioni di CO₂, sebbene i benefici sul consumo di carburante siano ottimali solo a velocità moderate.

Bhosale Akshay Tanaji, Sayak Roychowdhury, Anand AbrahambWed, 11 Ma💻 cs

Implicit Geometry Representations for Vision-and-Language Navigation from Web Videos

Questo lavoro introduce un framework su larga scala per la navigazione visione-linguaggio che sfrutta video web e rappresentazioni geometriche implicite per superare i limiti dei simulatori, ottenendo prestazioni all'avanguardia e agenti di navigazione zero-shot più robusti.

Mingfei Han, Haihong Hao, Liang Ma, Kamila Zhumakhanova, Ekaterina Radionova, Jingyi Zhang, Xiaojun Chang, Xiaodan Liang, Ivan LaptevWed, 11 Ma💻 cs

From Perception to Cognition: How Latency Affects Interaction Fluency and Social Presence in VR Conferencing

Questo studio analizza l'impatto della latenza end-to-end sulla fluidità di interazione e sulla presenza sociale nelle conferenze in realtà virtuale attraverso esperimenti soggettivi che confrontano questi sistemi con la videoconferenza tradizionale, fornendo indicazioni per ottimizzare l'esperienza utente negli ambienti virtuali immersivi.

Jiarun Song, Ninghao Wan, FuZheng Yang, Weisi LinWed, 11 Ma💻 cs

On the Online Weighted Non-Crossing Matching Problem

Questo articolo studia il problema online del matching non incrociato pesato nel piano euclideo, dimostrando l'impossibilità di algoritmi deterministici con rapporto competitivo non banale, ma proponendo invece algoritmi randomizzati a rapporto costante, analizzando varianti come la revocabilità e i punti collineari, e migliorando i limiti sulla complessità degli consigli per l'ottimalità.

Joan Boyar, Shahin Kamali, Kim S. Larsen, Ali Fata Lavasani, Yaqiao Li, Denis PankratovWed, 11 Ma💻 cs

Entangling Like Mycorrhizae: Mixing Realities Through Touch in "FungiSync"

Il paper presenta "FungiSync", un'esperienza di realtà mista collaborativa che traduce l'interdipendenza delle reti micorriziche in un rituale partecipativo in cui il contatto fisico tra i partecipanti fa fondere i loro ambienti digitali individuali, invitando a un'epistemologia fungina basata sulla simbiosi come critica all'individualismo accelerato.

Botao Amber Hu, Danlin Huang, Yilan Elan Tao, Xiaobo Aaron Hu, Rem RunGu LinWed, 11 Ma💻 cs

From Ideal to Real: Stable Video Object Removal under Imperfect Conditions

Il paper presenta SVOR, un framework robusto che supera le limitazioni delle condizioni reali nella rimozione di oggetti dai video grazie a tre innovazioni chiave (MUSE, DA-Seg e un training curricolare su due stadi), ottenendo risultati all'avanguardia nella stabilità temporale e nella gestione di ombre, movimenti bruschi e maschere difettose.

Jiagao Hu, Yuxuan Chen, Fuhao Li, Zepeng Wang, Fei Wang, Daiguo Zhou, Jian LuanWed, 11 Ma💻 cs