Flash-KMeans: Fast and Memory-Efficient Exact K-Means

本文提出了 Flash-KMeans,一种专为现代 GPU 设计的 IO 感知且无争用的 K-Means 实现,通过引入 FlashAssign 和 sort-inverse update 等内核级创新,成功将 K-Means 从离线处理转变为高效的在线原语,在 NVIDIA H200 上实现了远超现有库(如 cuML 和 FAISS)的显著加速。

Shuo Yang, Haocheng Xi, Yilong Zhao, Muyang Li, Xiaoze Fan, Jintao Zhang, Han Cai, Yujun Lin, Xiuyu Li, Kurt Keutzer, Song Han, Chenfeng Xu, Ion StoicaWed, 11 Ma💻 cs

When Detectors Forget Forensics: Blocking Semantic Shortcuts for Generalizable AI-Generated Image Detection

该论文针对基于视觉基础模型的检测器在跨分布场景下因过度依赖语义先验(即“语义回退”)而泛化性不足的问题,提出了一种无需参数的几何语义解耦(GSD)模块,通过从表征中显式移除语义成分以迫使模型聚焦于伪造痕迹,从而显著提升了在未见生成管道及通用场景下的 AI 生成图像检测性能。

Chao Shuai, Zhenguang Liu, Shaojing Fan, Bin Gong, Weichen Lian, Xiuli Bi, Zhongjie Ba, Kui RenWed, 11 Ma💻 cs

Towards Instance Segmentation with Polygon Detection Transformers

该论文提出了将实例分割重构为稀疏顶点回归的 Polygon Detection Transformer (Poly-DETR),通过引入极坐标表示、极坐标可变形注意力及位置感知训练方案,在保持轻量级和高推理速度的同时显著提升了模型在高分辨率输入及特定领域规则形状实例上的分割性能。

Jiacheng Sun, Jiaqi Lin, Wenlong Hu, Haoyang Li, Xinghong Zhou, Chenghai Mao, Yan Peng, Xiaomao LiWed, 11 Ma💻 cs

Reasoning-Oriented Programming: Chaining Semantic Gadgets to Jailbreak Large Vision Language Models

该论文提出了名为"Reasoning-Oriented Programming"的新型攻击范式,通过构建框架\tool{}将语义正交的良性视觉组件编排为“语义小工具”,利用大视觉语言模型在后期推理阶段的逻辑合成漏洞来绕过感知层面的安全对齐,从而在多个基准测试中显著优于现有基线并成功诱导模型生成有害内容。

Quanchen Zou, Moyang Chen, Zonghao Ying, Wenzhuo Xu, Yisong Xiao, Deyue Zhang, Dongdong Yang, Zhao Liu, Xiangzheng ZhangWed, 11 Ma💻 cs

Evoking User Memory: Personalizing LLM via Recollection-Familiarity Adaptive Retrieval

本文提出了 RF-Mem,一种受人类记忆双过程(熟悉感与回忆)启发的自适应检索框架,通过根据熟悉度不确定性动态切换直接匹配与迭代重构路径,在有限预算下实现了比现有方法更精准、可扩展的个性化大语言模型记忆检索。

Yingyi Zhang, Junyi Li, Wenlin Zhang, Penyue Jia, Xianneng Li, Yichao Wang, Derong Xu, Yi Wen, Huifeng Guo, Yong Liu, Xiangyu ZhaoWed, 11 Ma💻 cs

Platooning as a Service (PlaaS): A Sustainable Transportation Framework for Connected and Autonomous Vehicles

本文提出了一种名为“车队即服务”(PlaaS)的决策支持框架,通过建立以车队服务提供商为领导者的斯塔克尔伯格博弈模型来优化定价与行驶距离决策,并分析了政府补贴及运营参数对平台利润与碳排放的影响,从而为自动驾驶车辆编队行驶促进可持续交通提供了理论依据与管理启示。

Bhosale Akshay Tanaji, Sayak Roychowdhury, Anand AbrahambWed, 11 Ma💻 cs

Implicit Geometry Representations for Vision-and-Language Navigation from Web Videos

该论文提出了一种利用网络视频和隐式几何表示的大规模视觉语言导航框架,通过从 RGB 帧直接提取空间线索来克服传统 3D 重建的局限性,从而在多个基准测试中实现了最先进的性能并推动了零样本导航的发展。

Mingfei Han, Haihong Hao, Liang Ma, Kamila Zhumakhanova, Ekaterina Radionova, Jingyi Zhang, Xiaojun Chang, Xiaodan Liang, Ivan LaptevWed, 11 Ma💻 cs

From Perception to Cognition: How Latency Affects Interaction Fluency and Social Presence in VR Conferencing

该论文通过对比虚拟现实(VR)与传统视频会议,利用主观实验分析了端到端延迟如何从感知层面的交互流畅性和认知层面的社会临场感两个维度影响用户体验,并揭示了两者在不同延迟条件下的内在关联机制,从而为优化沉浸式虚拟环境系统提供了指导。

Jiarun Song, Ninghao Wan, FuZheng Yang, Weisi LinWed, 11 Ma💻 cs