Flash-KMeans: Fast and Memory-Efficient Exact K-Means

Ce papier présente Flash-KMeans, une implémentation GPU optimisée qui transforme l'algorithme K-Means en primitive en ligne en éliminant les goulots d'étranglement d'E/S et de contention matérielle grâce à des innovations de noyau comme FlashAssign et la mise à jour par inversion de tri, permettant ainsi des accélérations allant jusqu'à 17,9 fois par rapport aux meilleures solutions existantes.

Shuo Yang, Haocheng Xi, Yilong Zhao, Muyang Li, Xiaoze Fan, Jintao Zhang, Han Cai, Yujun Lin, Xiuyu Li, Kurt Keutzer, Song Han, Chenfeng Xu, Ion StoicaWed, 11 Ma💻 cs

MO-Playground: Massively Parallelized Multi-Objective Reinforcement Learning for Robotics

Ce papier présente MORLAX, un algorithme d'apprentissage par renforcement multi-objectif natif pour GPU, et MO-Playground, un environnement d'entraînement accéléré par GPU, qui permettent ensemble d'approximer des ensembles de Pareto pour des problèmes robotiques complexes avec une accélération de 25 à 270 fois par rapport aux approches CPU traditionnelles.

Neil Janwani, Ellen Novoseller, Vernon J. Lawhern, Maegan TuckerWed, 11 Ma💻 cs

RAE-NWM: Navigation World Model in Dense Visual Representation Space

Le papier propose RAE-NWM, un modèle de monde de navigation qui opère dans un espace de représentation visuelle dense (DINOv2) plutôt que dans un espace latent compressé, afin de préserver les informations structurelles fines et d'améliorer la précision du contrôle et de la planification grâce à l'utilisation d'un transformateur de diffusion conditionnel.

Mingkun Zhang, Wangtian Shen, Fan Zhang, Haijian Qin, Zihao Pei, Ziyang MengWed, 11 Ma💻 cs

When Detectors Forget Forensics: Blocking Semantic Shortcuts for Generalizable AI-Generated Image Detection

Ce papier propose le module Geometric Semantic Decoupling (GSD), une méthode sans paramètres qui améliore la généralisation des détecteurs d'images générées par IA en éliminant les raccourcis sémantiques pour forcer le modèle à se concentrer sur des preuves de falsification invariantes.

Chao Shuai, Zhenguang Liu, Shaojing Fan, Bin Gong, Weichen Lian, Xiuli Bi, Zhongjie Ba, Kui RenWed, 11 Ma💻 cs

Towards Instance Segmentation with Polygon Detection Transformers

Ce papier présente Poly-DETR, un transformateur de détection de polygones qui reformule la segmentation d'instances comme une régression de sommets via une représentation polaire pour résoudre le compromis entre haute résolution et inférence légère, surpassant les méthodes existantes en précision et en efficacité mémoire.

Jiacheng Sun, Jiaqi Lin, Wenlong Hu, Haoyang Li, Xinghong Zhou, Chenghai Mao, Yan Peng, Xiaomao LiWed, 11 Ma💻 cs

Reasoning-Oriented Programming: Chaining Semantic Gadgets to Jailbreak Large Vision Language Models

Cet article présente \tool{}, un cadre automatisé de « programmation orientée raisonnement » qui contourne les mécanismes de sécurité des modèles vision-langage en orchestrant des entrées visuelles bénignes et orthogonales pour générer une logique malveillante uniquement lors de l'étape de raisonnement tardif.

Quanchen Zou, Moyang Chen, Zonghao Ying, Wenzhuo Xu, Yisong Xiao, Deyue Zhang, Dongdong Yang, Zhao Liu, Xiangzheng ZhangWed, 11 Ma💻 cs

Platooning as a Service (PlaaS): A Sustainable Transportation Framework for Connected and Autonomous Vehicles

Cet article propose le cadre « Platooning as a Service » (PlaaS), modélisé comme un jeu de Stackelberg, pour optimiser la tarification et les contrats de services de pelotonnage de véhicules connectés et autonomes afin de réduire les émissions de carbone et d'améliorer l'efficacité du transport, tout en analysant l'impact des subventions gouvernementales et des paramètres opérationnels sur la durabilité.

Bhosale Akshay Tanaji, Sayak Roychowdhury, Anand AbrahambWed, 11 Ma💻 cs

Multimodal Graph Representation Learning with Dynamic Information Pathways

Ce papier propose DiP, un cadre novateur d'apprentissage de représentations pour les graphes multimodaux qui utilise des nœuds pseudo-spécifiques et des voies d'information dynamiques pour réaliser une propagation de messages adaptative, expressive et parcimonieuse avec une complexité linéaire, surpassant ainsi les méthodes existantes sur diverses tâches.

Xiaobin Hong, Mingkai Lin, Xiaoli Wang, Chaoqun Wang, Wenzhong LiWed, 11 Ma💻 cs

Implicit Geometry Representations for Vision-and-Language Navigation from Web Videos

Cet article propose un cadre d'apprentissage à grande échelle pour la navigation vision-langage, tirant parti de vidéos web et de représentations géométriques implicites extraites directement des images RGB pour surmonter les limites des simulateurs et atteindre des performances de pointe avec une généralisation zéro-shot.

Mingfei Han, Haihong Hao, Liang Ma, Kamila Zhumakhanova, Ekaterina Radionova, Jingyi Zhang, Xiaojun Chang, Xiaodan Liang, Ivan LaptevWed, 11 Ma💻 cs

On the Online Weighted Non-Crossing Matching Problem

Cet article étudie le problème de couplage non croisé pondéré en ligne dans le plan euclidien, démontrant l'impossibilité d'un rapport de compétitivité non trivial pour les algorithmes déterministes tout en établissant l'existence d'un rapport constant grâce à la randomisation, et en fournissant des bornes pour diverses variantes ainsi qu'une amélioration de la complexité en conseils nécessaire pour l'optimalité.

Joan Boyar, Shahin Kamali, Kim S. Larsen, Ali Fata Lavasani, Yaqiao Li, Denis PankratovWed, 11 Ma💻 cs

ForgeDreamer: Industrial Text-to-3D Generation with Multi-Expert LoRA and Cross-View Hypergraph

ForgeDreamer est un nouveau cadre de génération textuelle vers 3D conçu pour les applications industrielles qui surmonte les limites des méthodes actuelles grâce à un mécanisme d'ensemble LoRA multi-experts pour une généralisation inter-catégories et une approche d'amélioration géométrique par hypergraphe croisé pour assurer une cohérence structurelle de précision.

Junhao Cai, Deyu Zeng, Junhao Pang, Lini Li, Zongze Wu, Xiaopin ZhongWed, 11 Ma💻 cs

Entangling Like Mycorrhizae: Mixing Realities Through Touch in "FungiSync"

L'article présente « FungiSync », une expérience de réalité mixte collaborative qui traduit l'interdépendance des réseaux mycorhiziens en une ritualisation somatique où le toucher physique entre les participants fait fusionner leurs perceptions numériques distinctes, invitant ainsi à une épistémologie fongique fondée sur la symbiose et la relationnalité.

Botao Amber Hu, Danlin Huang, Yilan Elan Tao, Xiaobo Aaron Hu, Rem RunGu LinWed, 11 Ma💻 cs

Speeding Up the Learning of 3D Gaussians with Much Shorter Gaussian Lists

Cet article propose de nouvelles stratégies d'entraînement et des pertes pour accélérer l'apprentissage du splatting gaussien 3D en raccourcissant les listes de gaussiennes nécessaires au rendu, grâce à un rétrécissement régulier des échelles et une contrainte d'entropie, tout en intégrant un planificateur de résolution progressive pour améliorer l'efficacité sans sacrifier la qualité.

Jiaqi Liu, Zhizhong HanWed, 11 Ma💻 cs