Flash-KMeans: Fast and Memory-Efficient Exact K-Means

El artículo presenta Flash-KMeans, una implementación optimizada para GPU que supera los cuellos de botella de E/S y contención de memoria mediante innovaciones como FlashAssign y sort-inverse update, logrando aceleraciones de hasta 17,9 veces respecto a las mejores soluciones existentes y habilitando el uso de k-means en sistemas en línea.

Shuo Yang, Haocheng Xi, Yilong Zhao, Muyang Li, Xiaoze Fan, Jintao Zhang, Han Cai, Yujun Lin, Xiuyu Li, Kurt Keutzer, Song Han, Chenfeng Xu, Ion StoicaWed, 11 Ma💻 cs

MO-Playground: Massively Parallelized Multi-Objective Reinforcement Learning for Robotics

Este artículo presenta MORLAX y MO-Playground, un algoritmo de aprendizaje por refuerzo multiobjetivo nativo de GPU y un entorno de simulación acelerado que permiten aproximar conjuntos de Pareto en minutos con una aceleración de 25 a 270 veces respecto a los enfoques tradicionales basados en CPU, facilitando así la resolución de problemas complejos de robótica multiobjetivo como la locomoción de un robot humanoide.

Neil Janwani, Ellen Novoseller, Vernon J. Lawhern, Maegan TuckerWed, 11 Ma💻 cs

When Detectors Forget Forensics: Blocking Semantic Shortcuts for Generalizable AI-Generated Image Detection

Este artículo presenta Geometric Semantic Decoupling (GSD), un módulo sin parámetros que mejora la generalización de los detectores de imágenes generadas por IA al eliminar las dependencias de priores semánticos dominantes y forzar al modelo a centrarse en evidencia forense invariante.

Chao Shuai, Zhenguang Liu, Shaojing Fan, Bin Gong, Weichen Lian, Xiuli Bi, Zhongjie Ba, Kui RenWed, 11 Ma💻 cs

Towards Instance Segmentation with Polygon Detection Transformers

El artículo presenta Poly-DETR, un transformador de detección de polígonos que reformula la segmentación de instancias mediante regresión de vértices en representación polar para resolver el conflicto entre entradas de alta resolución y la inferencia en tiempo real, logrando mejoras significativas en precisión y eficiencia en comparación con los métodos basados en máscaras.

Jiacheng Sun, Jiaqi Lin, Wenlong Hu, Haoyang Li, Xinghong Zhou, Chenghai Mao, Yan Peng, Xiaomao LiWed, 11 Ma💻 cs

Reasoning-Oriented Programming: Chaining Semantic Gadgets to Jailbreak Large Vision Language Models

Este artículo presenta \tool{}, un marco automatizado que explota la capacidad de razonamiento composicional de los Modelos de Lenguaje y Visión Grandes (LVLM) mediante la "Programación Orientada al Razonamiento", una técnica análoga a la Programación Orientada a Retornos (ROP) que encadena "gadgets" semánticos benignos para evadir las alineaciones de seguridad y generar lógica dañina.

Quanchen Zou, Moyang Chen, Zonghao Ying, Wenzhuo Xu, Yisong Xiao, Deyue Zhang, Dongdong Yang, Zhao Liu, Xiangzheng ZhangWed, 11 Ma💻 cs

Evoking User Memory: Personalizing LLM via Recollection-Familiarity Adaptive Retrieval

El artículo presenta RF-Mem, un recuperador de memoria dual que imita los procesos cognitivos humanos de familiaridad y recuerdo para personalizar de manera escalable y eficiente los modelos de lenguaje grandes, superando las limitaciones de los métodos de recuperación actuales.

Yingyi Zhang, Junyi Li, Wenlin Zhang, Penyue Jia, Xianneng Li, Yichao Wang, Derong Xu, Yi Wen, Huifeng Guo, Yong Liu, Xiangyu ZhaoWed, 11 Ma💻 cs

Platooning as a Service (PlaaS): A Sustainable Transportation Framework for Connected and Autonomous Vehicles

Este artículo presenta "Platooning as a Service" (PlaaS), un marco de soporte a la decisión basado en un juego de Stackelberg que optimiza la contratación de servicios de convoyes para vehículos autónomos conectados, determinando las políticas de precios y distancias óptimas para maximizar beneficios y reducir emisiones, mientras analiza el impacto de subvenciones gubernamentales y variables operativas como la velocidad y la urgencia.

Bhosale Akshay Tanaji, Sayak Roychowdhury, Anand AbrahambWed, 11 Ma💻 cs

Multimodal Graph Representation Learning with Dynamic Information Pathways

El artículo presenta DiP, un nuevo marco de aprendizaje de representaciones para grafos multimodales que utiliza nodos pseudo específicos de cada modalidad y rutas de información dinámicas para lograr una propagación de mensajes adaptativa, expresiva y eficiente con complejidad lineal, superando consistentemente a los métodos existentes en diversas tareas y benchmarks.

Xiaobin Hong, Mingkai Lin, Xiaoli Wang, Chaoqun Wang, Wenzhong LiWed, 11 Ma💻 cs

Implicit Geometry Representations for Vision-and-Language Navigation from Web Videos

Este trabajo introduce un marco de navegación visión-lenguaje a gran escala derivado de videos web que, mediante representaciones geométricas implícitas para extraer información espacial directamente de imágenes RGB sin reconstrucción 3D, supera las limitaciones de los datos simulados y establece nuevos récords de rendimiento en múltiples benchmarks.

Mingfei Han, Haihong Hao, Liang Ma, Kamila Zhumakhanova, Ekaterina Radionova, Jingyi Zhang, Xiaojun Chang, Xiaodan Liang, Ivan LaptevWed, 11 Ma💻 cs

On the Online Weighted Non-Crossing Matching Problem

Este artículo estudia el problema de emparejamiento no cruzado ponderado en línea en el plano euclidiano, demostrando que aunque los algoritmos deterministas no logran una razón competitiva no trivial, es posible alcanzar una razón constante mediante aleatorización, además de analizar variantes con revocabilidad, puntos colineales y complejidad de asesoramiento.

Joan Boyar, Shahin Kamali, Kim S. Larsen, Ali Fata Lavasani, Yaqiao Li, Denis PankratovWed, 11 Ma💻 cs

ForgeDreamer: Industrial Text-to-3D Generation with Multi-Expert LoRA and Cross-View Hypergraph

El artículo presenta ForgeDreamer, un marco innovador para la generación industrial de texto a 3D que supera las limitaciones actuales mediante un mecanismo de ensamblaje LoRA multiexperto para evitar interferencias de conocimiento y una mejora geométrica basada en hipergrafos de vistas cruzadas para garantizar consistencia estructural de nivel de fabricación.

Junhao Cai, Deyu Zeng, Junhao Pang, Lini Li, Zongze Wu, Xiaopin ZhongWed, 11 Ma💻 cs

Entangling Like Mycorrhizae: Mixing Realities Through Touch in "FungiSync"

El artículo presenta *FungiSync*, una experiencia de realidad mixta que traduce la interdependencia de las redes micorrícicas en un ritual participativo donde el contacto físico entre usuarios entrelaza sus percepciones digitales individuales, fomentando una epistemología fúngica que cuestiona el individualismo acelerado de la era posthumana.

Botao Amber Hu, Danlin Huang, Yilan Elan Tao, Xiaobo Aaron Hu, Rem RunGu LinWed, 11 Ma💻 cs

From Ideal to Real: Stable Video Object Removal under Imperfect Conditions

El artículo presenta SVOR, un marco robusto que logra la eliminación estable de objetos en videos bajo condiciones imperfectas mediante tres diseños clave: MUSE para el manejo de movimientos abruptos, DA-Seg para la localización consciente del desruido y un entrenamiento curricular en dos etapas, superando así los límites de los modelos existentes y alcanzando resultados de vanguardia en escenarios del mundo real.

Jiagao Hu, Yuxuan Chen, Fuhao Li, Zepeng Wang, Fei Wang, Daiguo Zhou, Jian LuanWed, 11 Ma💻 cs