Towards Instance Segmentation with Polygon Detection Transformers

El artículo presenta Poly-DETR, un transformador de detección de polígonos que reformula la segmentación de instancias mediante regresión de vértices en representación polar para resolver el conflicto entre entradas de alta resolución y la inferencia en tiempo real, logrando mejoras significativas en precisión y eficiencia en comparación con los métodos basados en máscaras.

Jiacheng Sun, Jiaqi Lin, Wenlong Hu, Haoyang Li, Xinghong Zhou, Chenghai Mao, Yan Peng, Xiaomao Li2026-03-11💻 cs

Reasoning-Oriented Programming: Chaining Semantic Gadgets to Jailbreak Large Vision Language Models

Este artículo presenta \tool{}, un marco automatizado que explota la capacidad de razonamiento composicional de los Modelos de Lenguaje y Visión Grandes (LVLM) mediante la "Programación Orientada al Razonamiento", una técnica análoga a la Programación Orientada a Retornos (ROP) que encadena "gadgets" semánticos benignos para evadir las alineaciones de seguridad y generar lógica dañina.

Quanchen Zou, Moyang Chen, Zonghao Ying, Wenzhuo Xu, Yisong Xiao, Deyue Zhang, Dongdong Yang, Zhao Liu, Xiangzheng Zhang2026-03-11💻 cs

Evoking User Memory: Personalizing LLM via Recollection-Familiarity Adaptive Retrieval

El artículo presenta RF-Mem, un recuperador de memoria dual que imita los procesos cognitivos humanos de familiaridad y recuerdo para personalizar de manera escalable y eficiente los modelos de lenguaje grandes, superando las limitaciones de los métodos de recuperación actuales.

Yingyi Zhang, Junyi Li, Wenlin Zhang, Penyue Jia, Xianneng Li, Yichao Wang, Derong Xu, Yi Wen, Huifeng Guo, Yong Liu, Xiangyu Zhao2026-03-11💻 cs

Platooning as a Service (PlaaS): A Sustainable Transportation Framework for Connected and Autonomous Vehicles

Este artículo presenta "Platooning as a Service" (PlaaS), un marco de soporte a la decisión basado en un juego de Stackelberg que optimiza la contratación de servicios de convoyes para vehículos autónomos conectados, determinando las políticas de precios y distancias óptimas para maximizar beneficios y reducir emisiones, mientras analiza el impacto de subvenciones gubernamentales y variables operativas como la velocidad y la urgencia.

Bhosale Akshay Tanaji, Sayak Roychowdhury, Anand Abrahamb2026-03-11💻 cs

Multimodal Graph Representation Learning with Dynamic Information Pathways

El artículo presenta DiP, un nuevo marco de aprendizaje de representaciones para grafos multimodales que utiliza nodos pseudo específicos de cada modalidad y rutas de información dinámicas para lograr una propagación de mensajes adaptativa, expresiva y eficiente con complejidad lineal, superando consistentemente a los métodos existentes en diversas tareas y benchmarks.

Xiaobin Hong, Mingkai Lin, Xiaoli Wang, Chaoqun Wang, Wenzhong Li2026-03-11💻 cs

Implicit Geometry Representations for Vision-and-Language Navigation from Web Videos

Este trabajo introduce un marco de navegación visión-lenguaje a gran escala derivado de videos web que, mediante representaciones geométricas implícitas para extraer información espacial directamente de imágenes RGB sin reconstrucción 3D, supera las limitaciones de los datos simulados y establece nuevos récords de rendimiento en múltiples benchmarks.

Mingfei Han, Haihong Hao, Liang Ma, Kamila Zhumakhanova, Ekaterina Radionova, Jingyi Zhang, Xiaojun Chang, Xiaodan Liang, Ivan Laptev2026-03-11💻 cs

On the Online Weighted Non-Crossing Matching Problem

Este artículo estudia el problema de emparejamiento no cruzado ponderado en línea en el plano euclidiano, demostrando que aunque los algoritmos deterministas no logran una razón competitiva no trivial, es posible alcanzar una razón constante mediante aleatorización, además de analizar variantes con revocabilidad, puntos colineales y complejidad de asesoramiento.

Joan Boyar, Shahin Kamali, Kim S. Larsen, Ali Fata Lavasani, Yaqiao Li, Denis Pankratov2026-03-11💻 cs

ForgeDreamer: Industrial Text-to-3D Generation with Multi-Expert LoRA and Cross-View Hypergraph

El artículo presenta ForgeDreamer, un marco innovador para la generación industrial de texto a 3D que supera las limitaciones actuales mediante un mecanismo de ensamblaje LoRA multiexperto para evitar interferencias de conocimiento y una mejora geométrica basada en hipergrafos de vistas cruzadas para garantizar consistencia estructural de nivel de fabricación.

Junhao Cai, Deyu Zeng, Junhao Pang, Lini Li, Zongze Wu, Xiaopin Zhong2026-03-11💻 cs

Entangling Like Mycorrhizae: Mixing Realities Through Touch in "FungiSync"

El artículo presenta *FungiSync*, una experiencia de realidad mixta que traduce la interdependencia de las redes micorrícicas en un ritual participativo donde el contacto físico entre usuarios entrelaza sus percepciones digitales individuales, fomentando una epistemología fúngica que cuestiona el individualismo acelerado de la era posthumana.

Botao Amber Hu, Danlin Huang, Yilan Elan Tao, Xiaobo Aaron Hu, Rem RunGu Lin2026-03-11💻 cs

From Ideal to Real: Stable Video Object Removal under Imperfect Conditions

El artículo presenta SVOR, un marco robusto que logra la eliminación estable de objetos en videos bajo condiciones imperfectas mediante tres diseños clave: MUSE para el manejo de movimientos abruptos, DA-Seg para la localización consciente del desruido y un entrenamiento curricular en dos etapas, superando así los límites de los modelos existentes y alcanzando resultados de vanguardia en escenarios del mundo real.

Jiagao Hu, Yuxuan Chen, Fuhao Li, Zepeng Wang, Fei Wang, Daiguo Zhou, Jian Luan2026-03-11💻 cs

CogBlender: Towards Continuous Cognitive Intervention in Text-to-Image Generation

El artículo presenta CogBlender, un marco que permite la intervención continua y multidimensional de propiedades cognitivas (como valencia, excitación, dominio y memorabilidad) en la generación de imágenes a partir de texto, logrando alinear el contenido visual con la intención psicológica mediante la interpolación de campos de velocidad en un espacio cognitivo.

Shengqi Dang, Jiaying Lei, Yi He, Ziqing Qian, Nan Cao2026-03-11💻 cs

Exploring Modality-Aware Fusion and Decoupled Temporal Propagation for Multi-Modal Object Tracking

El artículo presenta MDTrack, un marco novedoso para el seguimiento de objetos multimodal que supera las limitaciones de las estrategias de fusión uniformes mediante una fusión adaptativa basada en expertos y una propagación temporal desacoplada utilizando modelos de espacio de estado, logrando así un rendimiento superior en cinco benchmarks.

Shilei Wang, Pujian Lai, Dong Gao, Jifeng Ning, Gong Cheng2026-03-11💻 cs

ToolRosetta: Bridging Open-Source Repositories and Large Language Model Agents through Automated Tool Standardization

El artículo presenta ToolRosetta, un marco unificado que automatiza la conversión de repositorios de código de código abierto en herramientas estandarizadas compatibles con el Protocolo de Contexto de Modelo (MCP), permitiendo a los agentes de modelos de lenguaje grandes ejecutar tareas complejas de extremo a extremo con mínima intervención humana y garantizando la seguridad.

Shimin Di, Xujie Yuan, Hanghui Guo, Chaoqian Ouyang, Zhangze Chen, Ling Yue, Libin Zheng, Jia Zhu, Shaowu Pan, Jian Yin, Min-Ling Zhang, Yong Rui2026-03-11💻 cs

See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation

El marco See, Plan, Rewind (SPR) mejora la manipulación robótica al medir el progreso mediante hitos espaciales, permitiendo la planificación de trayectorias y la recuperación automática de errores mediante un ciclo cerrado que supera a los modelos existentes en robustez y generalización.

Tingjun Dai, Mingfei Han, Tingwen Du, Zhiheng Liu, Zhihui Li, Salman Khan, Jun Yu, Xiaojun Chang2026-03-11💻 cs