MachaGrasp: Morphology-Aware Cross-Embodiment Dexterous Hand Articulation Generation for Grasping

El artículo presenta MachaGrasp, un marco de generación de agarres dextrógenos de extremo a extremo y consciente de la morfología que permite la generalización entre diferentes manos robóticas mediante el uso de embeddings morfológicos y un conjunto de eigengrasp, logrando altas tasas de éxito tanto en simulación como en experimentos del mundo real con adaptación de pocos ejemplos.

Heng Zhang, Kevin Yuchen Ma, Mike Zheng Shou + 2 more2026-03-06💻 cs

Beyond Prefixes: Graph-as-Memory Cross-Attention for Knowledge Graph Completion with Large Language Models

El artículo propone GMT (Graph-as-Memory Tuning), un nuevo paradigma que supera las limitaciones de la concatenación de prefijos al representar la estructura local de los grafos de conocimiento como memoria explícita e integrarla en modelos de lenguaje grandes mediante una atención cruzada token a token, logrando así una recuperación de evidencia más precisa y un razonamiento superior para la completación de grafos de conocimiento.

Ruitong Liu, Boxu Lin, Peize Li + 4 more2026-03-06💻 cs

OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

El artículo presenta OmniVideoBench, un nuevo benchmark a gran escala diseñado para evaluar de manera rigurosa la comprensión sinérgica audio-visual en modelos de lenguaje multimodal mediante 1000 pares de preguntas y respuestas de alta calidad derivados de videos diversos, revelando una brecha significativa entre el rendimiento de los modelos actuales y el razonamiento humano.

Caorui Li, Yu Chen, Yiyan Ji + 40 more2026-03-06💻 cs

True Self-Supervised Novel View Synthesis is Transferable

Este artículo presenta XFactor, el primer modelo auto-supervisado sin geometría capaz de sintetizar nuevas vistas de forma verdaderamente transferible al desvincular la pose de la cámara del contenido de la escena mediante un esquema de aumento, demostrando que la transferibilidad es el criterio clave para validar la síntesis de nuevas vistas sin necesidad de sesgos inductivos 3D.

Thomas W. Mitchel, Hyunwoo Ryu, Vincent Sitzmann2026-03-06💻 cs

Narrow Finetuning Leaves Clearly Readable Traces in Activation Differences

El artículo demuestra que el ajuste fino en dominios estrechos deja trazas legibles en las activaciones de los modelos de lenguaje, las cuales pueden ser explotadas para inferir el dominio de entrenamiento y revelan riesgos de seguridad, al tiempo que advierte que estos modelos sesgados no son representativos para estudiar el ajuste fino más generalizado.

Julian Minder, Clément Dumas, Stewart Slocum + 4 more2026-03-06💻 cs

CBF-RL: Safety Filtering Reinforcement Learning in Training with Control Barrier Functions

Este artículo presenta CBF-RL, un marco que integra Funciones de Barrera de Control (CBF) directamente en el entrenamiento de aprendizaje por refuerzo para internalizar restricciones de seguridad en la política aprendida, permitiendo un despliegue seguro y robusto en robots reales sin necesidad de filtros de seguridad en tiempo de ejecución.

Lizhi Yang, Blake Werner, Massimiliano de Sa + 1 more2026-03-06💻 cs

GhostEI-Bench: Do Mobile Agents Resilience to Environmental Injection in Dynamic On-Device Environments?

Este trabajo presenta GhostEI-Bench, el primer marco de evaluación que demuestra la vulnerabilidad de los agentes móviles basados en modelos de visión y lenguaje ante ataques de inyección ambiental en entornos dinámicos, donde elementos de interfaz adversarios engañan la percepción visual y comprometen la seguridad del dispositivo.

Chiyu Chen, Xinhao Song, Yunkai Chai, Yang Yao, Haodong Zhao, Lijun Li, Jie Li, Yan Teng, Gongshen Liu, Yingchun Wang2026-03-06🔒 cs.CR

FLoC: Facility Location-Based Efficient Visual Token Compression for Long Video Understanding

El artículo presenta FLoC, un marco de compresión de tokens visuales sin entrenamiento y agnóstico al modelo que utiliza la función de ubicación de instalaciones y un algoritmo greedy perezoso para seleccionar de manera eficiente un subconjunto representativo de tokens, mejorando así la comprensión de videos largos en modelos multimodales grandes.

Janghoon Cho, Jungsoo Lee, Munawar Hayat + 3 more2026-03-06💻 cs

RefAgent: A Multi-agent LLM-based Framework for Automatic Software Refactoring

El artículo presenta RefAgent, un marco de trabajo basado en agentes LLM multiagente para la refactorización automática de software que, tras ser evaluado en proyectos Java, demuestra superar significativamente a los enfoques de agente único y herramientas tradicionales al mejorar la calidad del código, reducir los "code smells" y lograr una alta tasa de éxito en pruebas unitarias.

Khouloud Oueslati, Maxime Lamothe, Foutse Khomh2026-03-06💻 cs

SASG-DA: Sparse-Aware Semantic-Guided Diffusion Augmentation For Myoelectric Gesture Recognition

El artículo presenta SASG-DA, un método de aumento de datos basado en difusión que utiliza representaciones semánticas y un muestreo consciente de la dispersión para generar muestras de señales electromiográficas superficiales (sEMG) fieles y diversas, mejorando así significativamente el reconocimiento de gestos y la generalización en comparación con métodos existentes.

Chen Liu, Can Han, Weishi Xu + 2 more2026-03-06💻 cs