cs artículos | Gist.Science

DropVLA: An Action-Level Backdoor Attack on Vision-Language-Action Models

DropVLA es un ataque de puerta trasera a nivel de acción que, mediante la inyección de datos enriquecidos con desencadenantes visuales, logra forzar la ejecución de primitivas de acción específicas en modelos de visión-idioma-acción con una tasa de éxito cercana al 100% y una retención de tareas limpias casi perfecta, incluso en entornos físicos reales.

Zonghuan Xu, Jiayu Li, Yunhan Zhao, Xiang Zheng, Xingjun Ma, Yu-Gang Jiang2026-03-10💻 cs

Ego-Vision World Model for Humanoid Contact Planning

Este trabajo presenta un marco de planificación de contacto para humanoides que combina un modelo de mundo aprendido en espacio latente con control predictivo basado en muestreo y una función de valor sustituta, logrando una planificación de contacto robusta y eficiente en tiempo real a partir de datos offline sin demostraciones.

Hang Liu, Yuman Gao, Sangli Teng, Yufeng Chi, Yakun Sophia Shao, Zhongyu Li, Maani Ghaffari, Koushil Sreenath2026-03-10💻 cs

Protege Effect for Behaviour Change: Does Teaching Digital Stress Solutions to Others Reduce One's Own?

Un estudio con 137 participantes que evaluó si enseñar soluciones al estrés digital a otros reduce el propio estrés no encontró diferencias significativas entre los grupos, lo que sugiere la dificultad de transformar el compromiso cognitivo en cambios de comportamiento reales.

Sameha Alshakhsi, Ala Yankouskaya, Dena Al-Thani, Raian Ali2026-03-10💻 cs

Unsupervised Deep Generative Models for Anomaly Detection in Neuroimaging: A Systematic Scoping Review

Esta revisión sistemática de alcance analiza estudios publicados entre 2018 y 2025 sobre el uso de modelos generativos profundos no supervisados para la detección de anomalías en neuroimagen, concluyendo que, aunque prometen localizar patologías sin datos anotados, su aplicación clínica enfrenta desafíos como la heterogeneidad metodológica y la falta de validación externa.

Youwan Mahé, Elise Bannier, Stéphanie Leplaideur, Elisa Fromont, Francesca Galassi2026-03-10💻 cs

A Robust Placeability Metric for Model-Free Unified Pick-and-Place Reasoning

Este trabajo presenta una métrica probabilística robusta que evalúa la estabilidad, la capacidad de agarre y el espacio libre a partir de nubes de puntos parciales para habilitar un razonamiento unificado de agarre y colocación sin modelos para objetos no vistos en entornos complejos.

Benno Wingender, Nils Dengler, Rohit Menon, Sicong Pan, Maren Bennewitz2026-03-10💻 cs

Taming Modality Entanglement in Continual Audio-Visual Segmentation

Este trabajo aborda el desafío de la entrelazamiento modal en el aprendizaje continuo de segmentación audio-visual mediante la propuesta de una nueva tarea (CAVS) y un marco de ensayo multimodal basado en colisiones (CMR) que, mediante estrategias de selección y frecuencia de muestras, mitiga la deriva semántica y la confusión por co-ocurrencia, superando significativamente a los métodos unimodales.

Yuyang Hong, Qi Yang, Tao Zhang, Zili Wang, Zhaojin Fu, Kun Ding, Bin Fan, Shiming Xiang2026-03-10💻 cs

PolyJailbreak: Cross-Modal Jailbreaking Attacks on Black-Box Multimodal LLMs

Este trabajo presenta PolyJailbreak, un marco de ataque de jailbreak de caja negra para modelos de lenguaje multimodal que explota la asimetría en la seguridad multimodal mediante primitivas estratégicas atómicas y optimización multiagente para lograr tasas de éxito superiores al 95% en modelos comerciales.

Xinkai Wang, Beibei Li, Zerui Shao, Ao Liu, Guangquan Xu, Shouling Ji2026-03-10💻 cs

HumanHalo - Safe and Efficient 3D Navigation Among Humans via Minimally Conservative MPC

El artículo presenta HumanMPC, un marco de control predictivo basado en modelos que garantiza una navegación segura y eficiente de vehículos aéreos no tripulados en entornos con humanos mediante la combinación de modelos de movimiento realistas y una formulación de seguridad de alcanzabilidad minimamente conservadora.

Simon Schaefer, Helen Oleynikova, Sandra Hirche, Stefan Leutenegger2026-03-10💻 cs

Khelte Khelte Shikhi: A Proposed HCI Framework for Gamified Interactive Learning with Minecraft in Bangladeshi Education Systems

Este trabajo presenta un marco conceptual de HCI que propone adaptar Minecraft Education Edition al sistema educativo de Bangladesh mediante un modelo de despliegue escalonado en tres niveles, contenido local en bengalí y soluciones de bajo costo diseñadas para superar las severas limitaciones de infraestructura y recursos de las escuelas rurales y urbanas.

Mohd Ruhul Ameen, Akif Islam, Momen Khandokar Ope2026-03-10💻 cs

Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks

El artículo presenta Dream4Drive, un marco de generación de datos sintéticos que utiliza modelos de mundo de conducción y activos 3D para crear casos extremos multivista fotorealistas, demostrando así una mejora significativa en el rendimiento de los modelos de percepción para la conducción autónoma.

Kai Zeng, Zhanqian Wu, Kaixin Xiong, Xiaobao Wei, Xiangyu Guo, Zhenxin Zhu, Kalok Ho, Lijun Zhou, Bohan Zeng, Ming Lu, Haiyang Sun, Bing Wang, Guang Chen, Hangjun Ye, Wentao Zhang2026-03-10💻 cs

MoE-GS: Mixture of Experts for Dynamic Gaussian Splatting

El artículo presenta MoE-GS, un marco unificado pionero que integra una arquitectura de Mezcla de Expertos con un enrutador de píxeles consciente del volumen para mejorar la síntesis de nuevas vistas en escenas dinámicas mediante la combinación de priores de deformación heterogéneos, logrando un rendimiento superior al estado del arte junto con estrategias de eficiencia como la poda de Gaussianos y la destilación.

In-Hwan Jin, Hyeongju Mun, Joonsoo Kim, Kugjin Yun, Kyeongbo Kong2026-03-10💻 cs

Next Generation Cloud-native In-Memory Stores: From Redis to Valkey and Beyond

Este estudio presenta una evaluación exhaustiva y experimental de las alternativas modernas a Redis (Valkey, KeyDB y Garnet) en entornos Kubernetes, analizando sus compensaciones en rendimiento, eficiencia de recursos y viabilidad a largo plazo para llenar un vacío en la literatura actual sobre almacenes de datos en memoria nativos de la nube.

Carl-Johan Fauvelle Munck af Rosensch"old, Feras M. Awaysheh, Ahmad Awad2026-03-10💻 cs

Human-Centered LLM-Agent System for Detecting Anomalous Digital Asset Transactions

El artículo presenta HCLA, un sistema multiagente centrado en el humano que utiliza inteligencia artificial conversacional para transformar la detección de transacciones anómalas en activos digitales mediante un proceso de razonamiento trazable y justificable que prioriza la rendición de cuentas y la transparencia en el cumplimiento normativo.

Gyuyeon Na, Minjung Park, Hyeonjeong Cha, Sangmi Chai2026-03-10💻 cs

AnyPcc: Compressing Any Point Cloud with a Single Universal Model

El artículo presenta AnyPcc, un marco universal de compresión de nubes de puntos que establece un nuevo estado del arte mediante un modelo de contexto robusto y una estrategia de ajuste fino adaptativo a instancias para manejar eficazmente datos de diversas densidades y distribuciones.

Kangli Wang, Qianxi Yi, Yuqi Ye, Shihao Li, Wei Gao2026-03-10💻 cs

Automated Pest Counting in Water Traps through Active Robotic Stirring for Occlusion Handling

Este artículo propone un método automatizado para el conteo de plagas en trampas de agua que utiliza un brazo robótico con un sistema de agitación activa y control de velocidad adaptativa para mitigar la oclusión, demostrando que el patrón de agitación de cuatro círculos reduce significativamente el error de conteo y el tiempo de ejecución en comparación con los métodos estáticos tradicionales.

Xumin Gao, Mark Stevens, Grzegorz Cielniak2026-03-10💻 cs

CountFormer: A Transformer Framework for Learning Visual Repetition and Structure in Class-Agnostic Object Counting

El artículo presenta CountFormer, un marco basado en el modelo de visión auto-supervisado DINOv2 que mejora la consistencia estructural en el conteo de objetos sin ejemplos al aprovechar la repetición visual, logrando un rendimiento competitivo en el conjunto de datos FSC-147.

Md Tanvir Hossain, Akif Islam, Mohd Ruhul Ameen2026-03-10💻 cs

LagMemo: Language 3D Gaussian Splatting Memory for Multi-modal Open-vocabulary Multi-goal Visual Navigation

El artículo presenta LagMemo, un sistema de navegación que utiliza un memoria de 3D Gaussian Splatting con lenguaje para lograr una localización de objetivos de vocabulario abierto y multi-objetivo mediante consultas espaciales y semánticas robustas, superando a los métodos actuales y validado mediante un nuevo conjunto de datos llamado GOAT-Core.

Haotian Zhou, Xiaole Wang, He Li, Zhuo Qi, Jinrun Yin, Haiyu Kong, Jianghuan Xu, Huijing Zhao2026-03-10💻 cs

SAGE: Structure-Aware Generative Video Transitions between Diverse Clips

El paper presenta SAGE, un enfoque zero-shot que genera transiciones de video coherentes y estructuradas entre clips diversos combinando guías estructurales con síntesis generativa, superando a los métodos existentes sin necesidad de datos de entrenamiento específicos.

Mia Kan, Yilin Liu, Niloy Mitra2026-03-10💻 cs

MobiDock: Design and Control of A Modular Self Reconfigurable Bimanual Mobile Manipulator via Robotic Docking

El estudio presenta MobiDock, un sistema móvil bimanual modular que permite a dos robots conectarse físicamente mediante un mecanismo de tornillo y visión por computadora para formar una plataforma unificada, logrando así una mayor estabilidad dinámica, precisión y eficiencia operativa en comparación con la cooperación independiente.

Xuan-Thuan Nguyen, Khac Nam Nguyen, Ngoc Duy Tran, Thi Thoa Mac, Anh Nguyen, Hoang Hiep Ly, Tung D. Ta2026-03-10💻 cs

Vectorized Online POMDP Planning

Este artículo presenta VOPP, un planificador en línea de POMDP vectorizado que aprovecha la paralelización masiva mediante computaciones totalmente vectorizadas para eliminar cuellos de botella de sincronización, logrando una eficiencia de cálculo 20 veces superior a los solvers paralelos existentes y superando a los solvers secuenciales con un presupuesto de planificación 1000 veces menor.

Marcus Hoerger, Muhammad Sudrajat, Hanna Kurniawati2026-03-10💻 cs

← Anterior Siguiente →