cs artículos | Gist.Science

Differentiable Variable Fonts

Este trabajo presenta "fuentes variables diferenciables", un marco matemático que automatiza el diseño y la animación tipográfica al permitir la optimización basada en gradientes de los parámetros de fuentes variables para manipular formas, gestionar superposiciones, simular física y mejorar diseños automáticamente.

Kinjal Parikh, Danny M. Kaufman, David I. W. Levin, Alec Jacobson2026-03-10💻 cs

EB-MBD: Emerging-Barrier Model-Based Diffusion for Safe Trajectory Optimization in Highly Constrained Environments

El artículo presenta EB-MBD, un método que mejora la optimización de trayectorias seguras en entornos altamente restringidos mediante funciones barrera emergentes que evitan la degradación del rendimiento y reducen drásticamente el tiempo de cálculo en comparación con los enfoques basados en proyecciones.

Raghav Mishra, Ian R. Manchester2026-03-10💻 cs

Real-Time Motion-Controllable Autoregressive Video Diffusion

El artículo presenta AR-Drag, el primer modelo de difusión autoregresivo de pocos pasos potenciado por aprendizaje por refuerzo que permite la generación de video en tiempo real a partir de imágenes con control de movimiento preciso y alta fidelidad visual, superando las limitaciones de latencia y calidad de los enfoques existentes.

Kesen Zhao, Jiaxin Shi, Beier Zhu, Junbao Zhou, Xiaolong Shen, Yuan Zhou, Qianru Sun, Hanwang Zhang2026-03-10💻 cs

CDE: Concept-Driven Exploration for Reinforcement Learning

El artículo presenta CDE, un enfoque de exploración en aprendizaje por refuerzo que utiliza conceptos visuales derivados de modelos de lenguaje-vision para guiar la exploración mediante una recompensa intrínseca basada en la reconstrucción, logrando así un rendimiento eficiente tanto en simulaciones complejas como en tareas de manipulación en el mundo real.

Le Mao, Andrew H. Liu, Renos Zabounidis, Yanan Niu, Zachary Kingston, Joseph Campbell2026-03-10💻 cs

Deliberative Dynamics and Value Alignment in LLM Debates

Este estudio examina la dinámica deliberativa y la alineación de valores en debates multi-turno entre modelos de lenguaje de gran tamaño, revelando diferencias significativas en la flexibilidad, los patrones de valores y la influencia de los protocolos de interacción (sincrónico vs. secuencial) al evaluar dilemas morales cotidianos.

Pratik S. Sachdeva, Tom van Nuenen2026-03-10💻 cs

Reallocating Attention Across Layers to Reduce Multimodal Hallucination

Este trabajo propone un plugin ligero y sin reentrenamiento que identifica y reequilibra las cabezas de atención orientadas a la percepción y al razonamiento en modelos de razonamiento multimodal, reduciendo así las alucinaciones y mejorando la consistencia en múltiples benchmarks con un coste computacional mínimo.

Haolang Lu, Bolun Chu, WeiYe Fu, Guoshun Nan, Junning Liu, Minghui Pan, Qiankun Li, Yi Yu, Hua Wang, Kun Wang2026-03-10💻 cs

Preference-Conditioned Multi-Objective RL for Integrated Command Tracking and Force Compliance in Humanoid Locomotion

Este trabajo presenta un marco de aprendizaje por refuerzo multiobjetivo condicionado por preferencias que permite a un robot humanoide equilibrar dinámicamente el seguimiento de comandos de navegación y la compliancia ante fuerzas externas mediante un único policy omnidireccional, validado exitosamente tanto en simulación como en hardware real.

Tingxuan Leng, Yushi Wang, Tinglong Zheng, Changsheng Luo, Mingguo Zhao2026-03-10💻 cs

DropVLA: An Action-Level Backdoor Attack on Vision-Language-Action Models

DropVLA es un ataque de puerta trasera a nivel de acción que, mediante la inyección de datos enriquecidos con desencadenantes visuales, logra forzar la ejecución de primitivas de acción específicas en modelos de visión-idioma-acción con una tasa de éxito cercana al 100% y una retención de tareas limpias casi perfecta, incluso en entornos físicos reales.

Zonghuan Xu, Jiayu Li, Yunhan Zhao, Xiang Zheng, Xingjun Ma, Yu-Gang Jiang2026-03-10💻 cs

Ego-Vision World Model for Humanoid Contact Planning

Este trabajo presenta un marco de planificación de contacto para humanoides que combina un modelo de mundo aprendido en espacio latente con control predictivo basado en muestreo y una función de valor sustituta, logrando una planificación de contacto robusta y eficiente en tiempo real a partir de datos offline sin demostraciones.

Hang Liu, Yuman Gao, Sangli Teng, Yufeng Chi, Yakun Sophia Shao, Zhongyu Li, Maani Ghaffari, Koushil Sreenath2026-03-10💻 cs

Protege Effect for Behaviour Change: Does Teaching Digital Stress Solutions to Others Reduce One's Own?

Un estudio con 137 participantes que evaluó si enseñar soluciones al estrés digital a otros reduce el propio estrés no encontró diferencias significativas entre los grupos, lo que sugiere la dificultad de transformar el compromiso cognitivo en cambios de comportamiento reales.

Sameha Alshakhsi, Ala Yankouskaya, Dena Al-Thani, Raian Ali2026-03-10💻 cs

Unsupervised Deep Generative Models for Anomaly Detection in Neuroimaging: A Systematic Scoping Review

Esta revisión sistemática de alcance analiza estudios publicados entre 2018 y 2025 sobre el uso de modelos generativos profundos no supervisados para la detección de anomalías en neuroimagen, concluyendo que, aunque prometen localizar patologías sin datos anotados, su aplicación clínica enfrenta desafíos como la heterogeneidad metodológica y la falta de validación externa.

Youwan Mahé, Elise Bannier, Stéphanie Leplaideur, Elisa Fromont, Francesca Galassi2026-03-10💻 cs

A Robust Placeability Metric for Model-Free Unified Pick-and-Place Reasoning

Este trabajo presenta una métrica probabilística robusta que evalúa la estabilidad, la capacidad de agarre y el espacio libre a partir de nubes de puntos parciales para habilitar un razonamiento unificado de agarre y colocación sin modelos para objetos no vistos en entornos complejos.

Benno Wingender, Nils Dengler, Rohit Menon, Sicong Pan, Maren Bennewitz2026-03-10💻 cs

Taming Modality Entanglement in Continual Audio-Visual Segmentation

Este trabajo aborda el desafío de la entrelazamiento modal en el aprendizaje continuo de segmentación audio-visual mediante la propuesta de una nueva tarea (CAVS) y un marco de ensayo multimodal basado en colisiones (CMR) que, mediante estrategias de selección y frecuencia de muestras, mitiga la deriva semántica y la confusión por co-ocurrencia, superando significativamente a los métodos unimodales.

Yuyang Hong, Qi Yang, Tao Zhang, Zili Wang, Zhaojin Fu, Kun Ding, Bin Fan, Shiming Xiang2026-03-10💻 cs

PolyJailbreak: Cross-Modal Jailbreaking Attacks on Black-Box Multimodal LLMs

Este trabajo presenta PolyJailbreak, un marco de ataque de jailbreak de caja negra para modelos de lenguaje multimodal que explota la asimetría en la seguridad multimodal mediante primitivas estratégicas atómicas y optimización multiagente para lograr tasas de éxito superiores al 95% en modelos comerciales.

Xinkai Wang, Beibei Li, Zerui Shao, Ao Liu, Guangquan Xu, Shouling Ji2026-03-10💻 cs

HumanHalo - Safe and Efficient 3D Navigation Among Humans via Minimally Conservative MPC

El artículo presenta HumanMPC, un marco de control predictivo basado en modelos que garantiza una navegación segura y eficiente de vehículos aéreos no tripulados en entornos con humanos mediante la combinación de modelos de movimiento realistas y una formulación de seguridad de alcanzabilidad minimamente conservadora.

Simon Schaefer, Helen Oleynikova, Sandra Hirche, Stefan Leutenegger2026-03-10💻 cs

Khelte Khelte Shikhi: A Proposed HCI Framework for Gamified Interactive Learning with Minecraft in Bangladeshi Education Systems

Este trabajo presenta un marco conceptual de HCI que propone adaptar Minecraft Education Edition al sistema educativo de Bangladesh mediante un modelo de despliegue escalonado en tres niveles, contenido local en bengalí y soluciones de bajo costo diseñadas para superar las severas limitaciones de infraestructura y recursos de las escuelas rurales y urbanas.

Mohd Ruhul Ameen, Akif Islam, Momen Khandokar Ope2026-03-10💻 cs

Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks

El artículo presenta Dream4Drive, un marco de generación de datos sintéticos que utiliza modelos de mundo de conducción y activos 3D para crear casos extremos multivista fotorealistas, demostrando así una mejora significativa en el rendimiento de los modelos de percepción para la conducción autónoma.

Kai Zeng, Zhanqian Wu, Kaixin Xiong, Xiaobao Wei, Xiangyu Guo, Zhenxin Zhu, Kalok Ho, Lijun Zhou, Bohan Zeng, Ming Lu, Haiyang Sun, Bing Wang, Guang Chen, Hangjun Ye, Wentao Zhang2026-03-10💻 cs

MoE-GS: Mixture of Experts for Dynamic Gaussian Splatting

El artículo presenta MoE-GS, un marco unificado pionero que integra una arquitectura de Mezcla de Expertos con un enrutador de píxeles consciente del volumen para mejorar la síntesis de nuevas vistas en escenas dinámicas mediante la combinación de priores de deformación heterogéneos, logrando un rendimiento superior al estado del arte junto con estrategias de eficiencia como la poda de Gaussianos y la destilación.

In-Hwan Jin, Hyeongju Mun, Joonsoo Kim, Kugjin Yun, Kyeongbo Kong2026-03-10💻 cs

Next Generation Cloud-native In-Memory Stores: From Redis to Valkey and Beyond

Este estudio presenta una evaluación exhaustiva y experimental de las alternativas modernas a Redis (Valkey, KeyDB y Garnet) en entornos Kubernetes, analizando sus compensaciones en rendimiento, eficiencia de recursos y viabilidad a largo plazo para llenar un vacío en la literatura actual sobre almacenes de datos en memoria nativos de la nube.

Carl-Johan Fauvelle Munck af Rosensch"old, Feras M. Awaysheh, Ahmad Awad2026-03-10💻 cs

Human-Centered LLM-Agent System for Detecting Anomalous Digital Asset Transactions

El artículo presenta HCLA, un sistema multiagente centrado en el humano que utiliza inteligencia artificial conversacional para transformar la detección de transacciones anómalas en activos digitales mediante un proceso de razonamiento trazable y justificable que prioriza la rendición de cuentas y la transparencia en el cumplimiento normativo.

Gyuyeon Na, Minjung Park, Hyeonjeong Cha, Sangmi Chai2026-03-10💻 cs

← Anterior Siguiente →