cs artículos | Gist.Science

AgentServe: Algorithm-System Co-Design for Efficient Agentic AI Serving on a Consumer-Grade GPU

El artículo presenta AgentServe, un sistema de inferencia diseñado para ejecutar múltiples agentes de IA de manera estable en una sola GPU de consumo mediante el aislamiento de fases de prellenado y decodificación, logrando mejoras significativas en la estabilidad de la latencia y el rendimiento en comparación con enfoques anteriores.

Yuning Zhang, Yan Yan, Nan Yang, Dong Yuan2026-03-12💻 cs

EmoStory: Emotion-Aware Story Generation

El artículo presenta EmoStory, un marco de dos etapas que integra planificación basada en agentes y generación consciente de regiones para crear historias visuales coherentes y consistentes en el sujeto que incorporan explícitamente direcciones emocionales, superando a los métodos actuales en precisión emocional y alineación con el prompt.

Jingyuan Yang, Rucong Chen, Hui Huang2026-03-12💻 cs

Adaptive Manipulation Potential and Haptic Estimation for Tool-Mediated Interaction

Este artículo presenta un marco de control en lazo cerrado que utiliza una variedad de equilibrio parametrizada y una estrategia híbrida de estimación háptica (haptic SLAM) para lograr una manipulación adaptativa y robusta en interacciones mediadas por herramientas, validado mediante más de 260 pruebas reales de aflojado de tornillos.

Lin Yang, Anirvan Dutta, Yuan Ji, Yanxin Zhou, Shilin Shan, Lv Chen, Etienne Burdet, Domenico Campolo2026-03-12💻 cs

S-HPLB: Efficient LLM Attention Serving via Sparsity-Aware Head Parallelism Load Balance

El artículo presenta S-HPLB, una estrategia de balanceo de carga que aprovecha la elasticidad de dispersión heterogénea pero estable entre las cabezas de atención para asignar presupuestos de dispersión adaptativos, logrando una mejora de 2.88 veces en la latencia de computación sin degradar la calidad de la inferencia.

Di Liu, Yifei Liu, Chen Chen, Zhibin Yu, Xiaoyi Fan, Quan Chen, Minyi Guo2026-03-12💻 cs

StyleGallery: Training-free and Semantic-aware Personalized Style Transfer from Arbitrary Image References

El artículo presenta StyleGallery, un marco de transferencia de estilo personalizado, sin entrenamiento y consciente del semántico que supera las limitaciones de los métodos existentes al permitir el uso de referencias arbitrarias mediante segmentación semántica adaptativa, coincidencia de regiones agrupadas y optimización guiada por energía para lograr una estilización precisa y una preservación estructural superior.

Boyu He (College of Computer Science and Technology, National University of Defense Technology), Yunfan Ye (School of Design, Hunan University), Chang Liu (College of Computer Science and Technology, National University of Defense Technology), Weishang Wu (College of Computer Science and Technology, National University of Defense Technology), Fang Liu (School of Design, Hunan University), Zhiping Cai (College of Computer Science and Technology, National University of Defense Technology)2026-03-12💻 cs

One Token, Two Fates: A Unified Framework via Vision Token Manipulation Against MLLMs Hallucination

Este artículo propone un marco unificado que manipula tokens visuales mediante calibración sinérgica y causal para corregir las alucinaciones de los modelos multimodales grandes, mejorando la precisión en benchmarks como POPE sin requerir reentrenamiento y con un sobrecosto de inferencia mínimo.

Zhan Fa, Yue Duan, Jian Zhang, Lei Qi, Yinghuan Shi2026-03-12💻 cs

Geometric Autoencoder for Diffusion Models

Este artículo presenta el Autoencoder Geométrico (GAE), un marco principiado que integra priors de modelos fundacionales de visión y una normalización latente para superar las limitaciones heurísticas actuales, logrando un equilibrio superior entre compresión, profundidad semántica y estabilidad de reconstrucción en modelos de difusión latente.

Hangyu Liu, Jianyong Wang, Yutao Sun2026-03-12💻 cs

GeoSense: Internalizing Geometric Necessity Perception for Multimodal Reasoning

El paper "GeoSense" presenta un marco que dota a los Modelos de Lenguaje Multimodal Grandes (MLLM) de la capacidad de percibir la insuficiencia perceptiva y activar autónomamente características geométricas solo cuando son necesarias, mejorando así el razonamiento espacial sin comprometer la eficiencia ni la capacidad de razonamiento visual 2D.

Ruiheng Liu, Haihong Hao, Mingfei Han, Xin Gu, Kecheng Zhang, Changlin Li, Xiaojun Chang2026-03-12💻 cs

Factor Dimensionality and the Bias-Variance Tradeoff in Diffusion Portfolio Models

Este artículo implementa y evalúa un modelo de difusión condicional para la predicción de retornos de activos, revelando una clara compensación entre sesgo y varianza en la dimensionalidad de los factores que permite identificar un número intermedio óptimo para construir carteras con mejor rendimiento fuera de muestra que las estrategias de referencia.

Avi Bagchi, Michael Tesfaye, Om Shastri2026-03-12💻 cs

Don't Let the Claw Grip Your Hand: A Security Analysis and Defense Framework for OpenClaw

Este artículo analiza las graves vulnerabilidades de seguridad de la plataforma de agentes de código OpenClaw frente a instrucciones maliciosas y propone una capa de defensa colaborativa humano-en-el-bucle (HITL) que mejora significativamente su tasa de protección al interceptar ataques que el sistema nativo no puede detener.

Zhengyang Shan, Jiayun Xin, Yue Zhang, Minghui Xu2026-03-12💻 cs

Silent Subversion: Sensor Spoofing Attacks via Supply Chain Implants in Satellite Systems

Este artículo presenta una demostración de un ataque de suplantación de sensores en satélites mediante componentes comprometidos de la cadena de suministro, que logra engañar tanto a los sistemas de navegación a bordo como a las estaciones terrestres, subrayando la necesidad urgente de contramedidas como la autenticación de telemetría y el monitoreo de la procedencia de los componentes.

Jack Vanlyssel, Gruia-Catalin Roman, Afsah Anwar2026-03-12💻 cs

ScanDP: Generalizable 3D Scanning with Diffusion Policy

El artículo presenta ScanDP, un marco de escaneo 3D eficiente en datos que utiliza una política de difusión y mapeo de cuadrícula de ocupación para imitar estrategias humanas, logrando una mayor generalización, robustez al ruido y eficiencia en la cobertura de objetos no vistos en comparación con los métodos existentes.

Itsuki Hirako, Ryo Hakoda, Yubin Liu, Matthew Hwang, Yoshihiro Sato, Takeshi Oishi2026-03-12💻 cs

Moving Phones, Active Peers: Exploring the Effect of Animated Phones as Facilitators in In-Person Group Discussion

Este estudio presenta AnimaStand, un soporte que anima los teléfonos móviles para actuar como facilitadores corporales en discusiones grupales presenciales, demostrando que estas expresiones dinámicas mejoran la reactivación de miembros inactivos, la dinámica del grupo y el rendimiento de la tarea.

Ziqi Pan, Ziqi Liu, Jinhan Zhang, Zeyu Huang, Xiaojuan Ma2026-03-12💻 cs

Multi-Person Pose Estimation Evaluation Using Optimal Transportation and Improved Pose Matching

Este artículo propone OCpose, una nueva métrica de evaluación para la estimación de poses de múltiples personas que utiliza el transporte óptimo para equilibrar equitativamente la detección de verdaderos y falsos positivos, independientemente de sus puntuaciones de confianza, mientras aprovecha dichas puntuaciones para mejorar la fiabilidad del emparejamiento.

Takato Moriki, Hiromu Taketsugu, Norimichi Ukita2026-03-12💻 cs

Shape Control of a Planar Hyper-Redundant Robot via Hybrid Kinematics-Informed and Learning-based Approach

Este artículo presenta SpatioCoupledNet, un método de control de forma híbrido que combina cinemática y aprendizaje profundo para mejorar la estabilidad, precisión y convergencia de robots hiper-redundantes flexibles en entornos no estructurados.

Yuli Song, Wenbo Li, Wenci Xin, Zhiqiang Tang, Daniela Rus, Cecilia Laschi2026-03-12💻 cs

Rethinking Gaussian Trajectory Predictors: Calibrated Uncertainty for Safe Planning

Este artículo presenta un nuevo método de pérdida que utiliza estimación de densidad de kernel para calibrar la incertidumbre en los predictores de trayectorias gaussianos, mejorando así la seguridad y el rendimiento de la planificación de movimiento autónomo en entornos complejos.

Fatemeh Cheraghi Pouria, Mahsa Golchoubian, Katherine Driggs-Campbell2026-03-12💻 cs

Motion Forcing: A Decoupled Framework for Robust Video Generation in Motion Dynamics

El artículo presenta "Motion Forcing", un marco de generación de video que decouplea el razonamiento físico de la síntesis visual mediante una jerarquía "Punto-Forma-Apariencia" y una estrategia de recuperación de puntos enmascarados para lograr alta calidad, consistencia física y control preciso incluso en escenas complejas.

Tianshuo Xu, Zhifei Chen, Leyi Wu, Hao Lu, Ying-cong Chen2026-03-12💻 cs

Differentiable Geometric Indexing for End-to-End Generative Retrieval

El artículo presenta la Indexación Geométrica Diferenciable (DGI), un enfoque que resuelve los conflictos de optimización y geométricos en la Recuperación Generativa mediante la unificación operativa con Gumbel-Softmax y la optimización isótropa en la esfera unitaria, logrando así un rendimiento superior, especialmente en escenarios de cola larga.

Xujing Wang, Yufeng Chen, Boxuan Zhang, Jie Zhao, Chao Wei, Cai Xu, Ziyu Guan, Wei Zhao, Weiru Zhang, Xiaoyi Zeng2026-03-12💻 cs

Frames2Residual: Spatiotemporal Decoupling for Self-Supervised Video Denoising

El artículo presenta Frames2Residual (F2R), un marco de descomposición espacio-temporal que mejora el desruido de video auto-supervisado al dividir el entrenamiento en dos etapas: un estimador temporal ciego para garantizar la consistencia inter-frame y un refinador espacial no ciego para recuperar la textura intra-frame, superando así las limitaciones de las redes de punto ciego existentes.

Mingjie Ji, Zhan Shi, Kailai Zhou, Zixuan Fu, Xun Cao2026-03-12💻 cs

TractoRC: A Unified Probabilistic Learning Framework for Joint Tractography Registration and Clustering

El artículo presenta TractoRC, un marco probabilístico unificado que realiza de forma conjunta el registro y la agrupación de tractogramas mediante un espacio de incrustación latente compartido, mejorando así el rendimiento de ambas tareas en comparación con los métodos que las tratan por separado.

Yijie Li, Xi Zhu, Junyi Wang, Ye Wu, Lauren J. O'Donnell, Fan Zhang2026-03-12💻 cs

← Anterior Siguiente →