cs artículos | Gist.Science

BanaServe: Unified KV Cache and Dynamic Module Migration for Balancing Disaggregated LLM Serving in AI Infrastructure

El artículo presenta BanaServe, un marco de orquestación dinámica para la inferencia de modelos de lenguaje grandes (LLM) que optimiza el equilibrio de recursos y la eficiencia en arquitecturas desacopladas mediante la migración flexible de pesos y cachés KV, superando significativamente a soluciones existentes como vLLM y DistServe en rendimiento y latencia.

Yiyuan He, Minxian Xu, Jingfeng Wu + 7 more2026-03-11💻 cs

Real-Time Neural Video Compression with Unified Intra and Inter Coding

Este trabajo presenta un marco de compresión de video neuronal en tiempo real que unifica la codificación intra e inter en un único modelo adaptativo, superando las limitaciones de propagación de errores y manejo de contenido nuevo de los métodos anteriores para lograr una reducción del 12,1% en la tasa BD-rate con rendimiento en tiempo real.

Hui Xiang, Yifan Bian, Li Li, Jingran Wu, Xianguo Zhang, Dong Liu2026-03-11💻 cs

Polynomial-time Configuration Generator for Connected Unlabeled Multi-Agent Pathfinding

El artículo presenta PULL, un algoritmo completo y eficiente en tiempo polinómico que supera las limitaciones de escalabilidad de los enfoques basados en programación lineal entera para resolver el problema de búsqueda de caminos multiagente no etiquetado y conectado (CUMAPF) en robótica de enjambre.

Takahiro Suzuki, Keisuke Okumura2026-03-11💻 cs

Revisiting Replanning from Scratch: Real-Time Incremental Planning with Fast Almost-Surely Asymptotically Optimal Planners

Este artículo demuestra que la planificación incremental reactiva puede resolverse de manera más eficiente mediante una serie de problemas independientes utilizando algoritmos de planificación casi-asintóticamente óptimos (ASAO), como EIT* y AORRTC, los cuales encuentran planes globales consistentes en entornos cambiantes sin necesidad de reutilizar explícitamente planes anteriores.

Mitchell E. C. Sabbadini, Andrew H. Liu, Joseph Ruan, Tyler S. Wilson, Zachary Kingston, Jonathan D. Gammell2026-03-11💻 cs

Proper Body Landmark Subset Enables More Accurate and 5X Faster Recognition of Isolated Signs in LIBRAS

Este artículo demuestra que la selección estratégica de un subconjunto específico de hitos corporales, combinada con técnicas de imputación, permite reconocer signos aislados de la LIBRAS con una precisión comparable o superior a los métodos actuales mientras reduce el tiempo de procesamiento en más de cinco veces.

Daniele L. V. dos Santos, Thiago B. Pereira, Carlos Eduardo G. R. Alves, Richard J. M. G. Tello, Francisco de A. Boldt, Thiago M. Paixão2026-03-11💻 cs

Who Made This? Fake Detection and Source Attribution with Diffusion Features

El artículo presenta FRIDA, un marco ligero y eficiente que utiliza características de modelos de difusión preentrenados para detectar imágenes generadas por IA y atribuir su fuente con alto rendimiento en escenarios de generalización cruzada.

Simone Bonechi, Paolo Andreini, Barbara Toniella Corradini2026-03-11💻 cs

EgoMI: Learning Active Vision and Whole-Body Manipulation from Egocentric Human Demonstrations

El artículo presenta EgoMI, un marco que supera la brecha de encarnación en el aprendizaje por imitación al capturar trayectorias sincronizadas de manos y cabeza activa de demostraciones humanas, permitiendo a robots semihumanoides replicar estrategias de fijación visual dinámica mediante una política aumentada con memoria para lograr una manipulación robusta.

Justin Yu, Yide Shentu, Di Wu, Pieter Abbeel, Ken Goldberg, Philipp Wu2026-03-11💻 cs

SPAN: Spatial-Projection Alignment for Monocular 3D Object Detection

El artículo presenta SPAN, un nuevo enfoque de alineación de proyección espacial que mejora la detección 3D monocular al imponer restricciones espaciales globales y de proyección 2D-3D para corregir la inconsistencia geométrica inherente a los paradigmas de predicción desacoplada, logrando así un rendimiento superior mediante una estrategia de aprendizaje jerárquico.

Yifan Wang, Yian Zhao, Fanqi Pu, Xiaochen Yang, Yang Tang, Xi Chen, Wenming Yang2026-03-11💻 cs

V-Attack: Targeting Disentangled Value Features for Controllable Adversarial Attacks on LVLMs

El artículo presenta V-Attack, un método novedoso que logra ataques adversarios controlables y precisos en Modelos Grandes de Visión y Lenguaje (LVLM) al manipular las características de valor (V) desentrelazadas en lugar de las representaciones de parches enredadas, logrando una tasa de éxito de ataque un 36% superior a los métodos existentes.

Sen Nie, Jie Zhang, Jianxin Yan, Shiguang Shan, Xilin Chen2026-03-11💻 cs

Bootstrap Dynamic-Aware 3D Visual Representation for Scalable Robot Learning

El artículo presenta AFRO, un marco de aprendizaje auto-supervisado que genera representaciones 3D conscientes de la dinámica mediante un proceso difusivo y la modelación conjunta de dinámicas directas e inversas, logrando un rendimiento superior en tareas de manipulación robótica sin necesidad de supervisión de acciones o reconstrucción geométrica explícita.

Qiwei Liang, Boyang Cai, Minghao Lai, Sitong Zhuang, Tao Lin, Yan Qin, Yixuan Ye, Jiaming Liang, Renjing Xu2026-03-11💻 cs

Audio-Visual World Models: Towards Multisensory Imagination in Sight and Sound

Este trabajo presenta el primer marco formal para Modelos de Mundo Audiovisuales (AVWM), introduciendo el conjunto de datos AVW-4k y el modelo AV-CDiT para simular dinámicas ambientales sincronizadas en audio y visión, lo que mejora significativamente la planificación y navegación de agentes en entornos multisensoriales.

Jiahua Wang, Leqi Zheng, Jialong Wu, Yaoxin Mao2026-03-11💻 cs

Beware of the Classical Benchmark Instances for the Traveling Salesman Problem with Time Windows

El artículo demuestra que un método exacto sencillo resuelve casi todas las instancias clásicas de referencia del problema del viajante con ventanas de tiempo en menos de diez segundos, lo que indica que estas ya no son representativas para evaluar algoritmos ni para diseñar conjuntos de entrenamiento difíciles para aprendizaje automático.

Francisco J. Soulignac2026-03-11💻 cs

AVGGT: Rethinking Global Attention for Accelerating VGGT

Este artículo presenta AVGGT, un método de aceleración sin entrenamiento que analiza y reestructura la atención global en modelos como VGGT y $\pi^3$ mediante la conversión de capas tempranas y el muestreo de tokens, logrando aceleraciones de inferencia de hasta 10 veces en secuencias largas sin sacrificar la precisión.

Xianbing Sun, Zhikai Zhu, Zhengyu Lou, Bo Yang, Jinyang Tang, Liqing Zhang, He Wang, Jianfu Zhang2026-03-11💻 cs

UniBYD: A Unified Framework for Learning Robotic Manipulation Across Embodiments Beyond Imitation of Human Demonstrations

El artículo presenta UniBYD, un marco unificado que supera las limitaciones de la imitación humana en la manipulación robótica mediante un algoritmo de aprendizaje por refuerzo dinámico y una representación morfológica unificada, logrando un rendimiento superior al estado del arte al adaptar las políticas a las características físicas específicas de diversos robots.

Tingyu Yuan, Biaoliang Guan, Wen Ye, Ziyan Tian, Yi Yang, Weijie Zhou, Zhaowen Li, Yan Huang, Peng Wang, Chaoyang Zhao, Jinqiao Wang2026-03-11💻 cs

Multimodal Skeleton-Based Action Representation Learning via Decomposition and Composition

Este artículo presenta un marco de aprendizaje auto-supervisado llamado "Decomposition and Composition" que aborda el equilibrio entre eficiencia y rendimiento en la comprensión de acciones humanas multimodales mediante la descomposición de características fusionadas y su composición guiada, logrando resultados superiores en conjuntos de datos estándar con menor costo computacional.

Hongsong Wang, Heng Fei, Bingxuan Dai + 1 more2026-03-11💻 cs

Taming Preference Mode Collapse via Directional Decoupling Alignment in Diffusion Reinforcement Learning

Este trabajo introduce DivGenBench para cuantificar el colapso de modo de preferencia en modelos de difusión y propone D²-Align, un marco de alineación que mitiga este problema mediante la corrección direccional de la señal de recompensa para preservar la diversidad generativa sin sacrificar la calidad.

Chubin Chen, Sujie Hu, Jiashu Zhu, Meiqi Wu, Jintao Chen, Yanxun Li, Nisha Huang, Chengyu Fang, Jiahong Wu, Xiangxiang Chu, Xiu Li2026-03-11💻 cs

A Tale of 1001 LoC: Potential Runtime Error-Guided Specification Synthesis for Verifying Large-Scale Programs

Este artículo presenta Preguss, un marco modular que combina análisis estático y modelos de lenguaje grandes para sintetizar especificaciones formales y verificar automáticamente la ausencia de errores en tiempo de ejecución en programas a gran escala, reduciendo significativamente el esfuerzo humano necesario.

Zhongyi Wang, Tengjie Lin, Mingshuai Chen, Haokun Li, Mingqi Yang, Xiao Yi, Shengchao Qin, Yixing Luo, Xiaofeng Li, Bin Gu, Liqiang Lu, Jianwei Yin2026-03-11💻 cs

Secure Digital Semantic Communications: Fundamentals, Challenges, and Opportunities

Este artículo presenta una revisión estructurada de las comunicaciones semánticas digitales seguras, aclarando sus fundamentos y diferencias arquitectónicas frente a las analógicas, analizando sus amenazas específicas y proponiendo defensas y direcciones de investigación para sistemas seguros y desplegables.

Weixuan Chen, Qianqian Yang, Yuanyuan Jia + 5 more2026-03-11💻 cs

Low-rank Orthogonal Subspace Intervention for Generalizable Face Forgery Detection

El artículo propone SeLop, un método de intervención en subespacio ortogonal de bajo rango que elimina las correlaciones espurias irrelevantes para la falsificación en las representaciones de CLIP, logrando así una detección de falsificaciones faciales más robusta y generalizable con un mínimo número de parámetros entrenables.

Chi Wang, Xinjue Hu, Boyu Wang, Ziwen He, Zhangjie Fu2026-03-11💻 cs

Towards a Goal-Centric Assessment of Requirements Engineering Methods for Privacy by Design

Este artículo propone un enfoque centrado en objetivos para evaluar los métodos de ingeniería de requisitos destinados al Privacidad por Diseño, argumentando que su selección debe alinearse con las metas organizacionales en lugar de limitarse a las características del proceso.

Oleksandr Kosenkov, Ehsan Zabardast, Jannik Fischbach, Tony Gorschek, Daniel Mendez2026-03-11💻 cs

← Anterior Siguiente →