cs artículos | Gist.Science

DISPLAY: Directable Human-Object Interaction Video Generation via Sparse Motion Guidance and Multi-Task Auxiliary

El artículo presenta DISPLAY, un marco de generación de videos de interacción humano-objeto que logra un control intuitivo y alta fidelidad mediante una guía de movimiento dispersa (coordenadas de muñeca y cajas delimitadoras de objetos) y una estrategia de entrenamiento auxiliar multi-tarea para superar las limitaciones de flexibilidad y consistencia física de los métodos existentes.

Jiazhi Guan, Quanwei Yang, Luying Huang, Junhao Liang, Borong Liang, Haocheng Feng, Wei He, Kaisiyuan Wang, Hang Zhou, Jingdong Wang2026-03-11💻 cs

Robust Cooperative Localization in Featureless Environments: A Comparative Study of DCL, StCL, CCL, CI, and Standard-CL

Este artículo presenta un estudio comparativo en ROS de cinco enfoques de localización cooperativa que revela que, aunque StCL y Standard-CL ofrecen la mayor precisión, CI es el método más equilibrado al garantizar consistencia y precisión, mientras que DCL destaca por su estabilidad ante datos atípicos en entornos sin características.

Nivand Khosravi, Meysam Basiri, Rodrigo Ventura2026-03-11💻 cs

Overview of the TREC 2025 Retrieval Augmented Generation (RAG) Track

La segunda edición de la pista de Generación Aumentada por Recuperación (RAG) de TREC 2025 avanza en el desarrollo de sistemas confiables y contextualmente conscientes mediante la introducción de consultas narrativas complejas, el uso del corpus MS MARCO V2.1 y una evaluación multifacética que prioriza la transparencia y la fundamentación factual.

Shivani Upadhyay, Nandan Thakur, Ronak Pradeep, Nick Craswell, Daniel Campos, Jimmy Lin2026-03-11💻 cs

Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports

Este trabajo presenta CourtSI, el primer conjunto de datos a gran escala y su correspondiente benchmark para evaluar y mejorar la inteligencia espacial de los modelos de visión y lenguaje en escenarios deportivos, demostrando que el ajuste fino en este dominio cierra la brecha de rendimiento humano-AI y mejora la capacidad de generalización de los modelos.

Yuchen Yang, Yuqing Shao, Duxiu Huang, Linfeng Dong, Yifei Liu, Suixin Tang, Xiang Zhou, Yuanyuan Gao, Wei Wang, Yue Zhou, Xue Yang, Yanfeng Wang, Xiao Sun, Zhihang Zhong2026-03-11💻 cs

The 802.11 MAC protocol leads to inefficient equilibria

Este artículo demuestra mediante un modelo teórico de juegos y simulaciones que el protocolo MAC 802.11 actual puede conducir a equilibrios de Nash ineficientes en entornos no cooperativos, y propone que un protocolo ideal que desacople la asignación de recursos de las estrategias de transmisión permitiría a los nodos alcanzar un mayor rendimiento global.

Godfrey Tan, John Guttag2026-03-11💻 cs

Role Classification of Hosts within Enterprise Networks Based on Connection Patterns

Este artículo presenta dos algoritmos prácticos que clasifican los hosts de redes empresariales en grupos basados en sus patrones de conexión, logrando una reducción significativa en la cantidad de grupos y reflejando eficazmente la estructura lógica de la red para facilitar la gestión y el análisis de seguridad.

Godfrey Tan, Massimiliano Poletto, John Guttag, Frans Kaashoek2026-03-11💻 cs

WikiCLIP: An Efficient Contrastive Baseline for Open-domain Visual Entity Recognition

El paper presenta WikiCLIP, un marco eficiente y efectivo para el reconocimiento de entidades visuales en dominios abiertos que supera a los métodos generativos existentes al combinar representaciones de entidades enriquecidas por modelos de lenguaje con un adaptador guiado por visión y un mecanismo de síntesis de negativos difíciles, logrando mejoras significativas en rendimiento y reduciendo la latencia de inferencia en casi 100 veces.

Shan Ning, Longtian Qiu, Jiaxuan Sun, Xuming He2026-03-11💻 cs

On the Structural Failure of Chamfer Distance in 3D Shape Optimization

El artículo demuestra que la optimización directa de la distancia de chamfer falla estructuralmente debido a un colapso de muchos a uno causado por gradientes locales, y propone que la introducción de acoplamiento no local, como en deformaciones de base compartida o priores MPM diferenciables, es esencial para suprimir este colapso y lograr una reconstrucción de formas 3D exitosa.

Chang-Yong Song, David Hyde2026-03-11💻 cs

How to Write to SSDs

Este artículo demuestra que la adopción de escrituras fuera de lugar es fundamental para optimizar el rendimiento y la vida útil de las SSD, presentando un rediseño de LeanStore que reduce significativamente la amplificación de escritura y mejora el rendimiento en cargas de trabajo OLTP.

Bohyun Lee, Tobias Ziegler, Viktor Leis2026-03-11💻 cs

Fine-grained Motion Retrieval via Joint-Angle Motion Images and Token-Patch Late Interaction

Este trabajo propone un método interpretable para la recuperación de movimiento a partir de texto que utiliza representaciones de imágenes de ángulos articulares y una interacción tardía token-parche para superar las limitaciones de las representaciones globales y lograr correspondencias finas y precisas entre descripciones lingüísticas y secuencias de movimiento 3D.

Yao Zhang, Zhuchenyang Liu, Yanlan He, Thomas Ploetz, Yu Xiao2026-03-11💻 cs

Unsupervised Domain Adaptation with Target-Only Margin Disparity Discrepancy

Este artículo presenta un marco novedoso de adaptación de dominio no supervisada basado en la discrepancia de disparidad de márgenes (MDD) que mejora la segmentación del hígado en imágenes de tomografía computarizada cónica (CBCT) intervencionista al aprovechar datos anotados de TC, logrando un rendimiento de vanguardia tanto en escenarios no supervisados como de pocos ejemplos.

Gauthier Miralles, Loïc Le Folgoc, Vincent Jugnon, Pietro Gori2026-03-11💻 cs

A Voronoi Cell Formulation for Principled Token Pruning in Late-Interaction Retrieval Models

Este trabajo propone un marco de poda de tokens fundamentado en la geometría de espacios hiperesféricos y la estimación de celdas de Voronoi para reducir la sobrecarga de almacenamiento en modelos de recuperación de interacción tardía como ColBERT, manteniendo al mismo tiempo la calidad de la recuperación y ofreciendo una mayor interpretabilidad.

Yash Kankanampati, Yuxuan Zong, Nadi Tomeh, Benjamin Piwowarksi, Joseph Le Roux2026-03-11💻 cs

Leveraging whole slide difficulty in Multiple Instance Learning to improve prostate cancer grading

Este artículo propone y valida dos métodos de Aprendizaje Multi-Instancia que aprovechan la dificultad de las diapositivas completas, definida por el desacuerdo entre patólogos expertos y no expertos, para mejorar significativamente la clasificación del cáncer de próstata, especialmente en los grados Gleason más altos.

Marie Arrivat, Rémy Peyret, Elsa Angelini, Pietro Gori2026-03-11💻 cs

Kinodynamic Motion Retargeting for Humanoid Locomotion via Multi-Contact Whole-Body Trajectory Optimization

Este artículo presenta KDMR, un marco novedoso de reasignación de movimiento cinodinámico que utiliza optimización de trayectorias de cuerpo completo con restricciones de dinámica y contacto para generar locomoción de humanoides físicamente viables, superando las limitaciones de los métodos puramente cinemáticos y mejorando la estabilidad y eficiencia de las políticas de control posteriores.

Xiaoyu Zhang, Steven Haener, Varun Madabushi, Maegan Tucker2026-03-11💻 cs

Tetris is Hard with Just One Piece Type

Este artículo demuestra que el problema de despejar o sobrevivir en Tetris es NP-duro para cualquier tipo de tetrominó excepto el cuadrado (O) bajo el sistema de rotación estándar, refutando una conjetura de 23 años sobre el caso de las piezas I, mientras que presenta algoritmos de tiempo polinómico para dominós y piezas de 1×k bajo ciertas condiciones.

MIT Hardness Group, Josh Brunner, Erik D. Demaine, Della Hendrickson, Jeffery Li2026-03-11💻 cs

ReCoSplat: Autoregressive Feed-Forward Gaussian Splatting Using Render-and-Compare

ReCoSplat es un modelo de Splatting Gaussiano autoregresivo que utiliza un módulo Render-and-Compare para estabilizar la reconstrucción de escenas ante errores de pose y una estrategia de compresión de caché híbrida para manejar secuencias largas, logrando así un rendimiento superior en la síntesis de nuevas vistas en línea.

Freeman Cheng, Botao Ye, Xueting Li, Junqi You, Fangneng Zhan, Ming-Hsuan Yang2026-03-11💻 cs

TiPToP: A Modular Open-Vocabulary Planning System for Robotic Manipulation

El artículo presenta TiPToP, un sistema modular de código abierto que combina modelos de visión preentrenados con un planificador de tareas y movimientos para resolver tareas de manipulación robótica complejas a partir de imágenes y lenguaje natural, logrando un rendimiento comparable o superior a modelos entrenados con grandes volúmenes de datos de demostración sin requerir datos específicos del robot.

William Shen, Nishanth Kumar, Sahit Chintalapudi, Jie Wang, Christopher Watson, Edward Hu, Jing Cao, Dinesh Jayaraman, Leslie Pack Kaelbling, Tomás Lozano-Pérez2026-03-11💻 cs

d-DNNF Modulo Theories: A General Framework for Polytime SMT Queries

Este artículo presenta un marco general novedoso que extiende la compilación a d-DNNF al nivel de SMT mediante la combinación de fórmulas de entrada con lemas teóricos precalculados, permitiendo así realizar consultas SMT en tiempo polinomial utilizando razonadores proposicionales estándar.

Gabriele Masina, Emanuale Civini, Massimo Michelutti, Giuseppe Spallitta, Roberto Sebastiani2026-03-11💻 cs

Agent based decision making for Integrated Air Defense system

Este artículo presenta un sistema de defensa aérea integrado basado en agentes que utiliza arquitecturas BDI y razonamiento de planes de nivel meta para automatizar la detección, evaluación de amenazas y asignación de armas sin intervención manual, ofreciendo una solución avanzada para el mando y control en la guerra centrada en redes.

Sumanta Kumar Das, Sumant Mukherjee2026-03-10💻 cs

Learning from Viral Content

Este artículo analiza cómo los algoritmos de redes sociales que priorizan contenido viral pueden mejorar la agregación de información o, paradójicamente, generar estados estables de desinformación en los que los usuarios comparten racionalmente historias erróneas debido a las creencias formadas por sus predecesores, ofreciendo implicaciones clave para el diseño de plataformas.

Krishna Dasaratha, Kevin He2026-03-10💻 cs

← Anterior Siguiente →