cs artículos | Gist.Science

Let's Reward Step-by-Step: Step-Aware Contrastive Alignment for Vision-Language Navigation in Continuous Environments

Este artículo presenta SACA, un marco de alineación contrastiva sensible a los pasos que mejora la navegación visión-lenguaje en entornos continuos al extraer supervisión densa de trayectorias imperfectas para resolver los problemas de errores acumulativos y recompensas dispersas que limitan a los modelos actuales.

Haoyuan Li, Rui Liu, Hehe Fan, Yi Yang2026-03-11💻 cs

ENIGMA-360: An Ego-Exo Dataset for Human Behavior Understanding in Industrial Scenarios

El artículo presenta ENIGMA-360, un nuevo conjunto de datos sincronizado de vistas egocéntrica y exocéntrica grabado en un entorno industrial real y etiquetado para facilitar la comprensión del comportamiento humano mediante tareas como la segmentación temporal de acciones, el reconocimiento de pasos clave y la detección de interacciones persona-objeto.

Francesco Ragusa, Rosario Leonardi, Michele Mazzamuto, Daniele Di Mauro, Camillo Quattrocchi, Alessandro Passanisi, Irene D'Ambra, Antonino Furnari, Giovanni Maria Farinella2026-03-11💻 cs

LAP: A Language-Aware Planning Model For Procedure Planning In Instructional Videos

El artículo presenta LAP, un modelo de planificación que utiliza un modelo de lenguaje-visión para convertir observaciones visuales en descripciones textuales más distintivas y generar secuencias de acciones mediante un modelo de difusión, logrando así un rendimiento superior en la planificación de procedimientos para videos instruccionales.

Lei Shi, Victor Aregbede, Andreas Persson, Martin Längkvist, Amy Loutfi, Stephanie Lowry2026-03-11💻 cs

Caterpillar-Inspired Spring-Based Compressive Continuum Robot for Bristle-based Exploration

Este artículo presenta un robot continuo impulsado por tendones y resorte, inspirado en la locomoción de las orugas, que integra sensores de contacto tipo cerdas para permitir la exploración y percepción de superficies en espacios confinados mediante un brazo robótico comercial.

Zhixian Hu, Yu She, Juan Wachs2026-03-11💻 cs

Simultaneous Embedding of Two Paths on the Grid

El artículo demuestra que minimizar la longitud de la arista más larga en la incrustación geométrica simultánea de dos caminos en una cuadrícula entera es NP-duro, mientras que presenta un algoritmo de tiempo $O(n^{3/2})$ para minimizar el perímetro de la cuadrícula cuando un camino es $x$ -monótono y el otro es $y$ -monótono.

Stephen Kobourov, William Lenhart, Giuseppe Liotta, Daniel Perz, Pavel Valtr, Johannes Zink2026-03-11💻 cs

The Richest Paradigm You're Not Using: Commercial Videogames at the Intersection of Human-Computer Interaction and Cognitive Science

Este artículo argumenta que los videojuegos comerciales constituyen un entorno de investigación subutilizado pero ideal en la intersección de la interacción humano-computadora y la ciencia cognitiva, ofreciendo una validez ecológica superior a los paradigmas de laboratorio tradicionales para estudiar procesos como la percepción, la atención y la función ejecutiva mediante un marco de mapeo de affordances y herramientas observacionales mínimas.

Jaap Munneke, Jennifer E. Corbett2026-03-11💻 cs

Epistemic Closure: Autonomous Mechanism Completion for Physically Consistent Simulation

Este trabajo presenta un agente generativo neuro-simbólico que supera las alucinaciones físicas en la simulación científica al validar y completar autónomamente los mecanismos físicos faltantes mediante razonamiento deductivo, demostrando su eficacia en la predicción correcta de la respuesta de rocas bajo presurización térmica al identificar y corregir suposiciones teóricas erróneas.

Yue Wua, Tianhao Su, Rui Hu, Mingchuan Zhao, Shunbo Hu, Deng Pan, Jizhong Huang2026-03-11💻 cs

LogoDiffuser: Training-Free Multilingual Logo Generation and Stylization via Letter-Aware Attention Control

LogoDiffuser es un método sin entrenamiento que genera y estiliza logotipos multilingües integrando la estructura de los caracteres mediante mapas de atención inyectados en transformadores de difusión multimodales, evitando así distorsiones geométricas y la necesidad de reentrenamiento.

Mingyu Kang, Hyein Seo, Yuna Jeong, Junhyeong Park, Yong Suk Choi2026-03-11💻 cs

MuxGel: Simultaneous Dual-Modal Visuo-Tactile Sensing via Spatially Multiplexing and Deep Reconstruction

El artículo presenta MuxGel, un sensor visuo-táctil de doble modalidad que utiliza un patrón de tablero de ajedrez y reconstrucción profunda para capturar simultáneamente información visual externa y señales táctiles a través de una sola cámara, superando las limitaciones tradicionales de los sensores táctiles basados en visión.

Zhixian Hu, Zhengtong Xu, Sheeraz Athar, Juan Wachs, Yu She2026-03-11💻 cs

Removing the Trigger, Not the Backdoor: Alternative Triggers and Latent Backdoors

Este artículo demuestra que las defensas actuales contra puertas traseras son insuficientes porque eliminar el desencadenante original no elimina la vulnerabilidad, ya que existen "desencadenantes alternativos" que explotan la dirección latente de la puerta trasera en el espacio de características, lo que sugiere la necesidad de desarrollar defensas que se enfoquen en la representación en lugar de en los desencadenantes de entrada.

Gorka Abad, Ermes Franch, Stefanos Koffas, Stjepan Picek2026-03-11💻 cs

Deblurring structural edges in variable thickness topology optimization via density-gradient-informed projection

Este artículo presenta un método de proyección informado por el gradiente de densidad que elimina eficazmente el desenfoque de los bordes estructurales y suprime las regiones de espesor indeseable en la optimización topológica de espesor variable, mejorando la definición geométrica sin comprometer significativamente el cumplimiento estructural.

Gabriel Stankiewicz, Chaitanya Dev, Paul Steinmann2026-03-11💻 cs

CLIOPATRA: Extracting Private Information from LLM Insights

El artículo presenta CLIOPATRA, el primer ataque que demuestra cómo un adversario puede eludir las protecciones de privacidad de sistemas de análisis de IA como Clio para extraer información médica sensible de usuarios, revelando que las defensas heurísticas actuales son insuficientes.

Meenatchi Sundaram Muthu Selva Annamalai, Emiliano De Cristofaro, Peter Kairouz2026-03-11💻 cs

TIMID: Time-Dependent Mistake Detection in Videos of Robot Executions

El artículo presenta TIMID, una nueva arquitectura de detección de anomalías en video que utiliza aprendizaje débilmente supervisado y un dataset de simulación multi-robot para identificar errores temporales dependientes del tiempo en la ejecución de tareas complejas por parte de robots, superando las limitaciones de los modelos de visión-lingüística actuales.

Nerea Gallego (University of Zaragoza), Fernando Salanova (University of Zaragoza), Claudio Mannarano (University of Zaragoza, University of Torino), Cristian Mahulea (University of Zaragoza), Eduardo Montijano (University of Zaragoza)2026-03-11💻 cs

Test-time Ego-Exo-centric Adaptation for Action Anticipation via Multi-Label Prototype Growing and Dual-Clue Consistency

Este artículo presenta DCPGN, un nuevo método de adaptación en tiempo de prueba que utiliza un módulo de crecimiento de prototipos multi-etiqueta y una consistencia de doble pista visual-textual para anticipar acciones y cerrar la brecha entre las vistas egocéntrica y exocéntrica sin necesidad de datos de entrenamiento en el objetivo.

Zhaofeng Shi, Heqian Qiu, Lanxiao Wang, Qingbo Wu, Fanman Meng, Lili Pan, Hongliang Li2026-03-11💻 cs

Expressive Power of Property Graph Constraint Languages

Este artículo presenta el primer estudio sistemático sobre el poder expresivo del lenguaje de restricciones PG-Keys para grafos de propiedades, estableciendo una jerarquía estricta de expresividad al compararlo con las dependencias funcionales y generativas de grafos (GFD y GGD) dentro de un marco unificado, con el fin de informar la futura revisión del estándar GQL.

Stefania Dumbrava, Nadime Francis, Victor Marsault, Steven Sailly2026-03-11💻 cs

RA-SSU: Towards Fine-Grained Audio-Visual Learning with Region-Aware Sound Source Understanding

Este trabajo introduce la tarea de aprendizaje audio-visual de granularidad fina denominada RA-SSU, respaldada por dos nuevos conjuntos de datos (f-Music y f-Lifescene) y el modelo SSUFormer, para lograr una comprensión detallada, a nivel de marco y consciente de la región de las fuentes sonoras.

Muyi Sun, Yixuan Wang, Hong Wang, Chen Su, Man Zhang, Xingqun Qi, Qi Li, Zhenan Sun2026-03-11💻 cs

ConfCtrl: Enabling Precise Camera Control in Video Diffusion via Confidence-Aware Interpolation

El artículo presenta ConfCtrl, un marco de interpolación de video consciente de la confianza que permite a los modelos de difusión generar vistas novedosas geométricamente consistentes y visualmente plausibles a partir de solo dos imágenes, superando las limitaciones de los métodos existentes mediante una proyección ponderada por confianza y un mecanismo de corrección residual inspirado en el filtro de Kalman para manejar grandes cambios de perspectiva.

Liudi Yang, George Eskandar, Fengyi Shen, Mohammad Altillawi, Yang Bai, Chi Zhang, Ziyuan Liu, Abhinav Valada2026-03-11💻 cs

EmoSURA: Towards Accurate Evaluation of Detailed and Long-Context Emotional Speech Captions

El artículo presenta EmoSURA, un nuevo marco de evaluación que supera las limitaciones de las métricas tradicionales y los jueces basados en LLM al descomponer las descripciones emocionales de voz en unidades perceptuales atómicas para verificarlas directamente contra la señal de audio, ofreciendo así una evaluación más precisa y correlacionada con el juicio humano para textos largos.

Xin Jing, Andreas Triantafyllopoulos, Jiadong Wang, Shahin Amiriparian, Jun Luo, Björn Schuller2026-03-11💻 cs

BrainSTR: Spatio-Temporal Contrastive Learning for Interpretable Dynamic Brain Network Modeling

El artículo presenta BrainSTR, un marco de aprendizaje contrastivo espaciotemporal que modela redes cerebrales dinámicas interpretables mediante la identificación de fases críticas y subredes relacionadas con enfermedades, mejorando así el diagnóstico neuropsiquiátrico en trastornos como el autismo, el trastorno bipolar y la depresión mayor.

Guiliang Guo, Guangqi Wen, Lingwen Liu, Ruoxian Song, Peng Cao, Jinzhu Yang, Fei Wang, Xiaoli Liu, Osmar R. Zaiane2026-03-11💻 cs

VLM-Loc: Localization in Point Cloud Maps via Vision-Language Models

El artículo presenta VLM-Loc, un marco que utiliza modelos de visión-idioma para mejorar la localización en mapas de nubes de puntos mediante la transformación de datos geométricos y semánticos en representaciones estructuradas que permiten un razonamiento espacial interpretable, validado con el nuevo conjunto de datos CityLoc.

Shuhao Kang, Youqi Liao, Peijie Wang, Wenlong Liao, Qilin Zhang, Benjamin Busam, Xieyuanli Chen, Yun Liu2026-03-11💻 cs

← Anterior Siguiente →