Decoupling Defense Strategies for Robust Image Watermarking

El artículo presenta AdvMark, un marco de ajuste fino en dos etapas que desacopla las estrategias de defensa para superar las vulnerabilidades de la marca de agua en imágenes basada en aprendizaje profundo, logrando simultáneamente una mayor robustez frente a ataques adversarios, de regeneración y distorsión sin comprometer la precisión en datos limpios ni la calidad visual.

Jiahui Chen, Zehang Deng, Zeyu Zhang + 3 more2026-02-24💻 cs

To Move or Not to Move: Constraint-based Planning Enables Zero-Shot Generalization for Interactive Navigation

Este artículo presenta un marco de planificación basado en restricciones impulsado por modelos de lenguaje grande que permite a un robot móvil con capacidades de manipulación resolver el problema de navegación interactiva de por vida en entornos desordenados, logrando una generalización cero-shot al razonar sobre un grafo de escena estructurado y combinar la percepción activa con la ejecución de movimientos para despejar rutas y completar tareas secuenciales de colocación de objetos.

Apoorva Vashisth, Manav Kulshrestha, Pranav Bakshi + 3 more2026-02-24🤖 cs.AI

HeatPrompt: Zero-Shot Vision-Language Modeling of Urban Heat Demand from Satellite Images

El artículo presenta HeatPrompt, un marco de modelado energético visión-lingüístico de cero disparos que estima la demanda de calor anual a partir de imágenes satelitales y datos GIS básicos, logrando una mejora significativa en la precisión respecto a los modelos basales y ofreciendo una solución ligera para la planificación térmica en regiones con escasez de datos.

Kundan Thota, Xuanhao Mu, Thorsten Schlachter + 1 more2026-02-24🤖 cs.AI

The Invisible Gorilla Effect in Out-of-distribution Detection

Este artículo identifica y denomina "Efecto del Gorila Invisible" a un sesgo previamente no reportado en la detección de datos fuera de distribución, donde el rendimiento de los modelos mejora significativamente cuando los artefactos difíciles de detectar comparten similitud visual con la región de interés del modelo, pero cae drásticamente cuando difieren, como se demostró mediante la evaluación de 40 métodos en múltiples conjuntos de datos y contrafactuales de color.

Harry Anthony, Ziyun Liang, Hermione Warr + 1 more2026-02-24🤖 cs.LG

SemanticNVS: Improving Semantic Scene Understanding in Generative Novel View Synthesis

El artículo presenta SemanticNVS, un modelo de difusión multi-vista condicionado por la cámara que integra extractores de características semánticas preentrenados para mejorar significativamente la calidad y consistencia de la síntesis de vistas novedosas, especialmente en movimientos de cámara a larga distancia donde los métodos existentes suelen fallar.

Xinya Chen, Christopher Wewer, Jiahao Xie + 2 more2026-02-24💻 cs

Do Large Language Models Understand Data Visualization Principles?

Este artículo presenta la primera evaluación sistemática de modelos de lenguaje y visión-langaje para verificar y corregir principios de visualización de datos, revelando que, aunque son prometedores como validadores flexibles, presentan una asimetría donde son más eficaces corrigiendo errores que detectándolos, y aún muestran una brecha frente a los solucionadores simbólicos en aspectos perceptivos sutiles.

Martin Sinnona, Valentin Bonas, Viviana Siless + 1 more2026-02-24💻 cs

NovaPlan: Zero-Shot Long-Horizon Manipulation via Closed-Loop Video Language Planning

El artículo presenta NovaPlan, un marco jerárquico que combina la planificación de lenguaje visual en bucle cerrado con la ejecución robótica geométricamente fundamentada para lograr la manipulación de largo alcance sin necesidad de demostraciones previas ni entrenamiento, permitiendo la recuperación autónoma de errores mediante la generación y análisis de videos.

Jiahui Fu, Junyu Nan, Lingfeng Sun + 5 more2026-02-24🤖 cs.AI

Do Large Language Models Understand Data Visualization Rules?

Este estudio presenta la primera evaluación sistemática de modelos de lenguaje grandes (LLM) como validadores flexibles de reglas de visualización de datos, demostrando que, aunque logran alta adherencia y detectan eficazmente violaciones comunes, su rendimiento disminuye significativamente en reglas perceptuales sutiles y frente a formulaciones técnicas simbólicas en comparación con los solucionadores tradicionales.

Martin Sinnona, Valentin Bonas, Emmanuel Iarussi + 1 more2026-02-24💻 cs

HaDR: Applying Domain Randomization for Generating Synthetic Multimodal Dataset for Hand Instance Segmentation in Cluttered Industrial Environments

Este estudio presenta HaDR, un enfoque que utiliza la aleatorización de dominios para generar un conjunto de datos sintético multimodal (RGB-D) que permite entrenar modelos de segmentación de instancias de manos robustos y agnósticos al color en entornos industriales desordenados, superando en precisión a los modelos entrenados con conjuntos de datos reales existentes.

Stefan Grushko, Aleš Vysocký, Jakub Chlebek + 1 more2026-02-23💻 cs