The Invisible Gorilla Effect in Out-of-distribution Detection

Este artículo identifica y denomina "Efecto del Gorila Invisible" a un sesgo previamente no reportado en la detección de datos fuera de distribución, donde el rendimiento de los modelos mejora significativamente cuando los artefactos difíciles de detectar comparten similitud visual con la región de interés del modelo, pero cae drásticamente cuando difieren, como se demostró mediante la evaluación de 40 métodos en múltiples conjuntos de datos y contrafactuales de color.

Harry Anthony, Ziyun Liang, Hermione Warr + 1 more2026-02-24🤖 cs.LG

SemanticNVS: Improving Semantic Scene Understanding in Generative Novel View Synthesis

El artículo presenta SemanticNVS, un modelo de difusión multi-vista condicionado por la cámara que integra extractores de características semánticas preentrenados para mejorar significativamente la calidad y consistencia de la síntesis de vistas novedosas, especialmente en movimientos de cámara a larga distancia donde los métodos existentes suelen fallar.

Xinya Chen, Christopher Wewer, Jiahao Xie + 2 more2026-02-24💻 cs

Do Large Language Models Understand Data Visualization Principles?

Este artículo presenta la primera evaluación sistemática de modelos de lenguaje y visión-langaje para verificar y corregir principios de visualización de datos, revelando que, aunque son prometedores como validadores flexibles, presentan una asimetría donde son más eficaces corrigiendo errores que detectándolos, y aún muestran una brecha frente a los solucionadores simbólicos en aspectos perceptivos sutiles.

Martin Sinnona, Valentin Bonas, Viviana Siless + 1 more2026-02-24💻 cs

NovaPlan: Zero-Shot Long-Horizon Manipulation via Closed-Loop Video Language Planning

El artículo presenta NovaPlan, un marco jerárquico que combina la planificación de lenguaje visual en bucle cerrado con la ejecución robótica geométricamente fundamentada para lograr la manipulación de largo alcance sin necesidad de demostraciones previas ni entrenamiento, permitiendo la recuperación autónoma de errores mediante la generación y análisis de videos.

Jiahui Fu, Junyu Nan, Lingfeng Sun + 5 more2026-02-24🤖 cs.AI

Do Large Language Models Understand Data Visualization Rules?

Este estudio presenta la primera evaluación sistemática de modelos de lenguaje grandes (LLM) como validadores flexibles de reglas de visualización de datos, demostrando que, aunque logran alta adherencia y detectan eficazmente violaciones comunes, su rendimiento disminuye significativamente en reglas perceptuales sutiles y frente a formulaciones técnicas simbólicas en comparación con los solucionadores tradicionales.

Martin Sinnona, Valentin Bonas, Emmanuel Iarussi + 1 more2026-02-24💻 cs

HaDR: Applying Domain Randomization for Generating Synthetic Multimodal Dataset for Hand Instance Segmentation in Cluttered Industrial Environments

Este estudio presenta HaDR, un enfoque que utiliza la aleatorización de dominios para generar un conjunto de datos sintético multimodal (RGB-D) que permite entrenar modelos de segmentación de instancias de manos robustos y agnósticos al color en entornos industriales desordenados, superando en precisión a los modelos entrenados con conjuntos de datos reales existentes.

Stefan Grushko, Aleš Vysocký, Jakub Chlebek + 1 more2026-02-23💻 cs

GIFT: A Framework Towards Global Interpretable Faithful Textual Explanations of Vision Classifiers

El marco GIFT propone un enfoque post-hoc que genera explicaciones textuales globales, interpretables y fieles para clasificadores visuales, combinando la creación de contrafactuales visuales, su traducción a lenguaje natural mediante modelos visión-idioma y una verificación causal rigurosa para revelar las reglas de decisión y sesgos latentes de los modelos.

Éloi Zablocki, Valentin Gerard, Amaia Cardiel + 3 more2026-02-23💻 cs

Data-Efficient Inference of Neural Fluid Fields via SciML Foundation Model

Este trabajo demuestra que los modelos fundamentales de aprendizaje científico (SciML) pueden reducir significativamente los requisitos de datos y mejorar la generalización en la inferencia de campos de fluidos neuronales 3D en el mundo real mediante una estrategia de entrenamiento colaborativo que aprovecha representaciones y marcos aumentados extraídos de simulaciones de ecuaciones diferenciales parciales.

Yuqiu Liu, Jingxuan Xu, Mauricio Soroco + 2 more2026-02-23🤖 cs.LG