cs.CV artículos | Gist.Science

The Invisible Gorilla Effect in Out-of-distribution Detection

Este artículo identifica y denomina "Efecto del Gorila Invisible" a un sesgo previamente no reportado en la detección de datos fuera de distribución, donde el rendimiento de los modelos mejora significativamente cuando los artefactos difíciles de detectar comparten similitud visual con la región de interés del modelo, pero cae drásticamente cuando difieren, como se demostró mediante la evaluación de 40 métodos en múltiples conjuntos de datos y contrafactuales de color.

Harry Anthony, Ziyun Liang, Hermione Warr + 1 more2026-02-24🤖 cs.LG

SemanticNVS: Improving Semantic Scene Understanding in Generative Novel View Synthesis

El artículo presenta SemanticNVS, un modelo de difusión multi-vista condicionado por la cámara que integra extractores de características semánticas preentrenados para mejorar significativamente la calidad y consistencia de la síntesis de vistas novedosas, especialmente en movimientos de cámara a larga distancia donde los métodos existentes suelen fallar.

Xinya Chen, Christopher Wewer, Jiahao Xie + 2 more2026-02-24💻 cs

Do Large Language Models Understand Data Visualization Principles?

Este artículo presenta la primera evaluación sistemática de modelos de lenguaje y visión-langaje para verificar y corregir principios de visualización de datos, revelando que, aunque son prometedores como validadores flexibles, presentan una asimetría donde son más eficaces corrigiendo errores que detectándolos, y aún muestran una brecha frente a los solucionadores simbólicos en aspectos perceptivos sutiles.

Martin Sinnona, Valentin Bonas, Viviana Siless + 1 more2026-02-24💻 cs

Transcending the Annotation Bottleneck: AI-Powered Discovery in Biology and Medicine

Este artículo sintetiza cómo el aprendizaje no supervisado y auto-supervisado está superando la dependencia de la anotación experta en biomedicina, permitiendo el descubrimiento de nuevos fenotipos y la detección de anomalías en grandes conjuntos de datos biológicos con un rendimiento que rivaliza o supera a los métodos supervisados tradicionales.

Soumick Chatterjee2026-02-24⚡ eess

Benchmarking Unlearning for Vision Transformers

Este trabajo presenta el primer benchmark integral para evaluar algoritmos de olvido machine en Vision Transformers, comparando su rendimiento frente a CNNs y estableciendo una línea base reproducible que analiza el impacto de la memorización de datos en diferentes arquitecturas y protocolos de olvido.

Kairan Zhao, Iurie Luca, Peter Triantafillou2026-02-24🤖 cs.AI

NovaPlan: Zero-Shot Long-Horizon Manipulation via Closed-Loop Video Language Planning

El artículo presenta NovaPlan, un marco jerárquico que combina la planificación de lenguaje visual en bucle cerrado con la ejecución robótica geométricamente fundamentada para lograr la manipulación de largo alcance sin necesidad de demostraciones previas ni entrenamiento, permitiendo la recuperación autónoma de errores mediante la generación y análisis de videos.

Jiahui Fu, Junyu Nan, Lingfeng Sun + 5 more2026-02-24🤖 cs.AI

Do Large Language Models Understand Data Visualization Rules?

Este estudio presenta la primera evaluación sistemática de modelos de lenguaje grandes (LLM) como validadores flexibles de reglas de visualización de datos, demostrando que, aunque logran alta adherencia y detectan eficazmente violaciones comunes, su rendimiento disminuye significativamente en reglas perceptuales sutiles y frente a formulaciones técnicas simbólicas en comparación con los solucionadores tradicionales.

Martin Sinnona, Valentin Bonas, Emmanuel Iarussi + 1 more2026-02-24💻 cs

Simulation-Ready Cluttered Scene Estimation via Physics-aware Joint Shape and Pose Optimization

Este artículo propone un método unificado basado en optimización que, aprovechando un modelo de contacto diferenciable y un solucionador eficiente, estima simultáneamente las formas y poses de múltiples objetos rígidos en entornos desordenados para generar escenas listas para simulación.

Wei-Cheng Huang, Jiaheng Han, Xiaohan Ye + 2 more2026-02-24💻 cs

Flow3r: Factored Flow Prediction for Scalable Visual Geometry Learning

Flow3r es un marco de aprendizaje de geometría visual escalable que utiliza predicción de flujo factorizada a partir de videos monoculares no etiquetados para lograr resultados de vanguardia en la reconstrucción de escenas estáticas y dinámicas, superando la dependencia de costosas anotaciones de geometría y pose.

Zhongxiao Cong, Qitao Zhao, Minsik Jeon + 1 more2026-02-24💻 cs

Improving Pixel Embedding Learning through Intermediate Distance Regression Supervision for Instance Segmentation

Este trabajo propone una arquitectura de aprendizaje de incrustaciones de píxeles para la segmentación de instancias que incorpora un módulo de regresión de distancia para generar semillas de agrupamiento y mejorar significativamente la precisión, logrando el mejor resultado en el desafío de segmentación de hojas CVPPP.

Yuli Wu, Long Chen, Dorit Merhof2026-02-23💻 cs

Object Detection Based Handwriting Localization

Este trabajo presenta un enfoque basado en detección de objetos utilizando la red neuronal Cascade R-CNN para localizar y anonimizar regiones de escritura manuscrita en documentos, logrando un procesamiento en tiempo real con alta generalización entre idiomas como el inglés y el chino.

Yuli Wu, Yucheng Hu, Suting Miao2026-02-23💻 cs

Multiscale Softmax Cross Entropy for Fovea Localization on Color Fundus Photography

Este trabajo propone un enfoque novedoso para la localización de la fóvea en imágenes de fondo de ojo, tratando el problema como una tarea de clasificación mediante una función de pérdida de entropía cruzada softmax multiescala que supera el rendimiento de los métodos tradicionales de regresión.

Yuli Wu, Peter Walter, Dorit Merhof2026-02-23⚡ eess

Perceptually Optimized Color Selection for Visualization

Los autores proponen el Modelo de Distribución de Equilibrio (EDM), un método que selecciona automáticamente colores con óptimo contraste perceptual en el espacio CIELAB para visualizaciones científicas, superando a los esquemas armónicos tradicionales al permitir distinguir hasta 100 características únicas.

Subhrajyoti Maji, John Dingliana2026-02-23💻 cs

A Deep Learning-based in silico Framework for Optimization on Retinal Prosthetic Stimulation

Este trabajo propone un marco de aprendizaje profundo basado en redes neuronales que optimiza la estimulación de implantes retinianos simulados mediante un codificador U-Net entrenado, logrando una mejora significativa del 36,17% en la puntuación F1 ponderada en comparación con métodos de submuestreo trivial.

Yuli Wu, Ivan Karetic, Johannes Stegmaier + 2 more2026-02-23⚡ eess

HaDR: Applying Domain Randomization for Generating Synthetic Multimodal Dataset for Hand Instance Segmentation in Cluttered Industrial Environments

Este estudio presenta HaDR, un enfoque que utiliza la aleatorización de dominios para generar un conjunto de datos sintético multimodal (RGB-D) que permite entrenar modelos de segmentación de instancias de manos robustos y agnósticos al color en entornos industriales desordenados, superando en precisión a los modelos entrenados con conjuntos de datos reales existentes.

Stefan Grushko, Aleš Vysocký, Jakub Chlebek + 1 more2026-02-23💻 cs

Retinal OCT Synthesis with Denoising Diffusion Probabilistic Models for Layer Segmentation

Este artículo presenta un método que utiliza modelos de difusión probabilística para generar imágenes sintéticas de OCT retiniano a partir de bocetos, demostrando que estas imágenes pueden mejorar la segmentación de capas y reducir la dependencia de anotaciones manuales.

Yuli Wu, Weidong He, Dennis Eschweiler + 5 more2026-02-23⚡ eess

Visual Fixation-Based Retinal Prosthetic Simulation

Este estudio propone un marco de simulación de prótesis retinal impulsado por fijaciones visuales que, mediante un codificador entrenable y optimización de extremo a extremo, logra una precisión de clasificación del 87,72% al generar percepciones visuales más semánticamente comprensibles, superando significativamente a los métodos de muestreo tradicional.

Yuli Wu, Do Dinh Tan Nguyen, Henning Konermann + 3 more2026-02-23💻 cs

GIFT: A Framework Towards Global Interpretable Faithful Textual Explanations of Vision Classifiers

El marco GIFT propone un enfoque post-hoc que genera explicaciones textuales globales, interpretables y fieles para clasificadores visuales, combinando la creación de contrafactuales visuales, su traducción a lenguaje natural mediante modelos visión-idioma y una verificación causal rigurosa para revelar las reglas de decisión y sesgos latentes de los modelos.

Éloi Zablocki, Valentin Gerard, Amaia Cardiel + 3 more2026-02-23💻 cs

SAMa: Material-aware 3D Selection and Segmentation

El trabajo presenta SAMa, un método optimizado que permite la selección y segmentación automática de materiales en objetos 3D arbitrarios mediante la proyección de predicciones 2D de un modelo basado en video a una nube de puntos intermedia, logrando consistencia multivista y resultados precisos en segundos sin necesidad de optimización por activo.

Michael Fischer, Iliyan Georgiev, Thibault Groueix + 3 more2026-02-23💻 cs

Data-Efficient Inference of Neural Fluid Fields via SciML Foundation Model

Este trabajo demuestra que los modelos fundamentales de aprendizaje científico (SciML) pueden reducir significativamente los requisitos de datos y mejorar la generalización en la inferencia de campos de fluidos neuronales 3D en el mundo real mediante una estrategia de entrenamiento colaborativo que aprovecha representaciones y marcos aumentados extraídos de simulaciones de ecuaciones diferenciales parciales.

Yuqiu Liu, Jingxuan Xu, Mauricio Soroco + 2 more2026-02-23🤖 cs.LG

← Anterior Siguiente →