cs.CV artículos | Gist.Science

Do Large Language Models Understand Data Visualization Rules?

Este estudio presenta la primera evaluación sistemática de modelos de lenguaje grandes (LLM) como validadores flexibles de reglas de visualización de datos, demostrando que, aunque logran alta adherencia y detectan eficazmente violaciones comunes, su rendimiento disminuye significativamente en reglas perceptuales sutiles y frente a formulaciones técnicas simbólicas en comparación con los solucionadores tradicionales.

Martin Sinnona, Valentin Bonas, Emmanuel Iarussi + 1 more2026-02-24💻 cs

Simulation-Ready Cluttered Scene Estimation via Physics-aware Joint Shape and Pose Optimization

Este artículo propone un método unificado basado en optimización que, aprovechando un modelo de contacto diferenciable y un solucionador eficiente, estima simultáneamente las formas y poses de múltiples objetos rígidos en entornos desordenados para generar escenas listas para simulación.

Wei-Cheng Huang, Jiaheng Han, Xiaohan Ye + 2 more2026-02-24💻 cs

Flow3r: Factored Flow Prediction for Scalable Visual Geometry Learning

Flow3r es un marco de aprendizaje de geometría visual escalable que utiliza predicción de flujo factorizada a partir de videos monoculares no etiquetados para lograr resultados de vanguardia en la reconstrucción de escenas estáticas y dinámicas, superando la dependencia de costosas anotaciones de geometría y pose.

Zhongxiao Cong, Qitao Zhao, Minsik Jeon + 1 more2026-02-24💻 cs

Improving Pixel Embedding Learning through Intermediate Distance Regression Supervision for Instance Segmentation

Este trabajo propone una arquitectura de aprendizaje de incrustaciones de píxeles para la segmentación de instancias que incorpora un módulo de regresión de distancia para generar semillas de agrupamiento y mejorar significativamente la precisión, logrando el mejor resultado en el desafío de segmentación de hojas CVPPP.

Yuli Wu, Long Chen, Dorit Merhof2026-02-23💻 cs

Object Detection Based Handwriting Localization

Este trabajo presenta un enfoque basado en detección de objetos utilizando la red neuronal Cascade R-CNN para localizar y anonimizar regiones de escritura manuscrita en documentos, logrando un procesamiento en tiempo real con alta generalización entre idiomas como el inglés y el chino.

Yuli Wu, Yucheng Hu, Suting Miao2026-02-23💻 cs

Multiscale Softmax Cross Entropy for Fovea Localization on Color Fundus Photography

Este trabajo propone un enfoque novedoso para la localización de la fóvea en imágenes de fondo de ojo, tratando el problema como una tarea de clasificación mediante una función de pérdida de entropía cruzada softmax multiescala que supera el rendimiento de los métodos tradicionales de regresión.

Yuli Wu, Peter Walter, Dorit Merhof2026-02-23⚡ eess

Perceptually Optimized Color Selection for Visualization

Los autores proponen el Modelo de Distribución de Equilibrio (EDM), un método que selecciona automáticamente colores con óptimo contraste perceptual en el espacio CIELAB para visualizaciones científicas, superando a los esquemas armónicos tradicionales al permitir distinguir hasta 100 características únicas.

Subhrajyoti Maji, John Dingliana2026-02-23💻 cs

A Deep Learning-based in silico Framework for Optimization on Retinal Prosthetic Stimulation

Este trabajo propone un marco de aprendizaje profundo basado en redes neuronales que optimiza la estimulación de implantes retinianos simulados mediante un codificador U-Net entrenado, logrando una mejora significativa del 36,17% en la puntuación F1 ponderada en comparación con métodos de submuestreo trivial.

Yuli Wu, Ivan Karetic, Johannes Stegmaier + 2 more2026-02-23⚡ eess

HaDR: Applying Domain Randomization for Generating Synthetic Multimodal Dataset for Hand Instance Segmentation in Cluttered Industrial Environments

Este estudio presenta HaDR, un enfoque que utiliza la aleatorización de dominios para generar un conjunto de datos sintético multimodal (RGB-D) que permite entrenar modelos de segmentación de instancias de manos robustos y agnósticos al color en entornos industriales desordenados, superando en precisión a los modelos entrenados con conjuntos de datos reales existentes.

Stefan Grushko, Aleš Vysocký, Jakub Chlebek + 1 more2026-02-23💻 cs

Retinal OCT Synthesis with Denoising Diffusion Probabilistic Models for Layer Segmentation

Este artículo presenta un método que utiliza modelos de difusión probabilística para generar imágenes sintéticas de OCT retiniano a partir de bocetos, demostrando que estas imágenes pueden mejorar la segmentación de capas y reducir la dependencia de anotaciones manuales.

Yuli Wu, Weidong He, Dennis Eschweiler + 5 more2026-02-23⚡ eess

Visual Fixation-Based Retinal Prosthetic Simulation

Este estudio propone un marco de simulación de prótesis retinal impulsado por fijaciones visuales que, mediante un codificador entrenable y optimización de extremo a extremo, logra una precisión de clasificación del 87,72% al generar percepciones visuales más semánticamente comprensibles, superando significativamente a los métodos de muestreo tradicional.

Yuli Wu, Do Dinh Tan Nguyen, Henning Konermann + 3 more2026-02-23💻 cs

GIFT: A Framework Towards Global Interpretable Faithful Textual Explanations of Vision Classifiers

El marco GIFT propone un enfoque post-hoc que genera explicaciones textuales globales, interpretables y fieles para clasificadores visuales, combinando la creación de contrafactuales visuales, su traducción a lenguaje natural mediante modelos visión-idioma y una verificación causal rigurosa para revelar las reglas de decisión y sesgos latentes de los modelos.

Éloi Zablocki, Valentin Gerard, Amaia Cardiel + 3 more2026-02-23💻 cs

SAMa: Material-aware 3D Selection and Segmentation

El trabajo presenta SAMa, un método optimizado que permite la selección y segmentación automática de materiales en objetos 3D arbitrarios mediante la proyección de predicciones 2D de un modelo basado en video a una nube de puntos intermedia, logrando consistencia multivista y resultados precisos en segundos sin necesidad de optimización por activo.

Michael Fischer, Iliyan Georgiev, Thibault Groueix + 3 more2026-02-23💻 cs

Data-Efficient Inference of Neural Fluid Fields via SciML Foundation Model

Este trabajo demuestra que los modelos fundamentales de aprendizaje científico (SciML) pueden reducir significativamente los requisitos de datos y mejorar la generalización en la inferencia de campos de fluidos neuronales 3D en el mundo real mediante una estrategia de entrenamiento colaborativo que aprovecha representaciones y marcos aumentados extraídos de simulaciones de ecuaciones diferenciales parciales.

Yuqiu Liu, Jingxuan Xu, Mauricio Soroco + 2 more2026-02-23🤖 cs.LG

Scaling Laws in Patchification: An Image Is Worth 50,176 Tokens And More

Este trabajo demuestra que reducir progresivamente el tamaño de los parches en modelos de visión hasta llegar a la tokenización a nivel de píxel (1x1) mejora consistentemente el rendimiento en diversas tareas y arquitecturas, permitiendo escalar secuencias visuales a más de 50.000 tokens sin necesidad de cabezales de decodificación específicos para tareas densas.

Feng Wang, Yaodong Yu, Guoyizhe Wei + 4 more2026-02-23💻 cs

A Pragmatic Note on Evaluating Generative Models with Fréchet Inception Distance for Retinal Image Synthesis

Este artículo examina las limitaciones de la Distancia Fréchet Inception (FID) como métrica de evaluación para la síntesis de imágenes retinianas, demostrando que no se alinea con los objetivos de tareas específicas como la clasificación y la segmentación, y aboga por evaluar los modelos generativos mediante su integración en el entrenamiento de tareas posteriores.

Yuli Wu, Fucheng Liu, Rüveyda Yilmaz + 3 more2026-02-23🤖 cs.LG

Analyzing the Training Dynamics of Image Restoration Transformers: A Revisit to Layer Normalization

Este trabajo identifica que la normalización de capa convencional perjudica el entrenamiento de los transformadores para la restauración de imágenes al causar divergencia de magnitudes y colapso de entropía, y propone una nueva normalización adaptativa (i-LN) que corrige estas desalineaciones para mejorar tanto la dinámica de entrenamiento como el rendimiento final.

MinKyu Lee, Sangeek Hyun, Woojin Jun + 3 more2026-02-23💻 cs

Visual Planning: Let's Think Only with Images

Este trabajo propone el paradigma de "Planificación Visual", un marco de aprendizaje por refuerzo que utiliza secuencias de imágenes en lugar de texto para el razonamiento paso a paso en tareas espaciales, demostrando un rendimiento superior en navegación visual y estableciendo una vía prometedora para la inferencia basada en imágenes.

Yi Xu, Chengzu Li, Han Zhou + 4 more2026-02-23💬 cs.CL

eStonefish-Scenes: A Sim-to-Real Validated and Robot-Centric Event-based Optical Flow Dataset for Underwater Vehicles

Este artículo presenta eStonefish-Scenes, un dataset sintético de flujo óptico basado en eventos validado en escenarios reales para vehículos submarinos, junto con la librería eWiz, demostrando que el entrenamiento exclusivo con datos simulados permite una estimación precisa del flujo óptico en entornos reales sin necesidad de ajuste fino.

Jad Mansour, Sebastian Realpe, Hayat Rajani + 3 more2026-02-23💻 cs

Synthetic History: Evaluating Visual Representations of the Past in Diffusion Models

Este trabajo presenta un nuevo benchmark que evalúa la capacidad de los modelos de difusión texto-imagen para representar contextos históricos, revelando que tienden a estereotipar épocas pasadas mediante estilos visuales implícitos, anacronismos y representaciones demográficas poco plausibles.

Maria-Teresa De Rosa Palmini, Eva Cetinic2026-02-23🤖 cs.AI

← Anterior Siguiente →