cs.CV artículos | Gist.Science

HaDR: Applying Domain Randomization for Generating Synthetic Multimodal Dataset for Hand Instance Segmentation in Cluttered Industrial Environments

Este estudio presenta HaDR, un enfoque que utiliza la aleatorización de dominios para generar un conjunto de datos sintético multimodal (RGB-D) que permite entrenar modelos de segmentación de instancias de manos robustos y agnósticos al color en entornos industriales desordenados, superando en precisión a los modelos entrenados con conjuntos de datos reales existentes.

Stefan Grushko, Aleš Vysocký, Jakub Chlebek + 1 more2026-02-23💻 cs

Retinal OCT Synthesis with Denoising Diffusion Probabilistic Models for Layer Segmentation

Este artículo presenta un método que utiliza modelos de difusión probabilística para generar imágenes sintéticas de OCT retiniano a partir de bocetos, demostrando que estas imágenes pueden mejorar la segmentación de capas y reducir la dependencia de anotaciones manuales.

Yuli Wu, Weidong He, Dennis Eschweiler + 5 more2026-02-23⚡ eess

Visual Fixation-Based Retinal Prosthetic Simulation

Este estudio propone un marco de simulación de prótesis retinal impulsado por fijaciones visuales que, mediante un codificador entrenable y optimización de extremo a extremo, logra una precisión de clasificación del 87,72% al generar percepciones visuales más semánticamente comprensibles, superando significativamente a los métodos de muestreo tradicional.

Yuli Wu, Do Dinh Tan Nguyen, Henning Konermann + 3 more2026-02-23💻 cs

GIFT: A Framework Towards Global Interpretable Faithful Textual Explanations of Vision Classifiers

El marco GIFT propone un enfoque post-hoc que genera explicaciones textuales globales, interpretables y fieles para clasificadores visuales, combinando la creación de contrafactuales visuales, su traducción a lenguaje natural mediante modelos visión-idioma y una verificación causal rigurosa para revelar las reglas de decisión y sesgos latentes de los modelos.

Éloi Zablocki, Valentin Gerard, Amaia Cardiel + 3 more2026-02-23💻 cs

SAMa: Material-aware 3D Selection and Segmentation

El trabajo presenta SAMa, un método optimizado que permite la selección y segmentación automática de materiales en objetos 3D arbitrarios mediante la proyección de predicciones 2D de un modelo basado en video a una nube de puntos intermedia, logrando consistencia multivista y resultados precisos en segundos sin necesidad de optimización por activo.

Michael Fischer, Iliyan Georgiev, Thibault Groueix + 3 more2026-02-23💻 cs

Data-Efficient Inference of Neural Fluid Fields via SciML Foundation Model

Este trabajo demuestra que los modelos fundamentales de aprendizaje científico (SciML) pueden reducir significativamente los requisitos de datos y mejorar la generalización en la inferencia de campos de fluidos neuronales 3D en el mundo real mediante una estrategia de entrenamiento colaborativo que aprovecha representaciones y marcos aumentados extraídos de simulaciones de ecuaciones diferenciales parciales.

Yuqiu Liu, Jingxuan Xu, Mauricio Soroco + 2 more2026-02-23🤖 cs.LG

Scaling Laws in Patchification: An Image Is Worth 50,176 Tokens And More

Este trabajo demuestra que reducir progresivamente el tamaño de los parches en modelos de visión hasta llegar a la tokenización a nivel de píxel (1x1) mejora consistentemente el rendimiento en diversas tareas y arquitecturas, permitiendo escalar secuencias visuales a más de 50.000 tokens sin necesidad de cabezales de decodificación específicos para tareas densas.

Feng Wang, Yaodong Yu, Guoyizhe Wei + 4 more2026-02-23💻 cs

A Pragmatic Note on Evaluating Generative Models with Fréchet Inception Distance for Retinal Image Synthesis

Este artículo examina las limitaciones de la Distancia Fréchet Inception (FID) como métrica de evaluación para la síntesis de imágenes retinianas, demostrando que no se alinea con los objetivos de tareas específicas como la clasificación y la segmentación, y aboga por evaluar los modelos generativos mediante su integración en el entrenamiento de tareas posteriores.

Yuli Wu, Fucheng Liu, Rüveyda Yilmaz + 3 more2026-02-23🤖 cs.LG

Analyzing the Training Dynamics of Image Restoration Transformers: A Revisit to Layer Normalization

Este trabajo identifica que la normalización de capa convencional perjudica el entrenamiento de los transformadores para la restauración de imágenes al causar divergencia de magnitudes y colapso de entropía, y propone una nueva normalización adaptativa (i-LN) que corrige estas desalineaciones para mejorar tanto la dinámica de entrenamiento como el rendimiento final.

MinKyu Lee, Sangeek Hyun, Woojin Jun + 3 more2026-02-23💻 cs

Visual Planning: Let's Think Only with Images

Este trabajo propone el paradigma de "Planificación Visual", un marco de aprendizaje por refuerzo que utiliza secuencias de imágenes en lugar de texto para el razonamiento paso a paso en tareas espaciales, demostrando un rendimiento superior en navegación visual y estableciendo una vía prometedora para la inferencia basada en imágenes.

Yi Xu, Chengzu Li, Han Zhou + 4 more2026-02-23💬 cs.CL

eStonefish-Scenes: A Sim-to-Real Validated and Robot-Centric Event-based Optical Flow Dataset for Underwater Vehicles

Este artículo presenta eStonefish-Scenes, un dataset sintético de flujo óptico basado en eventos validado en escenarios reales para vehículos submarinos, junto con la librería eWiz, demostrando que el entrenamiento exclusivo con datos simulados permite una estimación precisa del flujo óptico en entornos reales sin necesidad de ajuste fino.

Jad Mansour, Sebastian Realpe, Hayat Rajani + 3 more2026-02-23💻 cs

Synthetic History: Evaluating Visual Representations of the Past in Diffusion Models

Este trabajo presenta un nuevo benchmark que evalúa la capacidad de los modelos de difusión texto-imagen para representar contextos históricos, revelando que tienden a estereotipar épocas pasadas mediante estilos visuales implícitos, anacronismos y representaciones demográficas poco plausibles.

Maria-Teresa De Rosa Palmini, Eva Cetinic2026-02-23🤖 cs.AI

Soft-CAM: Making black box models self-explainable for medical image analysis

Este trabajo presenta Soft-CAM, un enfoque que transforma las arquitecturas CNN estándar en modelos inherentemente interpretables para el análisis de imágenes médicas, eliminando la necesidad de métodos de explicación *post-hoc* y logrando mapas de activación explícitos sin comprometer el rendimiento de clasificación.

Kerol Djoumessi, Philipp Berens2026-02-23🤖 cs.LG

Mod-Adapter: Tuning-Free and Versatile Multi-concept Personalization via Modulation Adapter

El artículo presenta Mod-Adapter, un método sin ajuste previo que personaliza múltiples conceptos (tanto objetos como abstractos) en la generación de imágenes mediante un adaptador de modulación que utiliza atención cruzada visión-idioma y capas de expertos mixtos, todo ello optimizado con una estrategia de preentrenamiento guiada por modelos de lenguaje visual.

Weizhi Zhong, Huan Yang, Zheng Liu + 5 more2026-02-23💻 cs

Learning to Weight Parameters for Training Data Attribution

Este trabajo propone un método que aprende explícitamente pesos de importancia para los parámetros de la red directamente desde los datos, mejorando la precisión de la atribución de datos de entrenamiento en diversas tareas al modelar la heterogeneidad funcional de los parámetros sin necesidad de etiquetas anotadas.

Shuangqi Li, Hieu Le, Jingyi Xu + 1 more2026-02-23🤖 cs.LG

GraphGSOcc: Semantic-Geometric Graph Transformer with Dynamic-Static Decoupling for 3D Gaussian Splatting-based Occupancy Prediction

El artículo presenta GraphGSOcc, un marco novedoso que combina transformadores gráficos semántico-geométricos con un mecanismo de desacoplamiento dinámico-estático para mejorar la predicción de ocupación semántica 3D basada en Gaussian Splatting, logrando resultados de vanguardia en precisión y eficiencia de memoria en múltiples conjuntos de datos de conducción autónoma.

Ke Song, Yunhe Wu, Chunchit Siu + 1 more2026-02-23🤖 cs.AI

View Invariant Learning for Vision-Language Navigation in Continuous Environments

Este artículo presenta VIL, un marco de aprendizaje post-entrenamiento basado en aprendizaje contrastivo y distilación de conocimiento que logra invarianza ante cambios de perspectiva en la navegación visión-lenguaje en entornos continuos, mejorando significativamente el rendimiento en benchmarks estándar y configuraciones de robots reales sin degradar las capacidades en entornos de vista fija.

Josh Qixuan Sun, Huaiyuan Weng, Xiaoying Xing + 2 more2026-02-23🤖 cs.LG

Landmark Detection for Medical Images using a General-purpose Segmentation Model

Este artículo propone un pipeline híbrido que combina YOLO y SAM para superar las limitaciones de los modelos de segmentación general en la detección precisa de puntos de referencia anatómicos y contornos complejos en radiografías pélvicas ortopédicas.

Ekaterina Stansfield, Jennifer A. Mitterer, Abdulrahman Altahhan2026-02-23⚡ eess

ViGText: Deepfake Image Detection with Vision-Language Model Explanations and Graph Neural Networks

El artículo presenta ViGText, un nuevo enfoque que combina explicaciones de modelos de lenguaje visual grandes con redes neuronales gráficas para detectar deepfakes con una precisión y robustez superiores, logrando un notable aumento en las puntuaciones F1 y una mejor generalización ante ataques personalizados.

Ahmad ALBarqawi, Mahmoud Nazzal, Issa Khalil + 2 more2026-02-23🤖 cs.AI

Learning Adaptive Pseudo-Label Selection for Semi-Supervised 3D Object Detection

Este trabajo propone un marco novedoso para la detección 3D semi-supervisada que utiliza un módulo de selección de pseudoetiquetas aprendible y una estrategia de supervisión suave para adaptar dinámicamente los umbrales de calidad según el contexto, mejorando significativamente la precisión y el recall en los conjuntos de datos KITTI y Waymo.

Taehun Kong, Tae-Kyun Kim2026-02-23💻 cs

← Anterior Siguiente →