cs.CV artículos | Gist.Science

Analyzing the Training Dynamics of Image Restoration Transformers: A Revisit to Layer Normalization

Este trabajo identifica que la normalización de capa convencional perjudica el entrenamiento de los transformadores para la restauración de imágenes al causar divergencia de magnitudes y colapso de entropía, y propone una nueva normalización adaptativa (i-LN) que corrige estas desalineaciones para mejorar tanto la dinámica de entrenamiento como el rendimiento final.

MinKyu Lee, Sangeek Hyun, Woojin Jun + 3 more2026-02-23💻 cs

Visual Planning: Let's Think Only with Images

Este trabajo propone el paradigma de "Planificación Visual", un marco de aprendizaje por refuerzo que utiliza secuencias de imágenes en lugar de texto para el razonamiento paso a paso en tareas espaciales, demostrando un rendimiento superior en navegación visual y estableciendo una vía prometedora para la inferencia basada en imágenes.

Yi Xu, Chengzu Li, Han Zhou + 4 more2026-02-23💬 cs.CL

eStonefish-Scenes: A Sim-to-Real Validated and Robot-Centric Event-based Optical Flow Dataset for Underwater Vehicles

Este artículo presenta eStonefish-Scenes, un dataset sintético de flujo óptico basado en eventos validado en escenarios reales para vehículos submarinos, junto con la librería eWiz, demostrando que el entrenamiento exclusivo con datos simulados permite una estimación precisa del flujo óptico en entornos reales sin necesidad de ajuste fino.

Jad Mansour, Sebastian Realpe, Hayat Rajani + 3 more2026-02-23💻 cs

Synthetic History: Evaluating Visual Representations of the Past in Diffusion Models

Este trabajo presenta un nuevo benchmark que evalúa la capacidad de los modelos de difusión texto-imagen para representar contextos históricos, revelando que tienden a estereotipar épocas pasadas mediante estilos visuales implícitos, anacronismos y representaciones demográficas poco plausibles.

Maria-Teresa De Rosa Palmini, Eva Cetinic2026-02-23🤖 cs.AI

Soft-CAM: Making black box models self-explainable for medical image analysis

Este trabajo presenta Soft-CAM, un enfoque que transforma las arquitecturas CNN estándar en modelos inherentemente interpretables para el análisis de imágenes médicas, eliminando la necesidad de métodos de explicación *post-hoc* y logrando mapas de activación explícitos sin comprometer el rendimiento de clasificación.

Kerol Djoumessi, Philipp Berens2026-02-23🤖 cs.LG

Mod-Adapter: Tuning-Free and Versatile Multi-concept Personalization via Modulation Adapter

El artículo presenta Mod-Adapter, un método sin ajuste previo que personaliza múltiples conceptos (tanto objetos como abstractos) en la generación de imágenes mediante un adaptador de modulación que utiliza atención cruzada visión-idioma y capas de expertos mixtos, todo ello optimizado con una estrategia de preentrenamiento guiada por modelos de lenguaje visual.

Weizhi Zhong, Huan Yang, Zheng Liu + 5 more2026-02-23💻 cs

Learning to Weight Parameters for Training Data Attribution

Este trabajo propone un método que aprende explícitamente pesos de importancia para los parámetros de la red directamente desde los datos, mejorando la precisión de la atribución de datos de entrenamiento en diversas tareas al modelar la heterogeneidad funcional de los parámetros sin necesidad de etiquetas anotadas.

Shuangqi Li, Hieu Le, Jingyi Xu + 1 more2026-02-23🤖 cs.LG

GraphGSOcc: Semantic-Geometric Graph Transformer with Dynamic-Static Decoupling for 3D Gaussian Splatting-based Occupancy Prediction

El artículo presenta GraphGSOcc, un marco novedoso que combina transformadores gráficos semántico-geométricos con un mecanismo de desacoplamiento dinámico-estático para mejorar la predicción de ocupación semántica 3D basada en Gaussian Splatting, logrando resultados de vanguardia en precisión y eficiencia de memoria en múltiples conjuntos de datos de conducción autónoma.

Ke Song, Yunhe Wu, Chunchit Siu + 1 more2026-02-23🤖 cs.AI

View Invariant Learning for Vision-Language Navigation in Continuous Environments

Este artículo presenta VIL, un marco de aprendizaje post-entrenamiento basado en aprendizaje contrastivo y distilación de conocimiento que logra invarianza ante cambios de perspectiva en la navegación visión-lenguaje en entornos continuos, mejorando significativamente el rendimiento en benchmarks estándar y configuraciones de robots reales sin degradar las capacidades en entornos de vista fija.

Josh Qixuan Sun, Huaiyuan Weng, Xiaoying Xing + 2 more2026-02-23🤖 cs.LG

Landmark Detection for Medical Images using a General-purpose Segmentation Model

Este artículo propone un pipeline híbrido que combina YOLO y SAM para superar las limitaciones de los modelos de segmentación general en la detección precisa de puntos de referencia anatómicos y contornos complejos en radiografías pélvicas ortopédicas.

Ekaterina Stansfield, Jennifer A. Mitterer, Abdulrahman Altahhan2026-02-23⚡ eess

ViGText: Deepfake Image Detection with Vision-Language Model Explanations and Graph Neural Networks

El artículo presenta ViGText, un nuevo enfoque que combina explicaciones de modelos de lenguaje visual grandes con redes neuronales gráficas para detectar deepfakes con una precisión y robustez superiores, logrando un notable aumento en las puntuaciones F1 y una mejor generalización ante ataques personalizados.

Ahmad ALBarqawi, Mahmoud Nazzal, Issa Khalil + 2 more2026-02-23🤖 cs.AI

Dragging with Geometry: From Pixels to Geometry-Guided Image Editing

El artículo presenta GeoDrag, un método novedoso de edición de imágenes basado en arrastre que supera las limitaciones de los enfoques actuales al integrar pistas geométricas 3D y priores espaciales 2D en un campo de desplazamiento unificado, logrando así ediciones precisas, coherentes y consistentes en estructuras complejas.

Xinyu Pu, Hongsong Wang, Jie Gui + 1 more2026-02-23💻 cs

Smartphone-based iris recognition through high-quality visible-spectrum iris image capture.V2

Este trabajo presenta un pipeline integral para el reconocimiento de iris en el espectro visible mediante smartphones, que incluye una aplicación de captura estandarizada, el conjunto de datos CUVIRIS y modelos de aprendizaje profundo optimizados, demostrando una alta precisión (EER del 0,057%) y viabilidad práctica en dispositivos comerciales.

Naveenkumar G Venkataswamy, Yu Liu, Soumyabrata Dey + 2 more2026-02-23⚡ eess

Gradient-Sign Masking for Task Vector Transport Across Pre-Trained Models

El artículo presenta GradFix, un método que permite transferir vectores de tarea entre modelos preentrenados distintos mediante el enmascaramiento basado en la estructura de los signos del gradiente, logrando así un ajuste eficiente sin necesidad de fine-tuning adicional y superando a enfoques existentes en diversas tareas de visión y lenguaje.

Filippo Rinaldi, Aniello Panariello, Giacomo Salici + 4 more2026-02-23🤖 cs.AI

Investigating Demographic Bias in Brain MRI Segmentation: A Comparative Study of Deep-Learning and Non-Deep-Learning Methods

Este estudio evalúa el sesgo demográfico en la segmentación del núcleo accumbens mediante MRI, comparando métodos de aprendizaje profundo y tradicionales, y descubre que, aunque la precisión de algunos modelos mejora al entrenarlos con datos de la misma raza, las diferencias de volumen por raza desaparecen en la mayoría de las segmentaciones automatizadas, mientras que las diferencias por sexo se mantienen.

Ghazal Danaee, Marc Niethammer, Jarrett Rushmore + 1 more2026-02-23💻 cs

Simple 3D Pose Features Support Human and Machine Social Scene Understanding

Este estudio demuestra que la percepción social humana depende de información explícita y simple sobre la pose en 3D, la cual es fundamental para predecir juicios sociales y mejorar el rendimiento de las redes neuronales profundas.

Wenshuo Qin, Leyla Isik2026-02-23🧬 q-bio

Perception-to-Pursuit: Track-Centric Temporal Reasoning for Open-World Drone Detection and Autonomous Chasing

El artículo presenta "Perception-to-Pursuit" (P2P), un marco de razonamiento temporal centrado en la pista que utiliza transformadores causales para predecir trayectorias de drones y planificar persecuciones autónomas viables, logrando una mejora del 77% en la precisión de predicción y un aumento masivo en la viabilidad de la persecución en comparación con los métodos tradicionales.

Venkatakrishna Reddy Oruganti2026-02-23💻 cs

UrbanGS: A Scalable and Efficient Architecture for Geometrically Accurate Large-Scene Reconstruction

UrbanGS es un marco de reconstrucción escalable para entornos urbanos que mejora la precisión geométrica y la eficiencia mediante una regularización de profundidad consistente con D-Normal, una poda adaptativa de gaussianas y un esquema de partición unificado.

Changbai Li, Haodong Zhu, Hanlin Chen + 6 more2026-02-23💻 cs

UniReason 1.0: A Unified Reasoning Framework for World Knowledge Aligned Image Generation and Editing

El artículo presenta UniReason 1.0, un marco unificado que mejora la generación y edición de imágenes mediante la integración de razonamiento textual basado en conocimiento del mundo y refinamiento visual iterativo, logrando un rendimiento superior en tareas complejas de síntesis multimodal.

Dianyi Wang, Chaofan Ma, Feng Han + 8 more2026-02-23🤖 cs.AI

Temporal Pair Consistency for Variance-Reduced Flow Matching

Este artículo presenta la Consistencia de Pares Temporales (TPC), un principio ligero de reducción de varianza que acopla las predicciones de velocidad en pares de instantes de tiempo dentro de modelos de flujo continuo, mejorando teórica y empíricamente la calidad y eficiencia de la generación de imágenes sin alterar la arquitectura del modelo, la trayectoria de probabilidad o el solucionador.

Chika Maduabuchi, Jindong Wang2026-02-23🤖 cs.AI

← Anterior Siguiente →