cs.CV artículos | Gist.Science

Learning to Weight Parameters for Training Data Attribution

Este trabajo propone un método que aprende explícitamente pesos de importancia para los parámetros de la red directamente desde los datos, mejorando la precisión de la atribución de datos de entrenamiento en diversas tareas al modelar la heterogeneidad funcional de los parámetros sin necesidad de etiquetas anotadas.

Shuangqi Li, Hieu Le, Jingyi Xu + 1 more2026-02-23🤖 cs.LG

GraphGSOcc: Semantic-Geometric Graph Transformer with Dynamic-Static Decoupling for 3D Gaussian Splatting-based Occupancy Prediction

El artículo presenta GraphGSOcc, un marco novedoso que combina transformadores gráficos semántico-geométricos con un mecanismo de desacoplamiento dinámico-estático para mejorar la predicción de ocupación semántica 3D basada en Gaussian Splatting, logrando resultados de vanguardia en precisión y eficiencia de memoria en múltiples conjuntos de datos de conducción autónoma.

Ke Song, Yunhe Wu, Chunchit Siu + 1 more2026-02-23🤖 cs.AI

View Invariant Learning for Vision-Language Navigation in Continuous Environments

Este artículo presenta VIL, un marco de aprendizaje post-entrenamiento basado en aprendizaje contrastivo y distilación de conocimiento que logra invarianza ante cambios de perspectiva en la navegación visión-lenguaje en entornos continuos, mejorando significativamente el rendimiento en benchmarks estándar y configuraciones de robots reales sin degradar las capacidades en entornos de vista fija.

Josh Qixuan Sun, Huaiyuan Weng, Xiaoying Xing + 2 more2026-02-23🤖 cs.LG

Landmark Detection for Medical Images using a General-purpose Segmentation Model

Este artículo propone un pipeline híbrido que combina YOLO y SAM para superar las limitaciones de los modelos de segmentación general en la detección precisa de puntos de referencia anatómicos y contornos complejos en radiografías pélvicas ortopédicas.

Ekaterina Stansfield, Jennifer A. Mitterer, Abdulrahman Altahhan2026-02-23⚡ eess

ViGText: Deepfake Image Detection with Vision-Language Model Explanations and Graph Neural Networks

El artículo presenta ViGText, un nuevo enfoque que combina explicaciones de modelos de lenguaje visual grandes con redes neuronales gráficas para detectar deepfakes con una precisión y robustez superiores, logrando un notable aumento en las puntuaciones F1 y una mejor generalización ante ataques personalizados.

Ahmad ALBarqawi, Mahmoud Nazzal, Issa Khalil + 2 more2026-02-23🤖 cs.AI

Learning Adaptive Pseudo-Label Selection for Semi-Supervised 3D Object Detection

Este trabajo propone un marco novedoso para la detección 3D semi-supervisada que utiliza un módulo de selección de pseudoetiquetas aprendible y una estrategia de supervisión suave para adaptar dinámicamente los umbrales de calidad según el contexto, mejorando significativamente la precisión y el recall en los conjuntos de datos KITTI y Waymo.

Taehun Kong, Tae-Kyun Kim2026-02-23💻 cs

Dragging with Geometry: From Pixels to Geometry-Guided Image Editing

El artículo presenta GeoDrag, un método novedoso de edición de imágenes basado en arrastre que supera las limitaciones de los enfoques actuales al integrar pistas geométricas 3D y priores espaciales 2D en un campo de desplazamiento unificado, logrando así ediciones precisas, coherentes y consistentes en estructuras complejas.

Xinyu Pu, Hongsong Wang, Jie Gui + 1 more2026-02-23💻 cs

Smartphone-based iris recognition through high-quality visible-spectrum iris image capture.V2

Este trabajo presenta un pipeline integral para el reconocimiento de iris en el espectro visible mediante smartphones, que incluye una aplicación de captura estandarizada, el conjunto de datos CUVIRIS y modelos de aprendizaje profundo optimizados, demostrando una alta precisión (EER del 0,057%) y viabilidad práctica en dispositivos comerciales.

Naveenkumar G Venkataswamy, Yu Liu, Soumyabrata Dey + 2 more2026-02-23⚡ eess

Gradient-Sign Masking for Task Vector Transport Across Pre-Trained Models

El artículo presenta GradFix, un método que permite transferir vectores de tarea entre modelos preentrenados distintos mediante el enmascaramiento basado en la estructura de los signos del gradiente, logrando así un ajuste eficiente sin necesidad de fine-tuning adicional y superando a enfoques existentes en diversas tareas de visión y lenguaje.

Filippo Rinaldi, Aniello Panariello, Giacomo Salici + 4 more2026-02-23🤖 cs.AI

Investigating Demographic Bias in Brain MRI Segmentation: A Comparative Study of Deep-Learning and Non-Deep-Learning Methods

Este estudio evalúa el sesgo demográfico en la segmentación del núcleo accumbens mediante MRI, comparando métodos de aprendizaje profundo y tradicionales, y descubre que, aunque la precisión de algunos modelos mejora al entrenarlos con datos de la misma raza, las diferencias de volumen por raza desaparecen en la mayoría de las segmentaciones automatizadas, mientras que las diferencias por sexo se mantienen.

Ghazal Danaee, Marc Niethammer, Jarrett Rushmore + 1 more2026-02-23💻 cs

Simple 3D Pose Features Support Human and Machine Social Scene Understanding

Este estudio demuestra que la percepción social humana depende de información explícita y simple sobre la pose en 3D, la cual es fundamental para predecir juicios sociales y mejorar el rendimiento de las redes neuronales profundas.

Wenshuo Qin, Leyla Isik2026-02-23🧬 q-bio

Perception-to-Pursuit: Track-Centric Temporal Reasoning for Open-World Drone Detection and Autonomous Chasing

El artículo presenta "Perception-to-Pursuit" (P2P), un marco de razonamiento temporal centrado en la pista que utiliza transformadores causales para predecir trayectorias de drones y planificar persecuciones autónomas viables, logrando una mejora del 77% en la precisión de predicción y un aumento masivo en la viabilidad de la persecución en comparación con los métodos tradicionales.

Venkatakrishna Reddy Oruganti2026-02-23💻 cs

UrbanGS: A Scalable and Efficient Architecture for Geometrically Accurate Large-Scene Reconstruction

UrbanGS es un marco de reconstrucción escalable para entornos urbanos que mejora la precisión geométrica y la eficiencia mediante una regularización de profundidad consistente con D-Normal, una poda adaptativa de gaussianas y un esquema de partición unificado.

Changbai Li, Haodong Zhu, Hanlin Chen + 6 more2026-02-23💻 cs

UniReason 1.0: A Unified Reasoning Framework for World Knowledge Aligned Image Generation and Editing

El artículo presenta UniReason 1.0, un marco unificado que mejora la generación y edición de imágenes mediante la integración de razonamiento textual basado en conocimiento del mundo y refinamiento visual iterativo, logrando un rendimiento superior en tareas complejas de síntesis multimodal.

Dianyi Wang, Chaofan Ma, Feng Han + 8 more2026-02-23🤖 cs.AI

Temporal Pair Consistency for Variance-Reduced Flow Matching

Este artículo presenta la Consistencia de Pares Temporales (TPC), un principio ligero de reducción de varianza que acopla las predicciones de velocidad en pares de instantes de tiempo dentro de modelos de flujo continuo, mejorando teórica y empíricamente la calidad y eficiencia de la generación de imágenes sin alterar la arquitectura del modelo, la trayectoria de probabilidad o el solucionador.

Chika Maduabuchi, Jindong Wang2026-02-23🤖 cs.AI

Context-Aware Asymmetric Ensembling for Interpretable Retinopathy of Prematurity Screening via Active Query and Vascular Attention

Este estudio propone el modelo de ensamblaje asimétrico consciente del contexto (CAA Ensemble), que integra una red de consulta activa multiescala y un aprendizaje de instancias múltiples para la topología vascular, logrando un rendimiento de vanguardia y una interpretabilidad clínica en el cribado de la retinopatía del prematuro a pesar de las limitaciones de datos.

Md. Mehedi Hassan, Taufiq Hasan2026-02-23⚡ eess

FireRed-Image-Edit-1.0 Technical Report

El informe técnico presenta FireRed-Image-Edit, un modelo de transformador de difusión que logra un rendimiento de vanguardia en la edición de imágenes basada en instrucciones mediante la optimización sistemática de un corpus de 1.600 millones de muestras, una metodología de entrenamiento multi-etapa con técnicas avanzadas de alineación y estabilidad, y la introducción del nuevo benchmark REDEdit-Bench para evaluar tareas de edición complejas.

Super Intelligence Team, Changhao Qiao, Chao Hui + 16 more2026-02-23⚡ eess

LeafNet: A Large-Scale Dataset and Comprehensive Benchmark for Foundational Vision-Language Understanding of Plant Diseases

Este trabajo presenta LeafNet, un conjunto de datos multimodal a gran escala con 186.000 imágenes de hojas y 13.950 pares de preguntas y respuestas, junto con el benchmark LeafBench, para evaluar y mejorar el rendimiento de los modelos de visión-linguaje en el diagnóstico de enfermedades vegetales, revelando que la integración de representaciones lingüísticas supera significativamente a los modelos de visión tradicionales en tareas de patología agrícola.

Khang Nguyen Quoc, Phuong D. Dao, Luyl-Da Quach2026-02-23🤖 cs.AI

GeoEyes: On-Demand Visual Focusing for Evidence-Grounded Understanding of Ultra-High-Resolution Remote Sensing Imagery

El paper presenta GeoEyes, un marco de entrenamiento escalonado que combina el conjunto de datos UHR-CoZ y el método de aprendizaje por refuerzo AdaZoom-GRPO para superar la homogeneización en el uso de herramientas de zoom, permitiendo a los modelos de lenguaje multimodal enfocarse bajo demanda en imágenes de teledetección de ultra alta resolución y lograr un rendimiento superior en benchmarks como XLRS-Bench.

Fengxiang Wang, Mingshuo Chen, Yueying Li + 10 more2026-02-23🤖 cs.AI

Uncertainty-Aware Vision-Language Segmentation for Medical Imaging

Los autores presentan un marco de segmentación multimodal para imágenes médicas que integra atención entre visión y lenguaje mediante un bloque de decodificación (MoDAB) y una pérdida de incertidumbre espectral-entrópica (SEU), logrando un rendimiento superior y una mayor eficiencia computacional en conjuntos de datos públicos.

Aryan Das, Tanishq Rachamalla, Koushik Biswas + 2 more2026-02-23🤖 cs.LG

← Anterior Siguiente →