cs.CV artículos | Gist.Science

MC-LLaVA: Multi-Concept Personalized Vision-Language Model

El artículo presenta MC-LLaVA, un modelo de visión y lenguaje personalizado que supera las limitaciones de los enfoques actuales al integrar múltiples conceptos simultáneamente mediante un ajuste fino de instrucciones, prompts personalizados y un nuevo conjunto de datos de alta calidad para mejorar la interacción con el usuario.

Ruichuan An, Sihan Yang, Renrui Zhang + 10 more2026-02-19🤖 cs.AI

A Review of Bayesian Uncertainty Quantification in Deep Probabilistic Image Segmentation

Esta revisión sintetiza los conceptos fundamentales de la cuantificación de incertidumbre bayesiana en la segmentación de imágenes probabilística, estableciendo un marco unificado que analiza su impacto en tareas clave, identifica desafíos críticos y ofrece directrices prácticas para el desarrollo de modelos más robustos y confiables.

M. M. A. Valiuddin, R. J. G. van Sloun, C. G. A. Viviers + 2 more2026-02-19⚡ eess

RoboSpatial: Teaching Spatial Understanding to 2D and 3D Vision-Language Models for Robotics

El artículo presenta RoboSpatial, un conjunto de datos a gran escala que combina escaneos 3D e imágenes egocéntricas con anotaciones espaciales ricas para entrenar modelos de visión-lingüística y mejorar su capacidad de razonamiento espacial en tareas de robótica.

Chan Hee Song, Valts Blukis, Jonathan Tremblay + 3 more2026-02-19💬 cs.CL

LMSeg: Unleashing the Power of Large-Scale Models for Open-Vocabulary Semantic Segmentation

El artículo presenta LMSeg, un método que mejora la segmentación semántica de vocabulario abierto al combinar prompts enriquecidos generados por modelos de lenguaje grande (LLM) con una fusión ponderada de características visuales de CLIP y SAM, logrando así un rendimiento superior en benchmarks clave.

Huadong Tang, Youpeng Zhao, Yan Huang + 3 more2026-02-19🤖 cs.LG

PromptGuard: Soft Prompt-Guided Unsafe Content Moderation for Text-to-Image Models

El artículo presenta PromptGuard, una técnica innovadora que utiliza prompts blandos de seguridad optimizados para moderar eficazmente el contenido inapropiado en modelos de texto-a-imagen sin alterar su eficiencia ni requerir modelos proxy, logrando una reducción significativa de imágenes NSFW mientras preserva la calidad de las generadas.

Lingzhi Yuan, Xinfeng Li, Chejian Xu + 7 more2026-02-19🤖 cs.AI

Frequency-Aware Vision Transformers for High-Fidelity Super-Resolution of Earth System Models

Este trabajo presenta ViSIR y ViFOR, dos marcos de visión transformadora sensibles a la frecuencia que mitigan el sesgo espectral para lograr una superresolución de alta fidelidad en los modelos del sistema terrestre, superando a los métodos tradicionales en la recuperación de detalles de alta frecuencia.

Ehsan Zeraatkar, Salah A Faroughi, Jelena Tešić2026-02-19💻 cs

FOCUS on Contamination: Hydrology-Informed Noise-Aware Learning for Geospatial PFAS Mapping

El artículo presenta FOCUS, un marco de aprendizaje profundo geoespacial que integra datos ambientales y observaciones escasas de PFAS mediante un prior hidrológico y una función de pérdida ruidosa para generar mapas de contaminación escalables y coherentes que superan a los métodos tradicionales y guían la toma de decisiones en la ausencia de modelos físicos completos.

Jowaria Khan, Alexa Friedman, Sydney Evans + 6 more2026-02-19🤖 cs.LG

A Survey: Spatiotemporal Consistency in Video Generation

Este trabajo presenta una revisión sistemática de los avances recientes en la generación de video, centrándose en los desafíos y métodos para lograr consistencia espacio-temporal a través de modelos, estrategias de entrenamiento, métricas de evaluación y direcciones futuras.

Zhiyu Yin, Kehai Chen, Xuefeng Bai + 7 more2026-02-19🤖 cs.AI

Demand Estimation with Text and Image Data

Este artículo propone un método de estimación de demanda que utiliza datos no estructurados (imágenes y texto) mediante modelos de aprendizaje profundo para inferir patrones de sustitución, demostrando que supera a los modelos tradicionales en predicciones contrafactuales y es aplicable a múltiples categorías de productos en Amazon.

Giovanni Compiani, Ilya Morozov, Stephan Seiler2026-02-19💰 q-fin

Filter2Noise: A Framework for Interpretable and Zero-Shot Low-Dose CT Image Denoising

El marco Filter2Noise (F2N) propone un método de denoising cero-shot e interpretable para tomografía computarizada de baja dosis que utiliza un filtro bilateral guiado por atención y una pérdida auto-supervisada para lograr un rendimiento superior con alta eficiencia de parámetros y transparencia clínica.

Yipeng Sun, Linda-Sophie Schneider, Siyuan Mei + 8 more2026-02-19⚡ eess

CARL: Camera-Agnostic Representation Learning for Spectral Image Analysis

El artículo presenta CARL, un modelo de aprendizaje de representaciones agnóstico a la cámara que utiliza un codificador espectral novedoso y pre-entrenamiento auto-supervisado para unificar imágenes RGB, multiespectrales e hiperespectrales, superando así las limitaciones de generalización causadas por la variabilidad de los sensores en dominios como la medicina, la conducción autónoma y la teledetección.

Alexander Baumann, Leonardo Ayala, Silvia Seidlitz + 5 more2026-02-19🤖 cs.LG

Attention, Please! Revisiting Attentive Probing Through the Lens of Efficiency

Este trabajo presenta una revisión exhaustiva del sondeo atento y propone "Efficient Probing" (EP), un mecanismo de atención cruzada ligero y eficiente que supera a los métodos existentes en precisión y economía de parámetros para evaluar modelos de visión por computadora.

Bill Psomas, Dionysis Christopoulos, Eirini Baltzi + 6 more2026-02-19💻 cs

Label-Consistent Dataset Distillation with Detector-Guided Refinement

Este artículo presenta un marco de destilación de conjuntos de datos guiado por un detector que utiliza un modelo de detección preentrenado para identificar y refinar muestras sintéticas anómalas mediante un modelo de difusión, garantizando así la consistencia de las etiquetas y mejorando la calidad de las imágenes para lograr un rendimiento superior al estado del arte.

Yawen Zou, Guang Li, Zi Wang + 2 more2026-02-19💻 cs

MedVLThinker: Simple Baselines for Multimodal Medical Reasoning

El artículo presenta MedVLThinker, un conjunto de líneas base de código abierto que demuestra que el aprendizaje por refuerzo con recompensas verificables (RLVR) sobre datos de razonamiento puramente textuales supera significativamente al ajuste fino supervisado y a los datos multimodales, logrando un nuevo estado del arte en benchmarks médicos y rivalizando con modelos propietarios como GPT-4o.

Xiaoke Huang, Juncheng Wu, Hui Liu + 2 more2026-02-19💻 cs

Robust Image Stitching with Optimal Plane

El artículo presenta *RopStitch*, un marco de costura de imágenes profundo no supervisado que logra robustez y naturalidad mediante una arquitectura de doble rama que integra representaciones semánticas y características detalladas, junto con un concepto de planos óptimos virtuales para resolver el conflicto entre la alineación de contenido y la preservación estructural.

Lang Nie, Yuan Mei, Kang Liao + 3 more2026-02-19💻 cs

MedReasoner: Reinforcement Learning Drives Reasoning Grounding from Clinical Thought to Pixel-Level Precision

Este trabajo presenta MedReasoner, un marco modular que utiliza aprendizaje por refuerzo para separar el razonamiento clínico de la segmentación de píxeles, logrando un rendimiento superior en la nueva tarea de anclaje médico unificado (UMRG) y en el conjunto de datos U-MRG-14K.

Zhonghao Yan, Muxi Diao, Yuxuan Yang + 7 more2026-02-19🤖 cs.AI

COGITAO: A Visual Reasoning Framework To Study Compositionality & Generalization

El artículo presenta COGITAO, un marco de generación de datos y un conjunto de pruebas de código abierto diseñado para estudiar sistemáticamente la composición y la generalización en dominios visuales mediante la creación de millones de tareas únicas basadas en reglas, revelando así las limitaciones actuales de los modelos de visión más avanzados para generalizar a combinaciones novedosas.

Yassine Taoudi-Benchekroun, Klim Troyan, Pascal Sager + 3 more2026-02-19🤖 cs.AI

Melanoma Classification Through Deep Ensemble Learning and Explainable AI

Este artículo propone un modelo de aprendizaje profundo basado en un conjunto de tres redes de transferencia de estado del arte, combinado con técnicas de Inteligencia Artificial Explicable (XAI), para mejorar la precisión y la confianza en el diagnóstico temprano del melanoma al superar las limitaciones de opacidad de los modelos tradicionales.

Wadduwage Shanika Perera, ABM Islam, Van Vung Pham + 1 more2026-02-19🤖 cs.LG

Fusionista2.0: Efficiency Retrieval System for Large-Scale Datasets

Fusionista2.0 es un sistema de recuperación de video optimizado para el Video Browser Showdown que, mediante la reingeniería de sus módulos de procesamiento y una interfaz de usuario mejorada, reduce el tiempo de búsqueda hasta un 75% mientras incrementa la precisión y la satisfacción del usuario.

Huy M. Le, Dat Tien Nguyen, Phuc Binh Nguyen + 8 more2026-02-19💻 cs

Language-Guided Invariance Probing of Vision-Language Models

Este artículo presenta LGIP, un nuevo benchmark que evalúa la robustez lingüística de los modelos visión-idioma midiendo su invariancia ante parafraseos y su sensibilidad a cambios semánticos, revelando que, aunque algunos modelos como EVA02-CLIP muestran un buen equilibrio, otros como SigLIP fallan en distinguir descripciones originales de alteraciones semánticas, un problema que las métricas de recuperación estándar no detectan.

Jae Joong Lee2026-02-19🤖 cs.AI

← Anterior Siguiente →