cs.CV artículos | Gist.Science

MedVLThinker: Simple Baselines for Multimodal Medical Reasoning

El artículo presenta MedVLThinker, un conjunto de líneas base de código abierto que demuestra que el aprendizaje por refuerzo con recompensas verificables (RLVR) sobre datos de razonamiento puramente textuales supera significativamente al ajuste fino supervisado y a los datos multimodales, logrando un nuevo estado del arte en benchmarks médicos y rivalizando con modelos propietarios como GPT-4o.

Xiaoke Huang, Juncheng Wu, Hui Liu + 2 more2026-02-19💻 cs

Robust Image Stitching with Optimal Plane

El artículo presenta *RopStitch*, un marco de costura de imágenes profundo no supervisado que logra robustez y naturalidad mediante una arquitectura de doble rama que integra representaciones semánticas y características detalladas, junto con un concepto de planos óptimos virtuales para resolver el conflicto entre la alineación de contenido y la preservación estructural.

Lang Nie, Yuan Mei, Kang Liao + 3 more2026-02-19💻 cs

MedReasoner: Reinforcement Learning Drives Reasoning Grounding from Clinical Thought to Pixel-Level Precision

Este trabajo presenta MedReasoner, un marco modular que utiliza aprendizaje por refuerzo para separar el razonamiento clínico de la segmentación de píxeles, logrando un rendimiento superior en la nueva tarea de anclaje médico unificado (UMRG) y en el conjunto de datos U-MRG-14K.

Zhonghao Yan, Muxi Diao, Yuxuan Yang + 7 more2026-02-19🤖 cs.AI

COGITAO: A Visual Reasoning Framework To Study Compositionality & Generalization

El artículo presenta COGITAO, un marco de generación de datos y un conjunto de pruebas de código abierto diseñado para estudiar sistemáticamente la composición y la generalización en dominios visuales mediante la creación de millones de tareas únicas basadas en reglas, revelando así las limitaciones actuales de los modelos de visión más avanzados para generalizar a combinaciones novedosas.

Yassine Taoudi-Benchekroun, Klim Troyan, Pascal Sager + 3 more2026-02-19🤖 cs.AI

Melanoma Classification Through Deep Ensemble Learning and Explainable AI

Este artículo propone un modelo de aprendizaje profundo basado en un conjunto de tres redes de transferencia de estado del arte, combinado con técnicas de Inteligencia Artificial Explicable (XAI), para mejorar la precisión y la confianza en el diagnóstico temprano del melanoma al superar las limitaciones de opacidad de los modelos tradicionales.

Wadduwage Shanika Perera, ABM Islam, Van Vung Pham + 1 more2026-02-19🤖 cs.LG

Fusionista2.0: Efficiency Retrieval System for Large-Scale Datasets

Fusionista2.0 es un sistema de recuperación de video optimizado para el Video Browser Showdown que, mediante la reingeniería de sus módulos de procesamiento y una interfaz de usuario mejorada, reduce el tiempo de búsqueda hasta un 75% mientras incrementa la precisión y la satisfacción del usuario.

Huy M. Le, Dat Tien Nguyen, Phuc Binh Nguyen + 8 more2026-02-19💻 cs

Language-Guided Invariance Probing of Vision-Language Models

Este artículo presenta LGIP, un nuevo benchmark que evalúa la robustez lingüística de los modelos visión-idioma midiendo su invariancia ante parafraseos y su sensibilidad a cambios semánticos, revelando que, aunque algunos modelos como EVA02-CLIP muestran un buen equilibrio, otros como SigLIP fallan en distinguir descripciones originales de alteraciones semánticas, un problema que las métricas de recuperación estándar no detectan.

Jae Joong Lee2026-02-19🤖 cs.AI

Trustworthy and Fair SkinGPT-R1 for Democratizing Dermatological Reasoning across Diverse Ethnicities

SkinGPT-R1 es un modelo de lenguaje multimodal que democratiza el diagnóstico dermatológico mediante un razonamiento clínico interpretable y una arquitectura equitativa que elimina sesgos algorítmicos y supera el estado del arte en precisión y seguridad a través de diversos tonos de piel.

Yuhao Shen, Zhangtianyi Chen, Yuanhao He + 14 more2026-02-19💻 cs

PartUV: Part-Based UV Unwrapping of 3D Meshes

El artículo presenta PartUV, una nueva tubería de desenrollado UV basada en partes que combina descomposición semántica y heurísticas geométricas para generar mapas de textura con menos cortes y baja distorsión, superando a los métodos existentes especialmente en mallas ruidosas generadas por IA.

Zhaoning Wang, Xinyue Wei, Ruoxi Shi + 3 more2026-02-19💻 cs

Rotterdam artery-vein segmentation (RAV) dataset

El artículo presenta el conjunto de datos Rotterdam Artery-Vein (RAV), una colección diversa de imágenes de fondo de ojo con anotaciones detalladas y validadas de arterias y venas, diseñada para entrenar y evaluar algoritmos de aprendizaje automático capaces de analizar la vasculatura retiniana en condiciones reales y variables.

Jose Vargas Quiros, Bart Liefers, Karin van Garderen + 3 more2026-02-19⚡ eess

Scalable Residual Feature Aggregation Framework with Hybrid Metaheuristic Optimization for Robust Early Pancreatic Neoplasm Detection in Multimodal CT Imaging

Este estudio propone un marco escalable de agregación de características residuales con optimización metaheurística híbrida que integra segmentación avanzada, extracción de características profundas y un clasificador híbrido ViT-EfficientNet para lograr una detección temprana y robusta de neoplasias pancreáticas en imágenes TC multimodales con una precisión superior al 96%.

Janani Annur Thiruvengadam, Kiran Mayee Nabigaru, Anusha Kovi2026-02-19💻 cs

GEPC: Group-Equivariant Posterior Consistency for Out-of-Distribution Detection in Diffusion Models

Este artículo presenta GEPC, un método libre de entrenamiento que detecta datos fuera de distribución en modelos de difusión midiendo la inconsistencia de las transformaciones de la función de puntuación bajo grupos de simetría, logrando un rendimiento competitivo y mapas interpretables sin depender de la magnitud de la puntuación.

Yadang Alexis Rouzoumka, Jean Pinsolle, Eugénie Terreaux + 3 more2026-02-19🤖 cs.LG

Zero-Shot UAV Navigation in Forests via Relightable 3D Gaussian Splatting

Este artículo presenta un marco de aprendizaje por refuerzo que utiliza la representación de Splatting Gaussiano 3D relightable para entrenar drones en simulaciones con iluminación variable, logrando una navegación robusta y sin ajustes previos en bosques reales bajo condiciones de luz cambiantes.

Zinan Lv, Yeqian Qian, Chen Sang + 3 more2026-02-19💻 cs

Visualizing the Invisible: Enhancing Radiologist Performance in Breast Mammography via Task-Driven Chromatic Encoding

El estudio presenta MammoColor, un marco que utiliza codificación cromática orientada a tareas para convertir mamografías en vistas de color, demostrando que esta técnica mejora la sensibilidad y especificidad de los radiólogos, especialmente en mamas densas, al reducir los falsos positivos.

Hui Ye, Shilong Yang, Chulong Zhang + 4 more2026-02-19💻 cs

Vision and Language: Novel Representations and Artificial intelligence for Driving Scene Safety Assessment and Autonomous Vehicle Planning

Este artículo investiga cómo los modelos de visión y lenguaje pueden mejorar la seguridad en la conducción autónoma mediante tres enfoques complementarios: detección de riesgos semánticos, integración en la planificación de trayectorias y el uso de instrucciones en lenguaje natural como restricciones de comportamiento, concluyendo que el éxito depende de un diseño de sistema cuidadoso y una fundamentación estructurada más que de la inyección directa de características.

Ross Greer, Maitrayee Keskar, Angel Martinez-Sanchez + 3 more2026-02-19🤖 cs.AI

ToaSt: Token Channel Selection and Structured Pruning for Efficient ViT

El artículo presenta ToaSt, un marco desacoplado que combina la poda estructurada acoplada por cabezas en los módulos de atención y la selección de canales de tokens en las redes feed-forward para lograr una reducción eficiente de los FLOPs en Vision Transformers sin comprometer la precisión.

Hyunchan Moon, Cheonjun Park, Steven L. Waslander2026-02-19💻 cs

ReasonNavi: Human-Inspired Global Map Reasoning for Zero-Shot Embodied Navigation

ReasonNavi es un marco de navegación embebida zero-shot inspirado en el razonamiento humano que combina modelos de lenguaje multimodal con planificadores deterministas para convertir mapas globales en trayectorias ejecutables sin necesidad de ajuste fino.

Yuzhuo Ao, Anbang Wang, Yu-Wing Tai + 1 more2026-02-19💻 cs

Egocentric Bias in Vision-Language Models

El estudio introduce FlipSet, un nuevo benchmark que revela que la mayoría de los modelos de visión y lenguaje adolecen de un sesgo egocéntrico y carecen de la capacidad para integrar la conciencia social con operaciones espaciales, lo que les impide realizar correctamente la toma de perspectiva visual de nivel 2.

Maijunxian Wang, Yijiang Li, Bingyang Wang + 6 more2026-02-19🤖 cs.AI

Adaptive Illumination Control for Robot Perception

El marco de trabajo "Lightning" mejora la percepción robótica en condiciones de baja iluminación mediante un control de iluminación en bucle cerrado que combina un modelo de reiluminación, optimización offline y aprendizaje por imitación para generar políticas en tiempo real que aumentan la robustez del SLAM visual y reducen el consumo energético.

Yash Turkar, Shekoufeh Sadeghi, Karthik Dantu2026-02-19💻 cs

Detecting Deepfakes with Multivariate Soft Blending and CLIP-based Image-Text Alignment

Este trabajo propone el marco MSBA-CLIP, que combina una estrategia de aumento de mezcla suave multivariada con la alineación imagen-texto de CLIP para mejorar la precisión y la generalización en la detección de deepfakes frente a diversas técnicas de falsificación.

Jingwei Li, Jiaxin Tong, Pengfei Wu2026-02-19💻 cs

← Anterior Siguiente →