cs.CV artículos | Gist.Science

CLUTCH: Contextualized Language model for Unlocking Text-Conditioned Hand motion modelling in the wild

El artículo presenta CLUTCH, un sistema basado en modelos de lenguaje grande que, junto con el nuevo conjunto de datos 3D-HIW y técnicas innovadoras como SHIFT, logra un modelado de movimiento de manos condicionado por texto con alta fidelidad en entornos naturales, superando las limitaciones de los métodos anteriores restringidos a estudios.

Balamurugan Thambiraja, Omid Taheri, Radek Danecek + 3 more2026-02-23🤖 cs.LG

Multi-Modal Monocular Endoscopic Depth and Pose Estimation with Edge-Guided Self-Supervision

Este artículo presenta PRISM, un marco de aprendizaje auto-supervisado que utiliza mapas de bordes y la descomposición de luminancia para mejorar la estimación de profundidad y pose en colonoscopias monocular, demostrando que el entrenamiento con datos reales supera al supervisado con datos sintéticos y resaltando la importancia crítica de la tasa de cuadros del video.

Xinwei Ju, Rema Daher, Danail Stoyanov + 2 more2026-02-23💻 cs

LGD-Net: Latent-Guided Dual-Stream Network for HER2 Scoring with Task-Specific Domain Knowledge

El artículo presenta LGD-Net, una red neuronal dual innovadora que utiliza conocimiento específico del dominio para predecir con alta precisión y eficiencia los niveles de expresión de HER2 en cáncer de mama directamente a partir de imágenes H&E, evitando los costos y artefactos asociados a la tinción virtual a nivel de píxel.

Peide Zhu, Linbin Lu, Zhiqin Chen + 1 more2026-02-23⚡ eess

Deep Learning for Dermatology: An Innovative Framework for Approaching Precise Skin Cancer Detection

Este artículo presenta un marco innovador que evalúa los modelos de aprendizaje profundo VGG16 y DenseNet201 para la detección precisa del cáncer de piel, logrando una precisión del 93,79% con DenseNet201 en un conjunto de datos binario de 3297 imágenes.

Mohammad Tahmid Noor, B. M. Shahria Alam, Tasmiah Rahman Orpa + 3 more2026-02-23⚡ eess

Enabling Training-Free Text-Based Remote Sensing Segmentation

Este trabajo propone un enfoque innovador y sin entrenamiento adicional que integra modelos de lenguaje visuales con el Segment Anything Model (SAM) para lograr una segmentación semántica de imágenes de teledetección basada en texto, superando el estado del arte en tareas de vocabulario abierto, referencia y razonamiento mediante estrategias contrastivas y generativas.

Jose Sosa, Danila Rukhovich, Anis Kacem + 1 more2026-02-23💻 cs

Promptable segmentation with region exploration enables minimal-effort expert-level prostate cancer delineation

Este trabajo presenta un marco de segmentación de cáncer de próstata en imágenes de resonancia magnética que combina aprendizaje por refuerzo y crecimiento de regiones guiado por puntos del usuario, logrando una precisión comparable a la de expertos con un esfuerzo de anotación diez veces menor y superando a los métodos automatizados actuales.

Junqing Yang, Natasha Thorley, Ahmed Nadeem Abbasi + 4 more2026-02-23⚡ eess

VQPP: Video Query Performance Prediction Benchmark

Este trabajo presenta VQPP, el primer benchmark para la predicción del rendimiento de consultas en la recuperación de video basada en contenido, que incluye conjuntos de datos y sistemas para evaluar predictores y demostrar su utilidad en tareas como la reformulación de consultas mediante modelos de lenguaje grandes.

Adrian Catalin Lutu, Eduard Poesina, Radu Tudor Ionescu2026-02-23🤖 cs.LG

Neural Prior Estimation: Learning Class Priors from Latent Representations

Este trabajo presenta el Estimador de Prioridad Neuronal (NPE), un marco teórico y práctico que aprende estimaciones de log-prior basadas en representaciones latentes para corregir el sesgo inducido por el desequilibrio de clases mediante ajuste de logits, logrando mejoras consistentes en tareas de clasificación y segmentación semántica sin requerir conteos de clases explícitos.

Masoud Yavari, Payman Moallem2026-02-23🤖 cs.LG

On the Evaluation Protocol of Gesture Recognition for UAV-based Rescue Operation based on Deep Learning: A Subject-Independence Perspective

Este artículo demuestra que los resultados de casi perfecta precisión en el reconocimiento de gestos para operaciones de rescate con UAV, reportados por Liu y Szirányi, son inválidos debido a una fuga de datos causada por una división aleatoria de entrenamiento y prueba a nivel de cuadro que no garantiza la generalización a sujetos no vistos, subrayando así la necesidad crítica de una partición de datos independiente del sujeto.

Domonkos Varga2026-02-23💻 cs

TopoGate: Quality-Aware Topology-Stabilized Gated Fusion for Longitudinal Low-Dose CT New-Lesion Prediction

El artículo presenta TopoGate, un modelo ligero e interpretable que utiliza una fusión gating controlada por la calidad de la imagen, la consistencia de registro y la estabilidad topológica para mejorar la predicción de nuevas lesiones en seguimientos longitudinales de TC de baja dosis, logrando un mejor rendimiento y una mayor fiabilidad al priorizar la apariencia visual cuando la calidad de la imagen se degrada.

Seungik Cho2026-02-23⚡ eess

Learning Compact Video Representations for Efficient Long-form Video Understanding in Large Multimodal Models

Este artículo presenta un marco de extremo a extremo que combina un muestreador de video adaptativo basado en densidad de información y un compresor espacio-temporal para permitir una comprensión eficiente y precisa de videos de larga duración en modelos multimodales grandes.

Yuxiao Chen, Jue Wang, Zhikang Zhang + 8 more2026-02-23💻 cs

Understanding the Fine-Grained Knowledge Capabilities of Vision-Language Models

Este estudio revela que, aunque los modelos de visión-idioma han avanzado en diversas tareas, su rendimiento en clasificación visual de granularidad fina depende desproporcionadamente de la calidad del codificador visual y de la etapa de preentrenamiento, en lugar de mejorar uniformemente con modelos de lenguaje más potentes.

Dhruba Ghosh, Yuhui Zhang, Ludwig Schmidt2026-02-23🤖 cs.AI

A Single Image and Multimodality Is All You Need for Novel View Synthesis

Este trabajo presenta un marco de reconstrucción de profundidad multimodal que utiliza mediciones de rango escasas, como radar o LiDAR, para generar mapas de profundidad densos y cuantificar la incertidumbre, mejorando así significativamente la consistencia geométrica y la calidad visual en la síntesis de nuevas vistas basada en difusión sin modificar el modelo generativo subyacente.

Amirhosein Javadi, Chi-Shiang Gau, Konstantinos D. Polyzos + 1 more2026-02-23💻 cs

ROCKET: Residual-Oriented Multi-Layer Alignment for Spatially-Aware Vision-Language-Action Models

ROCKET es un marco de alineación de representaciones multi-capas basado en residuos que, mediante un proyector compartido y una estrategia de activación dispersa, mejora la comprensión espacial de los modelos de Visión-Lenguaje-Acción con un bajo costo computacional, logrando un rendimiento superior en tareas de manipulación robótica.

Guoheng Sun, Tingting Du, Kaixi Feng + 6 more2026-02-23🤖 cs.AI

From Global Radiomics to Parametric Maps: A Unified Workflow Fusing Radiomics and Deep Learning for PDAC Detection

Este trabajo propone un marco unificado que integra características radiómicas seleccionadas a nivel global y de mapas paramétricos dentro de una red nnUNet mejorada, logrando un rendimiento superior en la detección del adenocarcinoma ductal pancreático (PDAC) y demostrando el valor complementario de los datos radiómicos para los modelos de aprendizaje profundo.

Zengtian Deng, Yimeng He, Yu Shi + 4 more2026-02-23⚡ eess

Image Quality Assessment: Exploring Quality Awareness via Memory-driven Distortion Patterns Matching

Este artículo presenta el marco MQAF, un enfoque de evaluación de calidad de imagen inspirado en la memoria humana que utiliza un banco de patrones de distorsión para realizar tanto evaluaciones con referencia completa como sin referencia, superando así las limitaciones de los métodos actuales que dependen de imágenes de referencia ideales.

Xuting Lan, Mingliang Zhou, Xuekai Wei + 5 more2026-02-23💻 cs

MUOT_3M: A 3 Million Frame Multimodal Underwater Benchmark and the MUTrack Tracking Method

Este trabajo presenta MUOT_3M, el primer conjunto de datos multimodal de seguimiento de objetos submarinos con 3 millones de frames, y propone MUTrack, un método basado en SAM que fusiona visión y lenguaje para transferir conocimiento multimodal a un modelo unimodal, logrando un rendimiento superior y una velocidad de 24 FPS en diversas condiciones submarinas.

Ahsan Baidar Bakht, Mohamad Alansari, Muhayy Ud Din + 5 more2026-02-23💻 cs

Towards LLM-centric Affective Visual Customization via Efficient and Precise Emotion Manipulating

Este artículo propone un enfoque centrado en modelos de lenguaje grandes llamado L-AVC, junto con una técnica de manipulación emocional eficiente y precisa (EPEM) que alinea la conversión semántica de las emociones y retiene el contenido agnóstico a estas, superando a los métodos actuales en la personalización visual afectiva.

Jiamin Luo, Xuqian Gu, Jingjing Wang + 1 more2026-02-23💻 cs

DeepSVU: Towards In-depth Security-oriented Video Understanding via Unified Physical-world Regularized MoE

Este artículo presenta DeepSVU, una nueva tarea de comprensión de video orientada a la seguridad que va más allá de la detección de amenazas para analizar sus causas, abordando el desafío de modelar información física mediante un enfoque innovador de expertos mezclados (MoE) unificado y regularizado (UPRM) que demuestra un rendimiento superior en conjuntos de datos especializados.

Yujie Jin, Wenxin Zhang, Jingjing Wang + 1 more2026-02-23🤖 cs.AI

UAOR: Uncertainty-aware Observation Reinjection for Vision-Language-Action Models

El artículo presenta UAOR, un módulo plug-and-play y sin entrenamiento que mejora los modelos de Visión-Lenguaje-Acción inyectando observaciones clave en las redes de alimentación frontal cuando la incertidumbre es alta, logrando así una generación de acciones más confiable sin necesidad de datos o componentes adicionales.

Jiabing Yang, Yixiang Chen, Yuan Xu + 12 more2026-02-23💻 cs

← Anterior Siguiente →