cs.CV artículos | Gist.Science

SGR3 Model: Scene Graph Retrieval-Reasoning Model in 3D

El artículo presenta SGR3, un marco de trabajo sin entrenamiento que utiliza modelos de lenguaje grandes multimodales y recuperación aumentada para generar gráficos de escenas 3D semánticos sin necesidad de reconstrucción explícita, logrando un rendimiento competitivo frente a modelos basados en redes neuronales gráficas.

Zirui Wang, Ruiping Liu, Yufan Chen + 7 more2026-03-06💻 cs

Spinverse: Differentiable Physics for Permeability-Aware Microstructure Reconstruction from Diffusion MRI

Spinverse es un método de reconstrucción de microestructuras basado en física diferenciable que infiere interfaces celulares explícitas a partir de imágenes de resonancia magnética de difusión (dMRI) optimizando la permeabilidad de las caras de una malla tetraédrica mediante un simulador Bloch-Torrey, sin necesidad de modificar la conectividad de la malla ni asumir fronteras impermeables.

Prathamesh Pradeep Khole, Mario M. Brenes, Zahra Kais Petiwala + 5 more2026-03-06💻 cs

Using Vision + Language Models to Predict Item Difficulty

Este estudio demuestra que un enfoque multimodal que combina características visuales y textuales mediante el modelo GPT-4.1-nano predice con mayor precisión la dificultad de los ítems de alfabetización en visualización de datos para adultos estadounidenses en comparación con los enfoques unimodales.

Samin Khan2026-03-06💻 cs

sFRC for assessing hallucinations in medical image restoration

Este trabajo propone el método sFRC (Correlación de Anillo de Fourier en parches pequeños y escaneo), una técnica robusta para detectar y cuantificar las alucinaciones en imágenes médicas restauradas mediante aprendizaje profundo y otros métodos, demostrando su eficacia en problemas de CT y MRI con datos submuestreados.

Prabhat Kc, Rongping Zeng, Nirmal Soni + 1 more2026-03-06🔬 physics

Decoding the Pulse of Reasoning VLMs in Multi-Image Understanding Tasks

El artículo presenta PulseFocus, un método sin entrenamiento que mejora el razonamiento de modelos de visión y lenguaje en tareas con múltiples imágenes al corregir sus patrones de atención difusos mediante la estructuración de la generación de pensamiento en bloques de planificación y enfoque.

Chenjun Li2026-03-06💻 cs

A Benchmark Study of Neural Network Compression Methods for Hyperspectral Image Classification

Este estudio realiza una evaluación sistemática de tres estrategias de compresión de redes neuronales (poda, cuantización y destilación de conocimiento) para la clasificación de imágenes hiperespectrales, demostrando que es posible reducir significativamente el tamaño y el costo computacional de los modelos manteniendo un rendimiento competitivo adecuado para su despliegue en plataformas con recursos limitados.

Sai Shi2026-03-06💻 cs

Are Multimodal LLMs Ready for Surveillance? A Reality Check on Zero-Shot Anomaly Detection in the Wild

Este trabajo evalúa la viabilidad de los modelos de lenguaje multimodal para la detección de anomalías en vídeo en entornos reales, revelando que, aunque su rendimiento cero-disparo es inicialmente limitado por un sesgo conservador que reduce drásticamente la recuperación, el uso de instrucciones específicas puede mejorar significativamente la puntuación F1, aunque la recuperación sigue siendo un cuello de botella crítico.

Shanle Yao, Armin Danesh Pazho, Narges Rashvand + 1 more2026-03-06💻 cs

FOZO: Forward-Only Zeroth-Order Prompt Optimization for Test-Time Adaptation

El artículo presenta FOZO, un método de optimización de prompts sin retropropagación que utiliza estimación de gradiente de orden cero y estadísticas de características para lograr una adaptación eficiente y estable en tiempo de ejecución en dispositivos con recursos limitados, superando a los métodos basados en gradientes y demostrando robustez en modelos cuantizados.

Xingyu Wang, Tao Wang2026-03-06💻 cs

Toward Real-world Infrared Image Super-Resolution: A Unified Autoregressive Framework and Benchmark Dataset

Este artículo presenta Real-IISR, un marco autoregresivo unificado y el conjunto de datos FLIR-IISR para la superresolución de imágenes infrarrojas en condiciones reales, diseñado para abordar degradaciones ópticas y de sensores acopladas mediante una guía térmico-estructural y una consistencia de orden térmico.

Yang Zou, Jun Ma, Zhidong Jiao + 3 more2026-03-06💻 cs

Evaluating GPT-5 as a Multimodal Clinical Reasoner: A Landscape Commentary

Este comentario de panorama evalúa a la familia GPT-5 y revela que, aunque representa un avance significativo en el razonamiento clínico multimodal y supera a su predecesor en tareas textuales y de mamografía, su rendimiento moderado en neurorradiología y su inferioridad frente a modelos especializados en tareas perceptivas críticas indican que aún no puede sustituir a los sistemas diseñados específicamente para dominios altamente especializados.

Alexandru Florea, Shansong Wang, Mingzhe Hu + 5 more2026-03-06💻 cs

Evaluating and Correcting Human Annotation Bias in Dynamic Micro-Expression Recognition

Este artículo presenta la arquitectura GAMDSS, un método innovador que mejora el reconocimiento de microexpresiones mediante la reelección dinámica de fotogramas clave para corregir los sesgos de anotación humana, especialmente en escenarios multiculturales, sin aumentar la complejidad del modelo.

Feng Liu, Bingyu Nan, Xuezhong Qian + 1 more2026-03-06💻 cs

DSA-SRGS: Super-Resolution Gaussian Splatting for Dynamic Sparse-View DSA Reconstruction

Este artículo presenta DSA-SRGS, el primer marco de *gaussian splatting* de superresolución para la reconstrucción dinámica de angiografía por sustracción digital (DSA) con vistas escasas, que integra aprendizaje de texturas multirresolución y densificación radiativa de subpíxeles para recuperar detalles vasculares finos y superar las limitaciones de desenfoque y aliasing de los métodos actuales.

Shiyu Zhang, Zhicong Wu, Huangxuan Zhao + 7 more2026-03-06💻 cs

MADCrowner: Margin Aware Dental Crown Design with Template Deformation and Refinement

El artículo presenta MADCrowner, un marco de generación de mallas dental consciente del margen que combina deformación de plantillas y segmentación de bordes cervicales para superar las limitaciones de precisión y ruido de los métodos existentes en el diseño automatizado de coronas dentales.

Linda Wei, Chang Liu, Wenran Zhang + 9 more2026-03-06💻 cs

Privacy-Aware Camera 2.0 Technical Report

Este artículo propone un marco de percepción que preserva la privacidad mediante una arquitectura colaborativa borde-nube que transforma las imágenes en vectores de características abstractos e irreconstruibles en el borde para eliminar la identidad, permitiendo al mismo tiempo la recuperación de referencias visuales ilustrativas en la nube para el reconocimiento de comportamientos sin exponer datos visuales crudos.

Huan Song, Shuyu Tian, Ting Long + 5 more2026-03-06💻 cs

RMK RetinaNet: Rotated Multi-Kernel RetinaNet for Robust Oriented Object Detection in Remote Sensing Imagery

El artículo presenta RMK RetinaNet, un detector de objetos orientados para imágenes de teledetección que supera las limitaciones actuales mediante un bloque de kernels multiescala, un mecanismo de atención contextual direccional, una ruta de camino ascendente y un módulo de codificación de ángulos de Euler para lograr una detección más robusta y precisa.

Huiran Sun2026-03-06💻 cs

LAW & ORDER: Adaptive Spatial Weighting for Medical Diffusion and Segmentation

Este artículo presenta "LAW & ORDER", un enfoque que utiliza adaptadores de red para el ponderamiento espacial adaptativo, mejorando significativamente tanto la síntesis de imágenes médicas mediante difusión como la segmentación eficiente de lesiones, logrando avances sustanciales en métricas de calidad generativa y precisión de segmentación en conjuntos de datos de pólipos y tumores renales.

Anugunj Naman, Ayushman Singh, Gaibo Zhang + 1 more2026-03-06💻 cs

Comparative Evaluation of Traditional Methods and Deep Learning for Brain Glioma Imaging. Review Paper

Esta revisión compara los métodos tradicionales con el aprendizaje profundo para la segmentación y clasificación de gliomas cerebrales en imágenes de resonancia magnética, concluyendo que las arquitecturas de redes neuronales convolucionales superan a las técnicas tradicionales en estas tareas.

Kiranmayee Janardhan, Vinay Martin DSa Prabhu, T. Christy Bobby2026-03-06💻 cs

MASQuant: Modality-Aware Smoothing Quantization for Multimodal Large Language Models

El artículo presenta MASQuant, un nuevo marco de cuantización post-entrenamiento que aborda el desajuste de suavizado y la invariancia computacional entre modalidades mediante factores de suavizado específicos por modalidad y una compensación cruzada basada en SVD, logrando un rendimiento estable y competitivo en modelos de lenguaje grandes multimodales.

Lulu Hu, Wenhu Xiao, Xin Chen + 4 more2026-03-06💻 cs

Guiding Diffusion-based Reconstruction with Contrastive Signals for Balanced Visual Representation

Este trabajo presenta la Reconstrucción Contrastiva de Difusión (DCR), un método que integra señales contrastivas derivadas de imágenes reconstruidas dentro del proceso de difusión para equilibrar la capacidad discriminativa y la percepción de detalles en las representaciones visuales de CLIP, superando así las limitaciones de enfoques anteriores.

Boyu Han, Qianqian Xu, Shilong Bao + 4 more2026-03-06💻 cs

Meta-D: Metadata-Aware Architectures for Brain Tumor Analysis and Missing-Modality Segmentation

Este trabajo presenta Meta-D, una arquitectura que aprovecha los metadatos categóricos de los escáneres para guiar la extracción de características y mejorar tanto la detección de tumores cerebrales como la segmentación ante la ausencia de modalidades de imagen, logrando aumentos significativos en las métricas de rendimiento y una reducción de parámetros.

SangHyuk Kim, Daniel Haehn, Sumientra Rampersad2026-03-06💻 cs

← Anterior Siguiente →