cs.CV artículos | Gist.Science

TumorFlow: Physics-Guided Longitudinal MRI Synthesis of Glioblastoma Growth

El artículo presenta TumorFlow, un marco generativo guiado por física que sintetiza secuencias de resonancia magnética cerebral tridimensionales realistas y temporalmente coherentes para visualizar la progresión y la infiltración del glioblastoma en pacientes específicos, combinando modelos de crecimiento biológico con aprendizaje profundo para mejorar la planificación del tratamiento y la generación de datos sintéticos.

Valentin Biller, Niklas Bubeck, Lucas Zimmer + 6 more2026-03-06💻 cs

NOVA3R: Non-pixel-aligned Visual Transformer for Amodal 3D Reconstruction

El artículo presenta NOVA3R, un enfoque innovador que utiliza un mecanismo de tokens de escena y un decodificador basado en difusión para realizar una reconstrucción 3D amodal completa a partir de imágenes sin pose, superando las limitaciones de alineación con píxeles de los métodos anteriores.

Weirong Chen, Chuanxia Zheng, Ganlin Zhang + 2 more2026-03-06💻 cs

A Unified Framework for Joint Detection of Lacunes and Enlarged Perivascular Spaces

Este artículo presenta un marco unificado de detección conjunta para lacunas y espacios perivasculares agrandados que, mediante mecanismos de atención cruzada inicializada en cero, pérdidas de consistencia topológica y calibración inferencial anatómica, supera el estado del arte en precisión y robustez al resolver los desafíos de interferencia de características y desequilibrio de clases en la enfermedad de los vasos sanguíneos cerebrales.

Lucas He, Krinos Li, Hanyuan Zhang + 7 more2026-03-06💻 cs

Gaussian Wardrobe: Compositional 3D Gaussian Avatars for Free-Form Virtual Try-On

El artículo presenta "Gaussian Wardrobe", un marco innovador que utiliza una representación composicional de 3D Gaussianas para digitalizar avatares neuronales a partir de videos multivista, permitiendo la descomposición de prendas de vestir independientes del cuerpo para lograr una alta fidelidad dinámica y un ensayo virtual libre y reutilizable.

Zhiyi Chen, Hsuan-I Ho, Tianjian Jiang + 3 more2026-03-06💻 cs

Lost in Translation: How Language Re-Aligns Vision for Cross-Species Pathology

Este estudio demuestra que la alineación lingüística mediante el método de "Semantic Anchoring" supera el colapso semántico en modelos de patología computacional, permitiendo una generalización efectiva entre especies y tipos de cáncer al reorientar las características visuales sin necesidad de reentrenamiento.

Ekansh Arora2026-03-06💻 cs

The Thinking Boundary: Quantifying Reasoning Suitability of Multimodal Tasks via Dual Tuning

Este artículo propone el marco "Dual Tuning" para cuantificar cuándo el razonamiento es beneficioso en tareas multimodales, estableciendo un "límite de pensamiento" que desafía el paradigma de razonar para todo y guía estrategias de entrenamiento más eficientes.

Ruobing Zheng, Tianqi Li, Jianing Li + 3 more2026-03-06💻 cs

SkillNet: Create, Evaluate, and Connect AI Skills

SkillNet es una infraestructura abierta que crea, evalúa y conecta habilidades de IA a gran escala mediante una ontología unificada y un repositorio de más de 200.000 habilidades, logrando mejorar significativamente el rendimiento de los agentes al permitirles acumular y transferir conocimientos en lugar de reinventar soluciones.

Yuan Liang, Ruobin Zhong, Haoming Xu + 46 more2026-03-06✓ Author reviewed ⓘ💻 cs

Recognition of Daily Activities through Multi-Modal Deep Learning: A Video, Pose, and Object-Aware Approach for Ambient Assisted Living

Este artículo presenta un enfoque de aprendizaje profundo multi-modal que integra redes neuronales convolucionales 3D, datos de pose humana y detección de objetos mediante mecanismos de atención cruzada para mejorar la precisión en el reconocimiento de actividades diarias en entornos de asistencia ambiental para adultos mayores.

Kooshan Hashemifard, Pau Climent-Pérez, Francisco Florez-Revuelta2026-03-06💻 cs

InverseNet: Benchmarking Operator Mismatch and Calibration Across Compressive Imaging Modalities

Este artículo presenta InverseNet, el primer benchmark transversal que demuestra cómo la desviación del operador físico degrada drásticamente el rendimiento de los métodos de aprendizaje profundo en la imagen compresiva, revelando que las arquitecturas condicionadas al operador y la calibración ciega son esenciales para recuperar la precisión perdida.

Chengshuai Yang, Xin Yuan2026-03-06💻 cs

Fusion and Grouping Strategies in Deep Learning for Local Climate Zone Classification of Multimodal Remote Sensing Data

Este estudio analiza diversas estrategias de fusión y agrupamiento en modelos de aprendizaje profundo para la clasificación de Zonas Climáticas Locales utilizando datos de teledetección multimodal, demostrando que una arquitectura híbrida combinada con agrupación de bandas y fusión de etiquetas logra la mayor precisión y mejora la predicción de clases subrepresentadas en el conjunto de datos So2Sat LCZ42.

Ancymol Thomas, Jaya Sreevalsan-Nair2026-03-06💻 cs

Structure-Guided Histopathology Synthesis via Dual-LoRA Diffusion

El artículo presenta Dual-LoRA Controllable Diffusion, un marco unificado de difusión guiado por centroides que utiliza adaptadores LoRA especializados para lograr simultáneamente la finalización de estructuras locales y la síntesis global en imágenes de histopatología, superando a los métodos existentes en fidelidad estructural y realismo morfológico.

Xuan Xu, Prateek Prasanna2026-03-06💻 cs

Mask-aware inference with State-Space Models

Este artículo presenta Partial Vision Mamba (PVM), un nuevo componente arquitectónico que adapta los principios de las convoluciones parciales a los Modelos de Espacio de Estado (SSM) como Mamba, permitiendo un procesamiento eficiente de datos con regiones inválidas en tareas como la completación de profundidad, la restauración de imágenes y la clasificación.

Ignasi Mas, Ramon Morros, Javier-Ruiz Hidalgo + 1 more2026-03-06💻 cs

PinPoint: Evaluation of Composed Image Retrieval with Explicit Negatives, Multi-Image Queries, and Paraphrase Testing

El artículo presenta PinPoint, un nuevo y exhaustivo benchmark para la recuperación de imágenes compuestas que aborda limitaciones existentes mediante la inclusión de múltiples respuestas correctas, negativos explícitos y pruebas de robustez, revelando deficiencias significativas en los métodos actuales y proponiendo una técnica de reordenamiento libre de entrenamiento basada en modelos de lenguaje multimodal para mejorar su rendimiento.

Rohan Mahadev, Joyce Yuan, Patrick Poirson + 3 more2026-03-06💻 cs

SGR3 Model: Scene Graph Retrieval-Reasoning Model in 3D

El artículo presenta SGR3, un marco de trabajo sin entrenamiento que utiliza modelos de lenguaje grandes multimodales y recuperación aumentada para generar gráficos de escenas 3D semánticos sin necesidad de reconstrucción explícita, logrando un rendimiento competitivo frente a modelos basados en redes neuronales gráficas.

Zirui Wang, Ruiping Liu, Yufan Chen + 7 more2026-03-06💻 cs

Spinverse: Differentiable Physics for Permeability-Aware Microstructure Reconstruction from Diffusion MRI

Spinverse es un método de reconstrucción de microestructuras basado en física diferenciable que infiere interfaces celulares explícitas a partir de imágenes de resonancia magnética de difusión (dMRI) optimizando la permeabilidad de las caras de una malla tetraédrica mediante un simulador Bloch-Torrey, sin necesidad de modificar la conectividad de la malla ni asumir fronteras impermeables.

Prathamesh Pradeep Khole, Mario M. Brenes, Zahra Kais Petiwala + 5 more2026-03-06💻 cs

Using Vision + Language Models to Predict Item Difficulty

Este estudio demuestra que un enfoque multimodal que combina características visuales y textuales mediante el modelo GPT-4.1-nano predice con mayor precisión la dificultad de los ítems de alfabetización en visualización de datos para adultos estadounidenses en comparación con los enfoques unimodales.

Samin Khan2026-03-06💻 cs

sFRC for assessing hallucinations in medical image restoration

Este trabajo propone el método sFRC (Correlación de Anillo de Fourier en parches pequeños y escaneo), una técnica robusta para detectar y cuantificar las alucinaciones en imágenes médicas restauradas mediante aprendizaje profundo y otros métodos, demostrando su eficacia en problemas de CT y MRI con datos submuestreados.

Prabhat Kc, Rongping Zeng, Nirmal Soni + 1 more2026-03-06🔬 physics

Decoding the Pulse of Reasoning VLMs in Multi-Image Understanding Tasks

El artículo presenta PulseFocus, un método sin entrenamiento que mejora el razonamiento de modelos de visión y lenguaje en tareas con múltiples imágenes al corregir sus patrones de atención difusos mediante la estructuración de la generación de pensamiento en bloques de planificación y enfoque.

Chenjun Li2026-03-06💻 cs

A Benchmark Study of Neural Network Compression Methods for Hyperspectral Image Classification

Este estudio realiza una evaluación sistemática de tres estrategias de compresión de redes neuronales (poda, cuantización y destilación de conocimiento) para la clasificación de imágenes hiperespectrales, demostrando que es posible reducir significativamente el tamaño y el costo computacional de los modelos manteniendo un rendimiento competitivo adecuado para su despliegue en plataformas con recursos limitados.

Sai Shi2026-03-06💻 cs

Are Multimodal LLMs Ready for Surveillance? A Reality Check on Zero-Shot Anomaly Detection in the Wild

Este trabajo evalúa la viabilidad de los modelos de lenguaje multimodal para la detección de anomalías en vídeo en entornos reales, revelando que, aunque su rendimiento cero-disparo es inicialmente limitado por un sesgo conservador que reduce drásticamente la recuperación, el uso de instrucciones específicas puede mejorar significativamente la puntuación F1, aunque la recuperación sigue siendo un cuello de botella crítico.

Shanle Yao, Armin Danesh Pazho, Narges Rashvand + 1 more2026-03-06💻 cs

← Anterior Siguiente →