cs.CV artículos | Gist.Science

Seeking Necessary and Sufficient Information from Multimodal Medical Data

Este artículo propone un nuevo enfoque para el aprendizaje multimodal en medicina que descompone las representaciones en componentes invariantes y específicos de la modalidad para estimar la Probabilidad de Necesidad y Suficiencia (PNS), mejorando así tanto el rendimiento predictivo como la robustez ante la falta de datos.

Boyu Chen, Weiye Bao, Junjie Liu + 5 more2026-03-03💻 cs

Proof-of-Perception: Certified Tool-Using Multimodal Reasoning with Compositional Conformal Guarantees

El marco Proof-of-Perception (PoP) mejora el razonamiento multimodal mediante la ejecución de grafos con garantías de confiabilidad conformales que optimizan el uso de herramientas y reducen las alucinaciones, logrando un equilibrio eficiente entre precisión y coste computacional.

Arya Fayyazi, Haleh Akrami2026-03-03💻 cs

Diffusion-Based Low-Light Image Enhancement with Color and Luminance Priors

Este trabajo presenta un marco de difusión condicional con un Módulo de Incrustación de Control Estructurado (SCEM) que descompone las imágenes de baja iluminación en componentes físicos para lograr una mejora de imagen con estado del arte y una fuerte generalización sin necesidad de ajuste fino.

Xuanshuo Fu, Lei Kang, Javier Vazquez-Corral2026-03-03💻 cs

Percept-Aware Surgical Planning for Visual Cortical Prostheses with Vascular Avoidance

Este trabajo presenta un marco de planificación quirúrgica consciente de la percepción para prótesis visuales corticales que optimiza la colocación de electrodos mediante un modelo diferenciable para minimizar el error perceptual y evitar vasos sanguíneos, superando a las estrategias tradicionales basadas en la cobertura visual.

Galen Pogoncheff, Alvin Wang, Jacob Granley + 1 more2026-03-03💻 cs

Deep Learning-Based Meat Freshness Detection with Segmentation and OOD-Aware Classification

Este estudio presenta un marco de aprendizaje profundo que combina segmentación U-Net y clasificación con detección de datos fuera de distribución para evaluar la frescura de la carne en imágenes RGB, logrando una precisión del 98,10% con EfficientNet-B0 y validando su viabilidad de despliegue en dispositivos móviles mediante TensorFlow Lite.

Hutama Arif Bramantyo, Mukarram Ali Faridi, Rui Chen + 2 more2026-03-03⚡ eess

Unsupervised Semantic Segmentation in Synchrotron Computed Tomography with Self-Correcting Pseudo Labels

Este artículo presenta un marco no supervisado para la segmentación semática automática de grandes volúmenes de tomografía computarizada de sincrotrón que elimina la necesidad de anotación manual mediante la generación de etiquetas pseudo y su posterior refinamiento mediante un enfoque de "Unbiased Teacher" de auto-corrección, logrando mejoras significativas en la precisión y el mIoU.

Austin Yunker, Peter Kenesei, Hemant Sharma + 3 more2026-03-03💻 cs

DiffSOS: Acoustic Conditional Diffusion Model for Speed-of-Sound Reconstruction in Ultrasound Computed Tomography

El artículo presenta DiffSOS, un modelo de difusión condicional que utiliza waveforms acústicos y un ControlNet especializado para generar mapas de velocidad del sonido de alta fidelidad en tiempo casi real, superando a los métodos actuales en precisión y proporcionando estimaciones de incertidumbre pixel a pixel.

Yujia Wu, Shuoqi Chen, Shiru Wang + 3 more2026-03-03💻 cs

SSR: Pushing the Limit of Spatial Intelligence with Structured Scene Reasoning

El artículo presenta SSR, un marco de razonamiento de escenas estructuradas que integra representaciones 2D y 3D mediante un mecanismo de alineación ligero y generación incremental de grafos de escena, logrando un rendimiento superior al estado del arte en tareas de inteligencia espacial sin necesidad de costosa pre-entrenamiento de alineación masiva.

Yi Zhang, Youya Xia, Yong Wang + 7 more2026-03-03💻 cs

PointAlign: Feature-Level Alignment Regularization for 3D Vision-Language Models

El artículo presenta PointAlign, un método de regularización de alineación a nivel de características que supervisa explícitamente los tokens intermedios de nubes de puntos para preservar la información geométrica y semántica en modelos de visión-linguística 3D, logrando mejoras significativas en tareas de clasificación y descripción sin requerir grandes cantidades de datos pareados ni un alto costo computacional.

Yuanhao Su, Shaofeng Zhang, Xiaosong Jia + 1 more2026-03-03💻 cs

DiffTrans: Differentiable Geometry-Materials Decomposition for Reconstructing Transparent Objects

El artículo presenta DiffTrans, un marco de renderizado diferenciable que descompone y reconstruye con alta precisión la geometría y los materiales de objetos transparentes en escenas complejas mediante el uso de FlexiCubes, un campo de radiación ambiental y un trazador de rayos recursivo optimizado en CUDA.

Changpu Li, Shuang Wu, Songlin Tang + 3 more2026-03-03💻 cs

Station2Radar: query conditioned gaussian splatting for precipitation field

El artículo presenta Station2Radar, un marco innovador que fusiona observaciones de estaciones meteorológicas con imágenes satelitales mediante un nuevo método de salpicado gaussiano condicionado por consultas para generar campos de precipitación precisos y eficientes en tiempo real, superando significativamente a los productos de precipitación convencionales.

Doyi Kim, Minseok Seo, Changick Kim2026-03-03💻 cs

An Interpretable Local Editing Model for Counterfactual Medical Image Generation

El artículo presenta InstructX2X, un modelo de edición local interpretable que genera imágenes médicas contrafactuales de alta calidad mediante modificaciones específicas por región y mapas de guía, superando las limitaciones de cambios no deseados y falta de explicabilidad de los enfoques anteriores.

Hyungi Min, Taeseung You, Hangyeul Lee + 2 more2026-03-03🤖 cs.AI

LLM-Bootstrapped Targeted Finding Guidance for Factual MLLM-based Medical Report Generation

El artículo presenta Fact-Flow, un marco innovador que mejora la precisión factual en la generación de informes médicos mediante MLLM al separar la identificación de hallazgos visuales de la redacción del texto y utilizar un LLM para generar automáticamente datos de entrenamiento etiquetados, logrando así resultados superiores a los modelos actuales sin necesidad de anotación manual costosa.

Cunyuan Yang, Dejuan Song, Xiaotao Pang + 7 more2026-03-03💬 cs.CL

Taxonomy-Aware Representation Alignment for Hierarchical Visual Recognition with Large Multimodal Models

El artículo presenta TARA, un método que mejora el reconocimiento visual jerárquico en modelos multimodales grandes al alinear sus representaciones con conocimientos taxonómicos de modelos biológicos fundamentales, logrando así una mayor consistencia jerárquica y precisión en la identificación de categorías conocidas y novedosas.

Hulingxiao He, Zhi Tan, Yuxin Peng2026-03-03🤖 cs.AI

TAP-SLF: Parameter-Efficient Adaptation of Vision Foundation Models for Multi-Task Ultrasound Image Analysis

El artículo presenta TAP-SLF, un marco unificado y eficiente en parámetros que adapta modelos fundacionales de visión para el análisis multi-tarea de imágenes de ultrasonido mediante prompts suaves conscientes de la tarea y la fine-tuning selectiva de capas superiores, logrando así un alto rendimiento sin sobreajuste ni costos computacionales elevados.

Hui Wan, Libin Lan2026-03-03🤖 cs.AI

Self-Correction Inside the Model: Leveraging Layer Attention to Mitigate Hallucinations in Large Vision Language Models

Este trabajo presenta ICLA, un mecanismo de autocorrección interna que utiliza una atención cruzada diagonal entre capas para refinar los estados ocultos durante la generación y mitigar las alucinaciones en modelos de lenguaje visual grandes sin necesidad de señales externas.

April Fu2026-03-03💻 cs

Mamba-CAD: State Space Model For 3D Computer-Aided Design Generative Modeling

El artículo presenta Mamba-CAD, un modelo generativo auto-supervisado basado en la arquitectura Mamba que, entrenado con un nuevo conjunto de datos de 77.078 modelos, permite generar secuencias paramétricas de CAD más largas y complejas mediante un marco de codificador-descodificador y redes generativas adversarias.

Xueyang Li, Yunzhong Lou, Yu Song + 1 more2026-03-03🤖 cs.AI

SesaHand: Enhancing 3D Hand Reconstruction via Controllable Generation with Semantic and Structural Alignment

El artículo presenta SesaHand, un método que mejora la reconstrucción 3D de manos mediante la generación de imágenes sintéticas controladas que alinean semánticamente el contexto humano y estructuralmente la anatomía de la mano y el cuerpo.

Zhuoran Zhao, Xianghao Kong, Linlin Yang + 3 more2026-03-03💻 cs

Improved Adversarial Diffusion Compression for Real-World Video Super-Resolution

Los autores proponen un método mejorado de compresión adversarial de difusión para la superresolución de video en escenarios reales, que distila un modelo DiT pesado en una red eficiente con convoluciones temporales ligeras y un esquema de destilación adversarial de doble cabeza, logrando una reducción del 95% en parámetros y una aceleración de 8 veces sin sacrificar la calidad ni la consistencia temporal.

Bin Chen, Weiqi Li, Shijie Zhao + 4 more2026-03-03💻 cs

Explainable Continuous-Time Mask Refinement with Local Self-Similarity Priors for Medical Image Segmentation

El artículo presenta LSS-LTCNet, un marco de segmentación semántica explicable y eficiente para úlceras podales que combina descriptores de textura invariantes a la iluminación mediante similitud local con dinámicas neuronales de tiempo continuo para lograr un refinamiento preciso de los bordes y un alto rendimiento en entornos de salud móvil.

Rajdeep Chatterjee, Sudip Chakrabarty, Trishaani Acharjee2026-03-03💻 cs

← Anterior Siguiente →