cs.CV artículos | Gist.Science

Seeing Clearly, Reasoning Confidently: Plug-and-Play Remedies for Vision Language Model Blindness

Este artículo presenta un módulo plug-and-play eficiente que mejora el razonamiento de los modelos de lenguaje visuales sobre objetos raros sin necesidad de ajuste fino, mediante el enriquecimiento de tokens visuales y la generación de pistas contextuales a partir de conocimientos previos y descripciones de texto.

Xin Hu, Haomiao Ni, Yunbei Zhang + 3 more2026-02-24💻 cs

Accurate Planar Tracking With Robust Re-Detection

Este artículo presenta SAM-H y WOFTSAM, dos nuevos rastreadores planares que combinan la segmentación a largo plazo de SAM 2 con la estimación de homografía para lograr un seguimiento preciso y una re-detección robusta, estableciendo un nuevo estado del arte en los benchmarks POT-210 y PlanarTrack.

Jonas Serych, Jiri Matas2026-02-24💻 cs

Localized Concept Erasure in Text-to-Image Diffusion Models via High-Level Representation Misdirection

El artículo presenta HiRM, un método que elimina conceptos específicos en modelos de difusión texto-a-imagen redirigiendo sus representaciones semánticas de alto nivel en el codificador de texto, lo que logra una supresión precisa con mínimo impacto en la calidad de generación y bajo costo computacional.

Uichan Lee, Jeonghyeon Kim, Sangheum Hwang2026-02-24🤖 cs.AI

Personalized Longitudinal Medical Report Generation via Temporally-Aware Federated Adaptation

El artículo presenta FedTAR, un marco de aprendizaje federado que integra adaptadores LoRA personalizados por demografía y una agregación global temporalmente consciente mediante MAML para generar informes médicos longitudinales precisos y coherentes sin comprometer la privacidad de los datos.

He Zhu, Ren Togo, Takahiro Ogawa + 8 more2026-02-24🤖 cs.LG

TeHOR: Text-Guided 3D Human and Object Reconstruction with Textures

TeHOR es un marco de trabajo que mejora la reconstrucción 3D conjunta de humanos y objetos a partir de una sola imagen al utilizar descripciones textuales y cues de apariencia para superar las limitaciones de los métodos actuales y lograr interacciones semánticamente coherentes, incluidas las no físicas.

Hyeongjin Nam, Daniel Sungho Jung, Kyoung Mu Lee2026-02-24🤖 cs.AI

BayesFusion-SDF: Probabilistic Signed Distance Fusion with View Planning on CPU

El artículo presenta BayesFusion-SDF, un marco de fusión probabilística de distancia firmada centrado en la CPU que supera a los métodos tradicionales TSDF y las redes neuronales intensivas en GPU al ofrecer una reconstrucción geométrica precisa con estimaciones de incertidumbre transparentes para la planificación de vistas y la percepción activa.

Soumya Mazumdar, Vineet Kumar Rakesh, Tapas Samanta2026-02-24💻 cs

Iconographic Classification and Content-Based Recommendation for Digitized Artworks

Este artículo presenta un sistema prototipo que automatiza la clasificación iconográfica y la recomendación basada en contenido de obras de arte digitalizadas mediante la integración de la detección de objetos YOLOv8, el vocabulario Iconclass y algoritmos de inferencia, demostrando su potencial para acelerar la catalogación y mejorar la navegación en grandes repositorios de patrimonio cultural.

Krzysztof Kutt, Maciej Baczyński2026-02-24🤖 cs.AI

HDR Reconstruction Boosting with Training-Free and Exposure-Consistent Diffusion

Este trabajo presenta un método libre de entrenamiento que utiliza modelos de difusión guiados por texto y refinamiento SDEdit para mejorar la reconstrucción de imágenes HDR a partir de LDR, recuperando eficazmente detalles en zonas sobreexpuestas mientras mantiene la coherencia luminosa entre múltiples exposiciones.

Yo-Tin Lin, Su-Kai Chen, Hou-Ning Hu + 2 more2026-02-24💻 cs

Universal Pose Pretraining for Generalizable Vision-Language-Action Policies

El paper presenta Pose-VLA, un paradigma de preentrenamiento universal que desacopla la percepción de la acción mediante tokens de pose discretos para mejorar la generalización y eficiencia de los modelos de visión-idioma-acción en robótica.

Haitao Lin, Hanyang Yu, Jingshun Huang + 5 more2026-02-24🤖 cs.LG

Pixels Don't Lie (But Your Detector Might): Bootstrapping MLLM-as-a-Judge for Trustworthy Deepfake Detection and Reasoning Supervision

El artículo presenta DeepfakeJudge, un marco que utiliza un proceso de autoevaluación con modelos de lenguaje multimodal para supervisar y evaluar la fidelidad del razonamiento en la detección de deepfakes, logrando una alta precisión y concordancia con juicios humanos sin depender de explicaciones de referencia explícitas.

Kartik Kuckreja, Parul Gupta, Muhammad Haris Khan + 1 more2026-02-24💻 cs

Generative 6D Pose Estimation via Conditional Flow Matching

El artículo presenta Flose, un nuevo método generativo basado en flujo condicional que mejora la estimación de pose 6D al integrar características semánticas de apariencia para resolver ambigüedades por simetría y superar las limitaciones de los enfoques existentes.

Amir Hamza, Davide Boscaini, Weihang Li + 2 more2026-02-24💻 cs

Towards Personalized Multi-Modal MRI Synthesis across Heterogeneous Datasets

El artículo presenta PMM-Synth, un marco de síntesis de resonancia magnética (MRI) multimodal personalizado que, mediante módulos de modulación de características, programación de lotes y pérdida de supervisión selectiva, logra una generalización efectiva entre conjuntos de datos heterogéneos para superar las limitaciones de los métodos actuales y mejorar el diagnóstico clínico en escenarios con modalidades faltantes.

Yue Zhang, Zhizheng Zhuo, Siyao Xu + 6 more2026-02-24💻 cs

VGGT-MPR: VGGT-Enhanced Multimodal Place Recognition in Autonomous Driving Environments

El artículo presenta VGGT-MPR, un marco de reconocimiento de lugares multimodal para la conducción autónoma que utiliza el Transformer VGGT como motor geométrico unificado para extraer características visuales enriquecidas y densificar nubes de puntos LiDAR en la recuperación global, además de emplear un mecanismo de reordenamiento sin entrenamiento basado en el seguimiento de puntos clave para lograr un rendimiento superior y robusto frente a cambios ambientales.

Jingyi Xu, Zhangshuo Qi, Zhongmiao Yan + 5 more2026-02-24💻 cs

RAP: Fast Feedforward Rendering-Free Attribute-Guided Primitive Importance Score Prediction for Efficient 3D Gaussian Splatting Processing

El artículo presenta RAP, un método rápido y sin renderizado que predice la importancia de los primitivos en la Splatting Gaussiana 3D utilizando atributos intrínsecos y estadísticas vecinas, permitiendo una eliminación de redundancia eficiente y una generalización robusta sin depender de análisis basados en vistas múltiples.

Kaifa Yang, Qi Yang, Yiling Xu + 1 more2026-02-24💻 cs

Training Deep Stereo Matching Networks on Tree Branch Imagery: A Benchmark Study for Real-Time UAV Forestry Applications

Este estudio presenta la primera evaluación de diez redes de correspondencia estereoscópica profunda entrenadas con el conjunto de datos Canterbury Tree Branches para aplicaciones de poda de árboles en drones, identificando a BANet-3D como la mejor opción en calidad de imagen y a AnyNet como la única capaz de alcanzar un rendimiento cercano al tiempo real en hardware embebido.

Yida Lin, Bing Xue, Mengjie Zhang + 2 more2026-02-24⚡ eess

Efficient endometrial carcinoma screening via cross-modal synthesis and gradient distillation

Este estudio presenta un marco de aprendizaje profundo eficiente y automatizado que combina la síntesis de imágenes de ultrasonido a partir de resonancia magnética mediante una red guiada por estructura y la destilación de gradientes para un cribado de carcinoma endometrial con alta precisión y bajo costo computacional, superando la capacidad diagnóstica de los ecografistas expertos en entornos de atención primaria con recursos limitados.

Dongjing Shan, Yamei Luo, Jiqing Xuan + 7 more2026-02-24🤖 cs.AI

Open-vocabulary 3D scene perception in industrial environments

Este trabajo propone una nueva tubería de percepción 3D libre de entrenamiento que supera las limitaciones de generalización de los modelos existentes en entornos industriales, generando máscaras mediante la fusión de superpuntos basados en características semánticas y evaluando el modelo adaptado "IndustrialCLIP" para consultas de vocabulario abierto.

Keno Moenck, Adrian Philip Florea, Julian Koch + 1 more2026-02-24💻 cs

TextShield-R1: Reinforced Reasoning for Tampered Text Detection

El artículo presenta TextShield-R1, un modelo multimodal de gran lenguaje basado en aprendizaje por refuerzo que mejora la detección y el razonamiento sobre textos manipulados mediante pre-entrenamiento continuo forense, optimización de políticas y corrección OCR, validado con el nuevo benchmark TFR que supera las limitaciones de evaluaciones anteriores.

Chenfan Qu, Yiwu Zhong, Jian Liu + 3 more2026-02-24💻 cs

M3S-Net: Multimodal Feature Fusion Network Based on Multi-scale Data for Ultra-short-term PV Power Forecasting

Este artículo presenta M3S-Net, una red neuronal multimodal innovadora que integra convoluciones parciales de múltiples escalas, transformadas de Fourier y un módulo de interacción Mamba dinámico para mejorar la precisión de la predicción de potencia fotovoltaica a muy corto plazo mediante una fusión profunda de características visuales y meteorológicas.

Penghui Niu, Taotao Cai, Suqi Zhang + 4 more2026-02-24💻 cs

DerMAE: Improving skin lesion classification through conditioned latent diffusion and MAE distillation

DerMAE mejora la clasificación de lesiones cutáneas en entornos clínicos al generar imágenes sintéticas mediante modelos de difusión condicionados por clase, preentrenar grandes modelos ViT con MAE para extraer características robustas y transferir ese conocimiento a modelos ligeros mediante destilación, logrando así un alto rendimiento en dispositivos móviles a pesar del desequilibrio de clases.

Francisco Filho, Kelvin Cunha, Fábio Papais + 6 more2026-02-24💻 cs

← Anterior Siguiente →