cs.CV artículos | Gist.Science

Universal Pose Pretraining for Generalizable Vision-Language-Action Policies

El paper presenta Pose-VLA, un paradigma de preentrenamiento universal que desacopla la percepción de la acción mediante tokens de pose discretos para mejorar la generalización y eficiencia de los modelos de visión-idioma-acción en robótica.

Haitao Lin, Hanyang Yu, Jingshun Huang + 5 more2026-02-24🤖 cs.LG

Pixels Don't Lie (But Your Detector Might): Bootstrapping MLLM-as-a-Judge for Trustworthy Deepfake Detection and Reasoning Supervision

El artículo presenta DeepfakeJudge, un marco que utiliza un proceso de autoevaluación con modelos de lenguaje multimodal para supervisar y evaluar la fidelidad del razonamiento en la detección de deepfakes, logrando una alta precisión y concordancia con juicios humanos sin depender de explicaciones de referencia explícitas.

Kartik Kuckreja, Parul Gupta, Muhammad Haris Khan + 1 more2026-02-24💻 cs

Generative 6D Pose Estimation via Conditional Flow Matching

El artículo presenta Flose, un nuevo método generativo basado en flujo condicional que mejora la estimación de pose 6D al integrar características semánticas de apariencia para resolver ambigüedades por simetría y superar las limitaciones de los enfoques existentes.

Amir Hamza, Davide Boscaini, Weihang Li + 2 more2026-02-24💻 cs

Towards Personalized Multi-Modal MRI Synthesis across Heterogeneous Datasets

El artículo presenta PMM-Synth, un marco de síntesis de resonancia magnética (MRI) multimodal personalizado que, mediante módulos de modulación de características, programación de lotes y pérdida de supervisión selectiva, logra una generalización efectiva entre conjuntos de datos heterogéneos para superar las limitaciones de los métodos actuales y mejorar el diagnóstico clínico en escenarios con modalidades faltantes.

Yue Zhang, Zhizheng Zhuo, Siyao Xu + 6 more2026-02-24💻 cs

VGGT-MPR: VGGT-Enhanced Multimodal Place Recognition in Autonomous Driving Environments

El artículo presenta VGGT-MPR, un marco de reconocimiento de lugares multimodal para la conducción autónoma que utiliza el Transformer VGGT como motor geométrico unificado para extraer características visuales enriquecidas y densificar nubes de puntos LiDAR en la recuperación global, además de emplear un mecanismo de reordenamiento sin entrenamiento basado en el seguimiento de puntos clave para lograr un rendimiento superior y robusto frente a cambios ambientales.

Jingyi Xu, Zhangshuo Qi, Zhongmiao Yan + 5 more2026-02-24💻 cs

RAP: Fast Feedforward Rendering-Free Attribute-Guided Primitive Importance Score Prediction for Efficient 3D Gaussian Splatting Processing

El artículo presenta RAP, un método rápido y sin renderizado que predice la importancia de los primitivos en la Splatting Gaussiana 3D utilizando atributos intrínsecos y estadísticas vecinas, permitiendo una eliminación de redundancia eficiente y una generalización robusta sin depender de análisis basados en vistas múltiples.

Kaifa Yang, Qi Yang, Yiling Xu + 1 more2026-02-24💻 cs

Training Deep Stereo Matching Networks on Tree Branch Imagery: A Benchmark Study for Real-Time UAV Forestry Applications

Este estudio presenta la primera evaluación de diez redes de correspondencia estereoscópica profunda entrenadas con el conjunto de datos Canterbury Tree Branches para aplicaciones de poda de árboles en drones, identificando a BANet-3D como la mejor opción en calidad de imagen y a AnyNet como la única capaz de alcanzar un rendimiento cercano al tiempo real en hardware embebido.

Yida Lin, Bing Xue, Mengjie Zhang + 2 more2026-02-24⚡ eess

Efficient endometrial carcinoma screening via cross-modal synthesis and gradient distillation

Este estudio presenta un marco de aprendizaje profundo eficiente y automatizado que combina la síntesis de imágenes de ultrasonido a partir de resonancia magnética mediante una red guiada por estructura y la destilación de gradientes para un cribado de carcinoma endometrial con alta precisión y bajo costo computacional, superando la capacidad diagnóstica de los ecografistas expertos en entornos de atención primaria con recursos limitados.

Dongjing Shan, Yamei Luo, Jiqing Xuan + 7 more2026-02-24🤖 cs.AI

Open-vocabulary 3D scene perception in industrial environments

Este trabajo propone una nueva tubería de percepción 3D libre de entrenamiento que supera las limitaciones de generalización de los modelos existentes en entornos industriales, generando máscaras mediante la fusión de superpuntos basados en características semánticas y evaluando el modelo adaptado "IndustrialCLIP" para consultas de vocabulario abierto.

Keno Moenck, Adrian Philip Florea, Julian Koch + 1 more2026-02-24💻 cs

TextShield-R1: Reinforced Reasoning for Tampered Text Detection

El artículo presenta TextShield-R1, un modelo multimodal de gran lenguaje basado en aprendizaje por refuerzo que mejora la detección y el razonamiento sobre textos manipulados mediante pre-entrenamiento continuo forense, optimización de políticas y corrección OCR, validado con el nuevo benchmark TFR que supera las limitaciones de evaluaciones anteriores.

Chenfan Qu, Yiwu Zhong, Jian Liu + 3 more2026-02-24💻 cs

M3S-Net: Multimodal Feature Fusion Network Based on Multi-scale Data for Ultra-short-term PV Power Forecasting

Este artículo presenta M3S-Net, una red neuronal multimodal innovadora que integra convoluciones parciales de múltiples escalas, transformadas de Fourier y un módulo de interacción Mamba dinámico para mejorar la precisión de la predicción de potencia fotovoltaica a muy corto plazo mediante una fusión profunda de características visuales y meteorológicas.

Penghui Niu, Taotao Cai, Suqi Zhang + 4 more2026-02-24💻 cs

DerMAE: Improving skin lesion classification through conditioned latent diffusion and MAE distillation

DerMAE mejora la clasificación de lesiones cutáneas en entornos clínicos al generar imágenes sintéticas mediante modelos de difusión condicionados por clase, preentrenar grandes modelos ViT con MAE para extraer características robustas y transferir ese conocimiento a modelos ligeros mediante destilación, logrando así un alto rendimiento en dispositivos móviles a pesar del desequilibrio de clases.

Francisco Filho, Kelvin Cunha, Fábio Papais + 6 more2026-02-24💻 cs

Contrastive meta-domain adaptation for robust skin lesion classification across clinical and acquisition conditions

Este artículo propone una estrategia de adaptación meta-dominio contrastiva que mejora la robustez y generalización de los modelos de clasificación de lesiones cutáneas al transferir representaciones visuales de conjuntos de datos dermoscópicos a entornos clínicos, mitigando así los efectos de las variaciones en la adquisición de imágenes.

Rodrigo Mota, Kelvin Cunha, Emanoel dos Santos + 6 more2026-02-24💻 cs

ApET: Approximation-Error Guided Token Compression for Efficient VLMs

El artículo presenta ApET, un marco de compresión de tokens visuales libre de atención que utiliza el error de aproximación para eliminar tokens redundantes, logrando una aceleración eficiente de los Modelos Visuales-Lingüísticos mediante la integración con FlashAttention sin sacrificar el rendimiento.

Qiankun Ma, Ziyao Zhang, Haofei Wang + 3 more2026-02-24💻 cs

GOAL: Geometrically Optimal Alignment for Continual Generalized Category Discovery

El artículo presenta GOAL, un marco unificado que utiliza un clasificador de Marco Estrictamente Equiangular (ETF) fijo para lograr una alineación geométrica consistente y reducir el olvido en la Descubrimiento Continuo de Categorías Generalizadas, superando a los métodos anteriores en cuatro benchmarks.

Jizhou Han, Chenhao Ding, SongLin Dong + 4 more2026-02-24🤖 cs.AI

BigMaQ: A Big Macaque Motion and Animation Dataset Bridging Image and 3D Pose Representations

El artículo presenta BigMaQ, un conjunto de datos a gran escala de macacos rhesus que integra representaciones 3D de pose y forma en la reconocimiento de acciones animales, permitiendo la creación de avatares texturizados específicos y demostrando mejoras significativas en la precisión de la clasificación de comportamientos sociales.

Lucas Martini, Alexander Lappe, Anna Bognár + 2 more2026-02-24💻 cs

Make Some Noise: Unsupervised Remote Sensing Change Detection Using Latent Space Perturbations

El artículo presenta MaSoN, un marco de trabajo sin supervisión para la detección de cambios en teledetección que supera las limitaciones de los métodos existentes al sintetizar cambios diversos directamente en el espacio latente durante el entrenamiento, logrando así un rendimiento superior y una mayor generalización en diversos escenarios.

Blaž Rolih, Matic Fučka, Filip Wolf + 1 more2026-02-24🤖 cs.AI

Using Unsupervised Domain Adaptation Semantic Segmentation for Pulmonary Embolism Detection in Computed Tomography Pulmonary Angiogram (CTPA) Images

Este trabajo propone un marco de adaptación de dominio no supervisada basado en Transformers y una arquitectura Mean-Teacher, que integra mecanismos de alineación de prototipos, aprendizaje contrastivo y predicción local asistida por atención para mejorar significativamente la detección de embolias pulmonares en imágenes CTPA mediante segmentación semántica, superando los desafíos del desplazamiento de dominio y la escasez de anotaciones expertas.

Wen-Liang Lin, Yun-Chien Cheng2026-02-24⚡ eess

Monocular Mesh Recovery and Body Measurement of Female Saanen Goats

Este artículo presenta un nuevo enfoque para la agricultura de precisión que, mediante la creación del conjunto de datos FemaleSaanenGoat y el desarrollo del modelo paramétrico SaanenGoat, permite la reconstrucción 3D de alta fidelidad y la medición automática de dimensiones corporales críticas en cabras Saanen hembra a partir de una sola vista RGBD.

Bo Jin, Shichao Zhao, Jin Lyu + 5 more2026-02-24💻 cs

Gradient based Severity Labeling for Biomarker Classification in OCT

Este artículo propone una estrategia novedosa de aprendizaje contrastivo para imágenes médicas que genera etiquetas de severidad de enfermedades en escaneos OCT no etiquetados basándose en respuestas de gradientes de algoritmos de detección de anomalías, logrando así mejorar la precisión en la clasificación de biomarcadores de retinopatía diabética hasta en un 6% respecto a las líneas base auto-supervisadas.

Kiran Kokilepersaud, Mohit Prabhushankar, Ghassan AlRegib + 2 more2026-02-24🤖 cs.LG

← Anterior Siguiente →