Pixels Don't Lie (But Your Detector Might): Bootstrapping MLLM-as-a-Judge for Trustworthy Deepfake Detection and Reasoning Supervision

El artículo presenta DeepfakeJudge, un marco que utiliza un proceso de autoevaluación con modelos de lenguaje multimodal para supervisar y evaluar la fidelidad del razonamiento en la detección de deepfakes, logrando una alta precisión y concordancia con juicios humanos sin depender de explicaciones de referencia explícitas.

Kartik Kuckreja, Parul Gupta, Muhammad Haris Khan + 1 more2026-02-24💻 cs

Towards Personalized Multi-Modal MRI Synthesis across Heterogeneous Datasets

El artículo presenta PMM-Synth, un marco de síntesis de resonancia magnética (MRI) multimodal personalizado que, mediante módulos de modulación de características, programación de lotes y pérdida de supervisión selectiva, logra una generalización efectiva entre conjuntos de datos heterogéneos para superar las limitaciones de los métodos actuales y mejorar el diagnóstico clínico en escenarios con modalidades faltantes.

Yue Zhang, Zhizheng Zhuo, Siyao Xu + 6 more2026-02-24💻 cs

VGGT-MPR: VGGT-Enhanced Multimodal Place Recognition in Autonomous Driving Environments

El artículo presenta VGGT-MPR, un marco de reconocimiento de lugares multimodal para la conducción autónoma que utiliza el Transformer VGGT como motor geométrico unificado para extraer características visuales enriquecidas y densificar nubes de puntos LiDAR en la recuperación global, además de emplear un mecanismo de reordenamiento sin entrenamiento basado en el seguimiento de puntos clave para lograr un rendimiento superior y robusto frente a cambios ambientales.

Jingyi Xu, Zhangshuo Qi, Zhongmiao Yan + 5 more2026-02-24💻 cs

RAP: Fast Feedforward Rendering-Free Attribute-Guided Primitive Importance Score Prediction for Efficient 3D Gaussian Splatting Processing

El artículo presenta RAP, un método rápido y sin renderizado que predice la importancia de los primitivos en la Splatting Gaussiana 3D utilizando atributos intrínsecos y estadísticas vecinas, permitiendo una eliminación de redundancia eficiente y una generalización robusta sin depender de análisis basados en vistas múltiples.

Kaifa Yang, Qi Yang, Yiling Xu + 1 more2026-02-24💻 cs

Training Deep Stereo Matching Networks on Tree Branch Imagery: A Benchmark Study for Real-Time UAV Forestry Applications

Este estudio presenta la primera evaluación de diez redes de correspondencia estereoscópica profunda entrenadas con el conjunto de datos Canterbury Tree Branches para aplicaciones de poda de árboles en drones, identificando a BANet-3D como la mejor opción en calidad de imagen y a AnyNet como la única capaz de alcanzar un rendimiento cercano al tiempo real en hardware embebido.

Yida Lin, Bing Xue, Mengjie Zhang + 2 more2026-02-24⚡ eess

Efficient endometrial carcinoma screening via cross-modal synthesis and gradient distillation

Este estudio presenta un marco de aprendizaje profundo eficiente y automatizado que combina la síntesis de imágenes de ultrasonido a partir de resonancia magnética mediante una red guiada por estructura y la destilación de gradientes para un cribado de carcinoma endometrial con alta precisión y bajo costo computacional, superando la capacidad diagnóstica de los ecografistas expertos en entornos de atención primaria con recursos limitados.

Dongjing Shan, Yamei Luo, Jiqing Xuan + 7 more2026-02-24🤖 cs.AI

M3S-Net: Multimodal Feature Fusion Network Based on Multi-scale Data for Ultra-short-term PV Power Forecasting

Este artículo presenta M3S-Net, una red neuronal multimodal innovadora que integra convoluciones parciales de múltiples escalas, transformadas de Fourier y un módulo de interacción Mamba dinámico para mejorar la precisión de la predicción de potencia fotovoltaica a muy corto plazo mediante una fusión profunda de características visuales y meteorológicas.

Penghui Niu, Taotao Cai, Suqi Zhang + 4 more2026-02-24💻 cs

DerMAE: Improving skin lesion classification through conditioned latent diffusion and MAE distillation

DerMAE mejora la clasificación de lesiones cutáneas en entornos clínicos al generar imágenes sintéticas mediante modelos de difusión condicionados por clase, preentrenar grandes modelos ViT con MAE para extraer características robustas y transferir ese conocimiento a modelos ligeros mediante destilación, logrando así un alto rendimiento en dispositivos móviles a pesar del desequilibrio de clases.

Francisco Filho, Kelvin Cunha, Fábio Papais + 6 more2026-02-24💻 cs

Contrastive meta-domain adaptation for robust skin lesion classification across clinical and acquisition conditions

Este artículo propone una estrategia de adaptación meta-dominio contrastiva que mejora la robustez y generalización de los modelos de clasificación de lesiones cutáneas al transferir representaciones visuales de conjuntos de datos dermoscópicos a entornos clínicos, mitigando así los efectos de las variaciones en la adquisición de imágenes.

Rodrigo Mota, Kelvin Cunha, Emanoel dos Santos + 6 more2026-02-24💻 cs

BigMaQ: A Big Macaque Motion and Animation Dataset Bridging Image and 3D Pose Representations

El artículo presenta BigMaQ, un conjunto de datos a gran escala de macacos rhesus que integra representaciones 3D de pose y forma en la reconocimiento de acciones animales, permitiendo la creación de avatares texturizados específicos y demostrando mejoras significativas en la precisión de la clasificación de comportamientos sociales.

Lucas Martini, Alexander Lappe, Anna Bognár + 2 more2026-02-24💻 cs

Make Some Noise: Unsupervised Remote Sensing Change Detection Using Latent Space Perturbations

El artículo presenta MaSoN, un marco de trabajo sin supervisión para la detección de cambios en teledetección que supera las limitaciones de los métodos existentes al sintetizar cambios diversos directamente en el espacio latente durante el entrenamiento, logrando así un rendimiento superior y una mayor generalización en diversos escenarios.

Blaž Rolih, Matic Fučka, Filip Wolf + 1 more2026-02-24🤖 cs.AI

Using Unsupervised Domain Adaptation Semantic Segmentation for Pulmonary Embolism Detection in Computed Tomography Pulmonary Angiogram (CTPA) Images

Este trabajo propone un marco de adaptación de dominio no supervisada basado en Transformers y una arquitectura Mean-Teacher, que integra mecanismos de alineación de prototipos, aprendizaje contrastivo y predicción local asistida por atención para mejorar significativamente la detección de embolias pulmonares en imágenes CTPA mediante segmentación semántica, superando los desafíos del desplazamiento de dominio y la escasez de anotaciones expertas.

Wen-Liang Lin, Yun-Chien Cheng2026-02-24⚡ eess

Gradient based Severity Labeling for Biomarker Classification in OCT

Este artículo propone una estrategia novedosa de aprendizaje contrastivo para imágenes médicas que genera etiquetas de severidad de enfermedades en escaneos OCT no etiquetados basándose en respuestas de gradientes de algoritmos de detección de anomalías, logrando así mejorar la precisión en la clasificación de biomarcadores de retinopatía diabética hasta en un 6% respecto a las líneas base auto-supervisadas.

Kiran Kokilepersaud, Mohit Prabhushankar, Ghassan AlRegib + 2 more2026-02-24🤖 cs.LG