Seeing Through the Noise: Improving Infrared Small Target Detection and Segmentation from Noise Suppression Perspective

Este artículo presenta la NS-FPN, una red de pirámide de características que mejora la detección y segmentación de objetivos pequeños en infrarrojos mediante la supresión de ruido en el dominio de la frecuencia, logrando así una reducción significativa de las falsas alarmas en comparación con los métodos basados en CNN.

Maoxun Yuan, Duanni Meng, Ziteng Xi + 4 more2026-02-25🤖 cs.AI

Decouple, Reorganize, and Fuse: A Multimodal Framework for Cancer Survival Prediction

Este trabajo presenta DeReF, un nuevo marco multimodal para la predicción de supervivencia del cáncer que supera las limitaciones de los métodos existentes mediante una estrategia de reorganización aleatoria de características y un módulo de fusión dinámica basado en expertos, mejorando así la generalización y la interacción de información entre modalidades en conjuntos de datos de cáncer de hígado y TCGA.

Huayi Wang, Haochao Ying, Yuyang Xu + 5 more2026-02-25💻 cs

Learning Unified Representations from Heterogeneous Data for Robust Heart Rate Modeling

Este artículo presenta un marco innovador que aprende representaciones unificadas para modelar la frecuencia cardíaca de manera robusta ante la heterogeneidad de datos, abordando tanto las diferencias entre dispositivos como las variaciones fisiológicas individuales mediante estrategias como el dropout aleatorio de características, la atención consciente del historial y el aprendizaje contrastivo, lo que se valida mediante un nuevo conjunto de datos (PARROTAO) y mejoras significativas en el rendimiento frente a métodos existentes.

Zhengdong Huang, Zicheng Xie, Wentao Tian + 3 more2026-02-25🤖 cs.LG

EHWGesture -- A dataset for multimodal understanding of clinical gestures

Este artículo presenta EHWGesture, un nuevo conjunto de datos multimodal que incluye grabaciones de video RGB-D y de eventos con seguimiento preciso de landmarks, diseñado para avanzar en la comprensión de gestos clínicos, la detección de activación y la evaluación de la calidad de la ejecución mediante cinco gestos relevantes capturados de 25 sujetos.

Gianluca Amprimo, Alberto Ancilotto, Alessandro Savino + 5 more2026-02-25🤖 cs.AI

SpecAware: A Spectral-Content Aware Foundation Model for Unifying Multi-Sensor Learning in Hyperspectral Remote Sensing Mapping

El artículo presenta SpecAware, un modelo fundacional novedoso que unifica el aprendizaje multi-sensor para el mapeo de imágenes hiperespectrales mediante un proceso de incrustación impulsado por hiperredes y el uso del conjunto de datos Hyper-400K, superando así las limitaciones de generalización causadas por la heterogeneidad espectral entre diferentes sensores.

Renjie Ji, Xue Wang, Chao Niu + 3 more2026-02-25💻 cs

A Cognitive Process-Inspired Architecture for Subject-Agnostic Brain Visual Decoding

Este trabajo presenta VCFlow, una arquitectura de decodificación visual jerárquica inspirada en el proceso cognitivo que, mediante el modelado de las vías ventral y dorsal y el aprendizaje contrastivo, permite reconstruir experiencias visuales continuas a partir de fMRI de sujetos no vistos sin necesidad de entrenamiento específico, ofreciendo una solución rápida y escalable para aplicaciones clínicas.

Jingyu Lu, Haonan Wang, Qixiang Zhang + 1 more2026-02-25🤖 cs.AI

Changes in Real Time: Online Scene Change Detection with Multi-View Fusion

Este trabajo presenta el primer método de detección de cambios en escena en tiempo real que, mediante fusión multi-vista auto-supervisada, estimación de pose rápida y actualizaciones guiadas en la representación 3D Gaussian Splatting, logra un rendimiento superior a los enfoques offline existentes operando a más de 10 FPS sin necesidad de etiquetas ni conocimiento de la pose.

Chamuditha Jayanga Galappaththige, Jason Lai, Lloyd Windrim + 3 more2026-02-25💻 cs

Seeing What Matters: Visual Preference Policy Optimization for Visual Generation

El artículo presenta ViPO, una variante de la Optimización de Política de Preferencia Visual que mejora el entrenamiento de modelos generativos al transformar las recompensas escalares en mapas de ventaja a nivel de píxel, permitiendo así una alineación más precisa con las preferencias humanas y una corrección efectiva de artefactos locales en imágenes y videos.

Ziqi Ni, Yuanzhi Liang, Rui Li + 4 more2026-02-25💻 cs