Neural Prior Estimation: Learning Class Priors from Latent Representations

Este trabajo presenta el Estimador de Prioridad Neuronal (NPE), un marco teórico y práctico que aprende estimaciones de log-prior basadas en representaciones latentes para corregir el sesgo inducido por el desequilibrio de clases mediante ajuste de logits, logrando mejoras consistentes en tareas de clasificación y segmentación semántica sin requerir conteos de clases explícitos.

Masoud Yavari, Payman Moallem2026-02-23🤖 cs.LG

On the Evaluation Protocol of Gesture Recognition for UAV-based Rescue Operation based on Deep Learning: A Subject-Independence Perspective

Este artículo demuestra que los resultados de casi perfecta precisión en el reconocimiento de gestos para operaciones de rescate con UAV, reportados por Liu y Szirányi, son inválidos debido a una fuga de datos causada por una división aleatoria de entrenamiento y prueba a nivel de cuadro que no garantiza la generalización a sujetos no vistos, subrayando así la necesidad crítica de una partición de datos independiente del sujeto.

Domonkos Varga2026-02-23💻 cs

TopoGate: Quality-Aware Topology-Stabilized Gated Fusion for Longitudinal Low-Dose CT New-Lesion Prediction

El artículo presenta TopoGate, un modelo ligero e interpretable que utiliza una fusión gating controlada por la calidad de la imagen, la consistencia de registro y la estabilidad topológica para mejorar la predicción de nuevas lesiones en seguimientos longitudinales de TC de baja dosis, logrando un mejor rendimiento y una mayor fiabilidad al priorizar la apariencia visual cuando la calidad de la imagen se degrada.

Seungik Cho2026-02-23⚡ eess

A Single Image and Multimodality Is All You Need for Novel View Synthesis

Este trabajo presenta un marco de reconstrucción de profundidad multimodal que utiliza mediciones de rango escasas, como radar o LiDAR, para generar mapas de profundidad densos y cuantificar la incertidumbre, mejorando así significativamente la consistencia geométrica y la calidad visual en la síntesis de nuevas vistas basada en difusión sin modificar el modelo generativo subyacente.

Amirhosein Javadi, Chi-Shiang Gau, Konstantinos D. Polyzos + 1 more2026-02-23💻 cs

ROCKET: Residual-Oriented Multi-Layer Alignment for Spatially-Aware Vision-Language-Action Models

ROCKET es un marco de alineación de representaciones multi-capas basado en residuos que, mediante un proyector compartido y una estrategia de activación dispersa, mejora la comprensión espacial de los modelos de Visión-Lenguaje-Acción con un bajo costo computacional, logrando un rendimiento superior en tareas de manipulación robótica.

Guoheng Sun, Tingting Du, Kaixi Feng + 6 more2026-02-23🤖 cs.AI

From Global Radiomics to Parametric Maps: A Unified Workflow Fusing Radiomics and Deep Learning for PDAC Detection

Este trabajo propone un marco unificado que integra características radiómicas seleccionadas a nivel global y de mapas paramétricos dentro de una red nnUNet mejorada, logrando un rendimiento superior en la detección del adenocarcinoma ductal pancreático (PDAC) y demostrando el valor complementario de los datos radiómicos para los modelos de aprendizaje profundo.

Zengtian Deng, Yimeng He, Yu Shi + 4 more2026-02-23⚡ eess

Image Quality Assessment: Exploring Quality Awareness via Memory-driven Distortion Patterns Matching

Este artículo presenta el marco MQAF, un enfoque de evaluación de calidad de imagen inspirado en la memoria humana que utiliza un banco de patrones de distorsión para realizar tanto evaluaciones con referencia completa como sin referencia, superando así las limitaciones de los métodos actuales que dependen de imágenes de referencia ideales.

Xuting Lan, Mingliang Zhou, Xuekai Wei + 5 more2026-02-23💻 cs

MUOT_3M: A 3 Million Frame Multimodal Underwater Benchmark and the MUTrack Tracking Method

Este trabajo presenta MUOT_3M, el primer conjunto de datos multimodal de seguimiento de objetos submarinos con 3 millones de frames, y propone MUTrack, un método basado en SAM que fusiona visión y lenguaje para transferir conocimiento multimodal a un modelo unimodal, logrando un rendimiento superior y una velocidad de 24 FPS en diversas condiciones submarinas.

Ahsan Baidar Bakht, Mohamad Alansari, Muhayy Ud Din + 5 more2026-02-23💻 cs

DeepSVU: Towards In-depth Security-oriented Video Understanding via Unified Physical-world Regularized MoE

Este artículo presenta DeepSVU, una nueva tarea de comprensión de video orientada a la seguridad que va más allá de la detección de amenazas para analizar sus causas, abordando el desafío de modelar información física mediante un enfoque innovador de expertos mezclados (MoE) unificado y regularizado (UPRM) que demuestra un rendimiento superior en conjuntos de datos especializados.

Yujie Jin, Wenxin Zhang, Jingjing Wang + 1 more2026-02-23🤖 cs.AI

Faster Training, Fewer Labels: Self-Supervised Pretraining for Fine-Grained BEV Segmentation

Este artículo presenta una estrategia de entrenamiento en dos fases que utiliza preentrenamiento auto-supervisado mediante reproyección diferenciable y pseudo-etiquetas semánticas para lograr una segmentación de marcas viales en vista cenital (BEV) de alta precisión, reduciendo a la mitad la necesidad de datos anotados y el tiempo de entrenamiento en comparación con los métodos supervisados tradicionales.

Daniel Busch, Christian Bohn, Thomas Kurbiel + 3 more2026-02-23💻 cs

Comparative Assessment of Multimodal Earth Observation Data for Soil Moisture Estimation

Este estudio presenta un marco de estimación de humedad del suelo a 10 metros de resolución en Europa que combina datos de Sentinel-1, Sentinel-2 y ERA-5 mediante aprendizaje automático, demostrando que los índices espectrales tradicionales con modelos de ensemble son tan efectivos como las representaciones de modelos fundacionales para esta tarea.

Ioannis Kontogiorgakis, Athanasios Askitopoulos, Iason Tsardanidis + 4 more2026-02-23🤖 cs.LG

DohaScript: A Large-Scale Multi-Writer Dataset for Continuous Handwritten Hindi Text

El artículo presenta DohaScript, un conjunto de datos a gran escala y multi-escritor de texto manuscrito hindi continuo, diseñado para superar las limitaciones de los recursos existentes mediante un corpus paralelo controlado que facilita el análisis de variaciones estilísticas y el avance en tareas de reconocimiento y generación de escritura en Devanagari.

Kunwar Arpit Singh, Ankush Prakash, Haroon R Lone2026-02-23🤖 cs.AI

OODBench: Out-of-Distribution Benchmark for Large Vision-Language Models

Este artículo presenta OODBench, un nuevo benchmark automatizado de 40.000 instancias para evaluar el rendimiento de los Modelos de Visión y Lenguaje ante datos fuera de distribución (OOD), revelando que los modelos actuales sufren un notable deterioro en estos escenarios y proponiendo una métrica de evaluación escalonada para medir su impacto en preguntas de diversa dificultad.

Ling Lin, Yang Bai, Heng Su + 5 more2026-02-23🤖 cs.AI