Beyond Anatomy: Explainable ASD Classification from rs-fMRI via Functional Parcellation and Graph Attention Networks

Este estudio demuestra que un marco de aprendizaje profundo basado en grafos, que utiliza parcellaciones funcionales (MSDL) en lugar de las anatómicas y un ensemble de redes de atención gráfica, logra una precisión del 95% en la clasificación del autismo mediante rs-fMRI, validando además que las decisiones del modelo se alinean con la neuropatología del trastorno al identificar hubs clave de la red neuronal por defecto.

Syeda Hareem Madani, Noureen Bibi, Adam Rafiq Jeraj + 3 more2026-03-04💻 cs

NeighborMAE: Exploiting Spatial Dependencies between Neighboring Earth Observation Images in Masked Autoencoders Pretraining

El artículo presenta NeighborMAE, un modelo de autoencoder enmascarado que mejora el aprendizaje auto-supervisado de imágenes de observación terrestre al explotar las dependencias espaciales entre imágenes vecinas mediante una reconstrucción conjunta y una estrategia heurística dinámica para ajustar la proporción de enmascaramiento y el peso de la pérdida.

Liang Zeng, Valerio Marsocci, Wufan Zhao + 2 more2026-03-04💻 cs

EIMC: Efficient Instance-aware Multi-modal Collaborative Perception

El paper presenta EIMC, un paradigma innovador de percepción colaborativa multimodal que mejora la seguridad en la conducción autónoma mediante la inyección de voxels colaborativos ligeros y un protocolo de consenso basado en mapas de calor para solicitar solo los vectores de instancias más críticos, logrando así un alto rendimiento en detección (73.01% AP@0.5) con una reducción del 87.98% en el uso de ancho de banda.

Kang Yang, Peng Wang, Lantao Li + 4 more2026-03-04💻 cs

SemGS: Feed-Forward Semantic 3D Gaussian Splatting from Sparse Views for Generalizable Scene Understanding

SemGS es un marco de trabajo feed-forward que reconstruye campos semánticos 3D generalizables a partir de vistas escasas mediante una arquitectura de doble rama y un mecanismo de atención consciente de la cámara, logrando un estado del arte en la síntesis de nuevas vistas semánticas con inferencia rápida y alta generalización.

Sheng Ye, Zhen-Hui Dong, Ruoyu Fan + 2 more2026-03-04💻 cs

Generalizable Knowledge Distillation from Vision Foundation Models for Semantic Segmentation

El artículo presenta GKD, un marco de destilación de conocimiento que mejora la generalización en la segmentación semántica al desacoplar el aprendizaje de representaciones de la adaptación a la tarea mediante una destilación selectiva basada en consultas, superando así a los métodos convencionales en escenarios de distribución cambiante.

Chonghua Lv, Dong Zhao, Shuang Wang + 4 more2026-03-04💻 cs

CAWM-Mamba: A unified model for infrared-visible image fusion and compound adverse weather restoration

El artículo presenta CAWM-Mamba, un marco unificado basado en Mamba que realiza por primera vez la fusión de imágenes infrarrojas y visibles junto con la restauración de condiciones climáticas adversas compuestas mediante módulos especializados para el preprocesamiento, la interacción multimodal y la descomposición en el espacio de wavelets, logrando un rendimiento superior en benchmarks y tareas de percepción downstream.

Huichun Liu, Xiaosong Li, Zhuangfan Huang + 3 more2026-03-04💻 cs

SOLAR: SVD-Optimized Lifelong Attention for Recommendation

El artículo presenta SOLAR, un marco de modelado de secuencias para sistemas de recomendación que utiliza una atención optimizada mediante descomposición SVD para reducir la complejidad computacional de O(N2d)O(N^2 d) a O(Ndr)O(Ndr) sin perder precisión en matrices de bajo rango, permitiendo manejar secuencias de comportamiento masivas y logrando mejoras significativas en las visualizaciones de video en el escenario en línea de Kuaishou.

Chenghao Zhang, Chao Feng, Yuanhao Pu + 8 more2026-03-04🤖 cs.LG

Maximizing Generalization: The Effect of Different Augmentation Techniques on Lightweight Vision Transformer for Bengali Character Classification

Este estudio demuestra que la combinación de las técnicas de aumento de datos "Random Affine" y "Color Jitter" optimiza el rendimiento del modelo ligero EfficientViT para la clasificación de caracteres manuscritos bengalíes, alcanzando una precisión superior al 97% en conjuntos de datos con recursos limitados.

Rafi Hassan Chowdhury, Naimul Haque, Kaniz Fatiha2026-03-04💻 cs