A Benchmark Study of Neural Network Compression Methods for Hyperspectral Image Classification

Este estudio realiza una evaluación sistemática de tres estrategias de compresión de redes neuronales (poda, cuantización y destilación de conocimiento) para la clasificación de imágenes hiperespectrales, demostrando que es posible reducir significativamente el tamaño y el costo computacional de los modelos manteniendo un rendimiento competitivo adecuado para su despliegue en plataformas con recursos limitados.

Sai Shi2026-03-06💻 cs

Are Multimodal LLMs Ready for Surveillance? A Reality Check on Zero-Shot Anomaly Detection in the Wild

Este trabajo evalúa la viabilidad de los modelos de lenguaje multimodal para la detección de anomalías en vídeo en entornos reales, revelando que, aunque su rendimiento cero-disparo es inicialmente limitado por un sesgo conservador que reduce drásticamente la recuperación, el uso de instrucciones específicas puede mejorar significativamente la puntuación F1, aunque la recuperación sigue siendo un cuello de botella crítico.

Shanle Yao, Armin Danesh Pazho, Narges Rashvand + 1 more2026-03-06💻 cs

Evaluating GPT-5 as a Multimodal Clinical Reasoner: A Landscape Commentary

Este comentario de panorama evalúa a la familia GPT-5 y revela que, aunque representa un avance significativo en el razonamiento clínico multimodal y supera a su predecesor en tareas textuales y de mamografía, su rendimiento moderado en neurorradiología y su inferioridad frente a modelos especializados en tareas perceptivas críticas indican que aún no puede sustituir a los sistemas diseñados específicamente para dominios altamente especializados.

Alexandru Florea, Shansong Wang, Mingzhe Hu + 5 more2026-03-06💻 cs

DSA-SRGS: Super-Resolution Gaussian Splatting for Dynamic Sparse-View DSA Reconstruction

Este artículo presenta DSA-SRGS, el primer marco de *gaussian splatting* de superresolución para la reconstrucción dinámica de angiografía por sustracción digital (DSA) con vistas escasas, que integra aprendizaje de texturas multirresolución y densificación radiativa de subpíxeles para recuperar detalles vasculares finos y superar las limitaciones de desenfoque y aliasing de los métodos actuales.

Shiyu Zhang, Zhicong Wu, Huangxuan Zhao + 7 more2026-03-06💻 cs

Privacy-Aware Camera 2.0 Technical Report

Este artículo propone un marco de percepción que preserva la privacidad mediante una arquitectura colaborativa borde-nube que transforma las imágenes en vectores de características abstractos e irreconstruibles en el borde para eliminar la identidad, permitiendo al mismo tiempo la recuperación de referencias visuales ilustrativas en la nube para el reconocimiento de comportamientos sin exponer datos visuales crudos.

Huan Song, Shuyu Tian, Ting Long + 5 more2026-03-06💻 cs

LAW & ORDER: Adaptive Spatial Weighting for Medical Diffusion and Segmentation

Este artículo presenta "LAW & ORDER", un enfoque que utiliza adaptadores de red para el ponderamiento espacial adaptativo, mejorando significativamente tanto la síntesis de imágenes médicas mediante difusión como la segmentación eficiente de lesiones, logrando avances sustanciales en métricas de calidad generativa y precisión de segmentación en conjuntos de datos de pólipos y tumores renales.

Anugunj Naman, Ayushman Singh, Gaibo Zhang + 1 more2026-03-06💻 cs

Guiding Diffusion-based Reconstruction with Contrastive Signals for Balanced Visual Representation

Este trabajo presenta la Reconstrucción Contrastiva de Difusión (DCR), un método que integra señales contrastivas derivadas de imágenes reconstruidas dentro del proceso de difusión para equilibrar la capacidad discriminativa y la percepción de detalles en las representaciones visuales de CLIP, superando así las limitaciones de enfoques anteriores.

Boyu Han, Qianqian Xu, Shilong Bao + 4 more2026-03-06💻 cs

Meta-D: Metadata-Aware Architectures for Brain Tumor Analysis and Missing-Modality Segmentation

Este trabajo presenta Meta-D, una arquitectura que aprovecha los metadatos categóricos de los escáneres para guiar la extracción de características y mejorar tanto la detección de tumores cerebrales como la segmentación ante la ausencia de modalidades de imagen, logrando aumentos significativos en las métricas de rendimiento y una reducción de parámetros.

SangHyuk Kim, Daniel Haehn, Sumientra Rampersad2026-03-06💻 cs

Revisiting Shape from Polarization in the Era of Vision Foundation Models

Este trabajo demuestra que, al abordar las brechas de dominio mediante un conjunto de datos sintéticos de alta calidad basado en escaneos 3D reales y aumentos de datos conscientes del sensor, un modelo ligero entrenado con señales de polarización puede superar significativamente a los modelos fundacionales de visión basados únicamente en RGB en la estimación de normales de superficie, logrando un rendimiento superior con una fracción de los datos de entrenamiento y parámetros.

Chenhao Li, Taishi Ono, Takeshi Uemori + 1 more2026-03-06💻 cs

Multi-Paradigm Collaborative Adversarial Attack Against Multi-Modal Large Language Models

Este trabajo propone MPCAttack, un nuevo marco de ataque adversarial colaborativo que mejora la transferibilidad de ejemplos adversarios contra modelos de lenguaje grandes multimodales mediante la optimización conjunta de representaciones semánticas visuales y textuales para equilibrar los sesgos de representación y superar las limitaciones de los métodos existentes.

Yuanbo Li, Tianyang Xu, Cong Hu + 3 more2026-03-06💻 cs