Soft Equivariance Regularization for Invariant Self-Supervised Learning

El artículo propone la Regularización de Equivarianza Suave (SER), un método que desacopla la invariancia y la equivarianza en diferentes capas de la red para mejorar el aprendizaje auto-supervisado, logrando así un rendimiento superior en tareas de clasificación, robustez ante perturbaciones y detección de objetos sin requerir cabezas de predicción auxiliares ni aumentar significativamente el costo computacional.

Joohyung Lee, Changhun Kim, Hyunsu Kim, Kwanhyung Lee, Juho Lee2026-03-10🤖 cs.LG

HARP: HARmonizing in-vivo diffusion MRI using Phantom-only training

El estudio presenta HARP, un marco de aprendizaje profundo que armoniza datos de resonancia magnética de difusión in vivo utilizando exclusivamente un fantoma para el entrenamiento, eliminando así la necesidad de cohortes humanas multi-sitio y reduciendo significativamente la variabilidad entre escáneres.

Hwihun Jeong, Qiang Liu, Kathryn E. Keenan, Elisabeth A. Wilde, Walter Schneider, Sudhir Pathak, Anthony Zuccolotto, Lauren J. O'Donnell, Lipeng Ning, Yogesh Rathi2026-03-10💻 cs

Thinking with Gaze: Sequential Eye-Tracking as Visual Reasoning Supervision for Medical VLMs

Este trabajo propone utilizar secuencias de seguimiento ocular como señal de supervisión para guiar el razonamiento visual de los modelos de lenguaje-vision en radiología, logrando un rendimiento superior al estado del arte al imitar la adquisición temporal de evidencia humana.

Yiwei Li, Zihao Wu, Yanjun Lv, Hanqi Jiang, Weihang You, Zhengliang Liu, Dajiang Zhu, Xiang Li, Quanzheng Li, Tianming Liu, Lin Zhao2026-03-10💻 cs

Asymmetric Distillation and Information Retention in Capacity-Constrained Cross-Modal Transfer

Este trabajo demuestra que la destilación asimétrica de un modelo Vision Transformer masivo a redes CNN de capacidad restringida provoca un colapso dimensional severo que reduce la dimensión intrínseca de ~88 a ~16, lo que genera una fragilidad crítica ante el ruido que solo las arquitecturas extremadamente pequeñas pueden mitigar mediante un efecto de filtrado de paso bajo.

Kabir Thayani2026-03-10💻 cs

SIQA: Toward Reliable Scientific Image Quality Assessment

Este artículo presenta SIQA, un nuevo marco de evaluación para imágenes científicas que, a diferencia de los métodos tradicionales centrados en la percepción, mide tanto la validez y completitud del conocimiento científico como la claridad cognitiva, revelando mediante un benchmark y protocolos específicos que los modelos multimodales actuales muestran una mayor alineación en la puntuación que en la comprensión real del contenido científico.

Wenzhe Li, Liang Chen, Junying Wang, Yijing Guo, Ye Shen, Farong Wen, Chunyi Li, Zicheng Zhang, Guangtao Zhai2026-03-10💻 cs

On the Generalization Capacities of MLLMs for Spatial Intelligence

Este artículo propone un marco de MLLM consciente de la cámara que, al inyectar parámetros intrínsecos, aplicar aumentación de datos específica y destilar priores geométricos, supera las limitaciones de generalización de los enfoques basados únicamente en RGB para lograr una inteligencia espacial robusta y transferible entre diferentes cámaras.

Gongjie Zhang, Wenhao Li, Quanhao Qian, Jiuniu Wang, Deli Zhao, Shijian Lu, Ran Xu2026-03-10🤖 cs.LG

UWPD: A General Paradigm for Invisible Watermark Detection Agnostic to Embedding Algorithms

El artículo presenta UWPD, un nuevo paradigma para la detección universal de marcas de agua invisibles que, mediante el modelo FSNet y el conjunto de datos UniFreq-100K, identifica la presencia de marcas de agua sin necesidad de conocer el algoritmo de incrustación específico, superando las limitaciones de los métodos actuales que dependen de conocimientos previos.

Xiang Ao, Yiling Du, Zidan Wang, Mengru Chen2026-03-10💻 cs

HERO: Hierarchical Embedding-Refinement for Open-Vocabulary Temporal Sentence Grounding in Videos

Este artículo introduce HERO, un marco unificado para la localización temporal de oraciones en videos bajo configuración de vocabulario abierto, junto con los primeros benchmarks dedicados (Charades-OV y ActivityNet-OV), demostrando una superior capacidad de generalización frente a los métodos existentes mediante el refinamiento jerárquico de embeddings y la alineación multimodal.

Tingting Han, Xinsong Tao, Yufei Yin, Min Tan, Sicheng Zhao, Zhou Yu2026-03-10💻 cs

Vessel-Aware Deep Learning for OCTA-Based Detection of AMD

Este artículo presenta un marco de aprendizaje profundo con atención multiplicativa externa que integra mapas de biomarcadores vasculares, como la tortuosidad y la pérdida de capilares derivados de la angiografía por tomografía de coherencia óptica (OCTA), para mejorar la detección de la degeneración macular asociada a la edad (DMAE) mediante el enfoque en regiones fisiológicamente relevantes.

Margalit G. Mitzner, Moinak Bhattacharya, Zhilin Zou, Chao Chen, Prateek Prasanna2026-03-10💻 cs

Heterogeneous Decentralized Diffusion Models

Este artículo presenta un marco eficiente para el entrenamiento descentralizado de modelos de difusión heterogéneos que, al combinar objetivos de entrenamiento mixtos (DDPM y Flow Matching) y una arquitectura optimizada, reduce drásticamente los requisitos de cómputo y datos mientras mejora la calidad y diversidad de las imágenes generadas en comparación con enfoques anteriores homogéneos.

Zhiying Jiang, Raihan Seraj, Marcos Villagra, Bidhan Roy2026-03-10🤖 cs.LG

ButterflyViT: 354×\times Expert Compression for Edge Vision Transformers

El artículo presenta ButterflyViT, un método que logra una compresión de memoria de 354 veces para Vision Transformers con Mezclas de Expertos en dispositivos de borde, reemplazando el almacenamiento redundante de expertos independientes por una parametrización geométrica basada en un sustrato compartido y rotaciones aprendidas, lo que permite escalar sub-linealmente el número de expertos sin pérdida significativa de precisión.

Aryan Karmore2026-03-10💻 cs

XMACNet: An Explainable Lightweight Attention based CNN with Multi Modal Fusion for Chili Disease Classification

El artículo presenta XMACNet, una red neuronal convolucional ligera y explicable que fusiona imágenes RGB e índices de vegetación mediante atención automática para clasificar enfermedades en chiles con alta precisión, superando a modelos existentes y facilitando su implementación en dispositivos de borde.

Tapon Kumer Ray, Rajkumar Y, Shalini R, Srigayathri K, Jayashree S, Lokeswari P2026-03-10💻 cs

HiDE: Hierarchical Dictionary-Based Entropy Modeling for Learned Image Compression

El artículo presenta HiDE, un marco de modelado de entropía basado en diccionarios jerárquicos para la compresión de imágenes aprendida que mejora la eficiencia de codificación al explotar priores externos estructurados y un estimador de parámetros contextual, logrando ahorros significativos en la tasa de bits en comparación con el estado del arte.

Haoxuan Xiong, Yuanyuan Xu, Kun Zhu, Yiming Wang, Baoliu Ye2026-03-10💻 cs

Step-Level Visual Grounding Faithfulness Predicts Out-of-Distribution Generalization in Long-Horizon Vision-Language Models

El estudio revela que la calidad del anclaje visual paso a paso en modelos visión-lingüísticos de largo horizonte es un indicador predictivo clave de su capacidad de generalización fuera de distribución, superando a la precisión final tradicional como medida de fiabilidad.

Md Ashikur Rahman, Md Arifur Rahman, Niamul Hassan Samin, Abdullah Ibne Hanif Arean, Juena Ahmed Noshin2026-03-10💻 cs

MotionBits: Video Segmentation through Motion-Level Analysis of Rigid Bodies

Este artículo presenta MotionBits, un concepto y método de segmentación sin aprendizaje que define unidades de movimiento basadas en equivalencia cinemática espacial, junto con el benchmark MoRiBo, logrando un rendimiento superior al estado del arte en la segmentación de cuerpos rígidos para tareas de razonamiento y manipulación robótica.

Howard H. Qian, Kejia Ren, Yu Xiang, Vicente Ordonez, Kaiyu Hang2026-03-10💻 cs

Active View Selection with Perturbed Gaussian Ensemble for Tomographic Reconstruction

Este artículo presenta el marco "Perturbed Gaussian Ensemble", un método de selección activa de vistas diseñado para la reconstrucción tomográfica con 3DGS que identifica primitivas gaussianas inciertas mediante escalado estocástico de densidad para seleccionar proyecciones que maximicen la varianza estructural, mejorando así la fidelidad de la reconstrucción en tomografía computarizada de vistas escasas.

Yulun Wu, Ruyi Zha, Wei Cao, Yingying Li, Yuanhao Cai, Yaoyao Liu2026-03-10💻 cs