Soft Equivariance Regularization for Invariant Self-Supervised Learning

O artigo propõe a Regularização de Equivariância Suave (SER), um método plug-in que desacopla a imposição de invariância e equivariância em diferentes camadas de redes de aprendizado auto-supervisionado, melhorando significativamente o desempenho em tarefas de classificação, robustez a perturbações e detecção de objetos sem a necessidade de cabeças auxiliares ou rótulos de transformação.

Joohyung Lee, Changhun Kim, Hyunsu Kim, Kwanhyung Lee, Juho Lee2026-03-10🤖 cs.LG

HARP: HARmonizing in-vivo diffusion MRI using Phantom-only training

O artigo apresenta o HARP, um framework de aprendizado profundo que harmoniza dados de ressonância magnética de difusão in vivo entre diferentes scanners utilizando exclusivamente treinamento com fantomas, eliminando a necessidade de sujeitos humanos viajantes e viabilizando estudos clínicos em grande escala.

Hwihun Jeong, Qiang Liu, Kathryn E. Keenan, Elisabeth A. Wilde, Walter Schneider, Sudhir Pathak, Anthony Zuccolotto, Lauren J. O'Donnell, Lipeng Ning, Yogesh Rathi2026-03-10💻 cs

Thinking with Gaze: Sequential Eye-Tracking as Visual Reasoning Supervision for Medical VLMs

Este artigo apresenta um método que utiliza rastreamento ocular sequencial como supervisão para guiar modelos de visão e linguagem na radiologia, introduzindo tokens de olhar que ensinam o modelo a adquirir evidências visuais de forma temporalmente ordenada, semelhante ao raciocínio humano, resultando em desempenho superior e maior robustez.

Yiwei Li, Zihao Wu, Yanjun Lv, Hanqi Jiang, Weihang You, Zhengliang Liu, Dajiang Zhu, Xiang Li, Quanzheng Li, Tianming Liu, Lin Zhao2026-03-10💻 cs

Asymmetric Distillation and Information Retention in Capacity-Constrained Cross-Modal Transfer

Este artigo demonstra que a destilação de conhecimento assimétrica de um Vision Transformer para CNNs de capacidade limitada no CIFAR-10 induz um colapso dimensional severo que reduz a imunidade ao ruído do modelo, revelando um trade-off crítico onde restrições de capacidade extremas atuam como filtros de baixa frequência mais robustos do que modelos ligeiramente maiores que sofrem de fragilidade geométrica.

Kabir Thayani2026-03-10💻 cs

SIQA: Toward Reliable Scientific Image Quality Assessment

Este artigo apresenta o SIQA, um novo framework e benchmark para avaliação de qualidade de imagens científicas que, ao diferenciar entre validação de conhecimento e percepção visual, revela que os modelos de linguagem multimodal atuais conseguem alinhar-se bem com as avaliações de especialistas, mas ainda possuem compreensão científica substancialmente inferior.

Wenzhe Li, Liang Chen, Junying Wang, Yijing Guo, Ye Shen, Farong Wen, Chunyi Li, Zicheng Zhang, Guangtao Zhai2026-03-10💻 cs

Heterogeneous Decentralized Diffusion Models

Este artigo apresenta um framework eficiente para modelos de difusão descentralizados heterogêneos que permite o treinamento de especialistas com objetivos distintos (DDPM e Flow Matching) sem sincronização, reduzindo drasticamente os requisitos computacionais e de dados em comparação com abordagens anteriores enquanto mantém ou melhora a qualidade e a diversidade das imagens geradas.

Zhiying Jiang, Raihan Seraj, Marcos Villagra, Bidhan Roy2026-03-10🤖 cs.LG

XMACNet: An Explainable Lightweight Attention based CNN with Multi Modal Fusion for Chili Disease Classification

O artigo apresenta o XMACNet, uma rede neural convolucional leve e explicável que combina imagens RGB e índices de vegetação por meio de atenção automática e fusão multimodal para classificar doenças em pimenteiros com alta precisão, superando modelos existentes e permitindo implantação em dispositivos de borda.

Tapon Kumer Ray, Rajkumar Y, Shalini R, Srigayathri K, Jayashree S, Lokeswari P2026-03-10💻 cs

Step-Level Visual Grounding Faithfulness Predicts Out-of-Distribution Generalization in Long-Horizon Vision-Language Models

O artigo revela que a qualidade da ancoragem temporal (Step Grounding Rate) em modelos visão-linguagem de longo horizonte é um preditor robusto e independente de sua generalização para dados fora da distribuição, superando a precisão final e o tamanho do modelo como indicadores de confiabilidade.

Md Ashikur Rahman, Md Arifur Rahman, Niamul Hassan Samin, Abdullah Ibne Hanif Arean, Juena Ahmed Noshin2026-03-10💻 cs

MotionBits: Video Segmentation through Motion-Level Analysis of Rigid Bodies

O artigo apresenta o MotionBits, um novo conceito e método de segmentação baseado em equivalência cinemática espacial que identifica os menores elementos manipuláveis do mundo real, superando as abordagens atuais de segmentação semântica e oferecendo um benchmark (MoRiBo) e resultados superiores para tarefas de raciocínio e manipulação robótica.

Howard H. Qian, Kejia Ren, Yu Xiang, Vicente Ordonez, Kaiyu Hang2026-03-10💻 cs

Active View Selection with Perturbed Gaussian Ensemble for Tomographic Reconstruction

Este artigo apresenta o "Perturbed Gaussian Ensemble", um framework de seleção de vistas ativas que utiliza modelagem de incerteza e perturbação estocástica em campos de densidade de Gaussianas 3D para otimizar a reconstrução tomográfica com vistas esparsas, superando métodos existentes ao eliminar ambiguidades geométricas e artefatos físicos específicos da imagem de raios X.

Yulun Wu, Ruyi Zha, Wei Cao, Yingying Li, Yuanhao Cai, Yaoyao Liu2026-03-10💻 cs