Asymmetric Distillation and Information Retention in Capacity-Constrained Cross-Modal Transfer

Este artigo demonstra que a destilação de conhecimento assimétrica de um Vision Transformer para CNNs de capacidade limitada no CIFAR-10 induz um colapso dimensional severo que reduz a imunidade ao ruído do modelo, revelando um trade-off crítico onde restrições de capacidade extremas atuam como filtros de baixa frequência mais robustos do que modelos ligeiramente maiores que sofrem de fragilidade geométrica.

Kabir Thayani2026-03-10💻 cs

SIQA: Toward Reliable Scientific Image Quality Assessment

Este artigo apresenta o SIQA, um novo framework e benchmark para avaliação de qualidade de imagens científicas que, ao diferenciar entre validação de conhecimento e percepção visual, revela que os modelos de linguagem multimodal atuais conseguem alinhar-se bem com as avaliações de especialistas, mas ainda possuem compreensão científica substancialmente inferior.

Wenzhe Li, Liang Chen, Junying Wang, Yijing Guo, Ye Shen, Farong Wen, Chunyi Li, Zicheng Zhang, Guangtao Zhai2026-03-10💻 cs

Heterogeneous Decentralized Diffusion Models

Este artigo apresenta um framework eficiente para modelos de difusão descentralizados heterogêneos que permite o treinamento de especialistas com objetivos distintos (DDPM e Flow Matching) sem sincronização, reduzindo drasticamente os requisitos computacionais e de dados em comparação com abordagens anteriores enquanto mantém ou melhora a qualidade e a diversidade das imagens geradas.

Zhiying Jiang, Raihan Seraj, Marcos Villagra, Bidhan Roy2026-03-10🤖 cs.LG

XMACNet: An Explainable Lightweight Attention based CNN with Multi Modal Fusion for Chili Disease Classification

O artigo apresenta o XMACNet, uma rede neural convolucional leve e explicável que combina imagens RGB e índices de vegetação por meio de atenção automática e fusão multimodal para classificar doenças em pimenteiros com alta precisão, superando modelos existentes e permitindo implantação em dispositivos de borda.

Tapon Kumer Ray, Rajkumar Y, Shalini R, Srigayathri K, Jayashree S, Lokeswari P2026-03-10💻 cs

Step-Level Visual Grounding Faithfulness Predicts Out-of-Distribution Generalization in Long-Horizon Vision-Language Models

O artigo revela que a qualidade da ancoragem temporal (Step Grounding Rate) em modelos visão-linguagem de longo horizonte é um preditor robusto e independente de sua generalização para dados fora da distribuição, superando a precisão final e o tamanho do modelo como indicadores de confiabilidade.

Md Ashikur Rahman, Md Arifur Rahman, Niamul Hassan Samin, Abdullah Ibne Hanif Arean, Juena Ahmed Noshin2026-03-10💻 cs

MotionBits: Video Segmentation through Motion-Level Analysis of Rigid Bodies

O artigo apresenta o MotionBits, um novo conceito e método de segmentação baseado em equivalência cinemática espacial que identifica os menores elementos manipuláveis do mundo real, superando as abordagens atuais de segmentação semântica e oferecendo um benchmark (MoRiBo) e resultados superiores para tarefas de raciocínio e manipulação robótica.

Howard H. Qian, Kejia Ren, Yu Xiang, Vicente Ordonez, Kaiyu Hang2026-03-10💻 cs

Active View Selection with Perturbed Gaussian Ensemble for Tomographic Reconstruction

Este artigo apresenta o "Perturbed Gaussian Ensemble", um framework de seleção de vistas ativas que utiliza modelagem de incerteza e perturbação estocástica em campos de densidade de Gaussianas 3D para otimizar a reconstrução tomográfica com vistas esparsas, superando métodos existentes ao eliminar ambiguidades geométricas e artefatos físicos específicos da imagem de raios X.

Yulun Wu, Ruyi Zha, Wei Cao, Yingying Li, Yuanhao Cai, Yaoyao Liu2026-03-10💻 cs

ColonSplat: Reconstruction of Peristaltic Motion in Colonoscopy with Dynamic Gaussian Splatting

Este artigo apresenta o ColonSplat, um novo framework de *Gaussian Splatting* dinâmico e o conjunto de dados sintético DynamicColon, projetados para superar as limitações dos métodos atuais na reconstrução 3D precisa de movimentos peristálticos durante colonoscopias, garantindo consistência geométrica global.

Weronika Smolak-Dy\.zewska, Joanna Kaleta, Diego Dall'Alba, Przemysław Spurek2026-03-10💻 cs

IGLU: The Integrated Gaussian Linear Unit Activation Function

O artigo apresenta o IGLU, uma nova função de ativação paramétrica baseada em uma mistura de escalas de portas GELU que utiliza uma distribuição de Cauchy para garantir gradientes não nulos e maior robustez, além de sua aproximação computacionalmente eficiente (IGLU-Approx), ambas demonstrando desempenho competitivo ou superior ao ReLU e GELU em tarefas de visão e linguagem.

Mingi Kang, Zai Yang, Jeova Farias Sales Rocha Neto2026-03-10🤖 cs.LG