cs.CV artigos | Gist.Science

Soft Equivariance Regularization for Invariant Self-Supervised Learning

O artigo propõe a Regularização de Equivariância Suave (SER), um método plug-in que desacopla a imposição de invariância e equivariância em diferentes camadas de redes de aprendizado auto-supervisionado, melhorando significativamente o desempenho em tarefas de classificação, robustez a perturbações e detecção de objetos sem a necessidade de cabeças auxiliares ou rótulos de transformação.

Joohyung Lee, Changhun Kim, Hyunsu Kim, Kwanhyung Lee, Juho Lee2026-03-10🤖 cs.LG

HARP: HARmonizing in-vivo diffusion MRI using Phantom-only training

O artigo apresenta o HARP, um framework de aprendizado profundo que harmoniza dados de ressonância magnética de difusão in vivo entre diferentes scanners utilizando exclusivamente treinamento com fantomas, eliminando a necessidade de sujeitos humanos viajantes e viabilizando estudos clínicos em grande escala.

Hwihun Jeong, Qiang Liu, Kathryn E. Keenan, Elisabeth A. Wilde, Walter Schneider, Sudhir Pathak, Anthony Zuccolotto, Lauren J. O'Donnell, Lipeng Ning, Yogesh Rathi2026-03-10💻 cs

Thinking with Gaze: Sequential Eye-Tracking as Visual Reasoning Supervision for Medical VLMs

Este artigo apresenta um método que utiliza rastreamento ocular sequencial como supervisão para guiar modelos de visão e linguagem na radiologia, introduzindo tokens de olhar que ensinam o modelo a adquirir evidências visuais de forma temporalmente ordenada, semelhante ao raciocínio humano, resultando em desempenho superior e maior robustez.

Yiwei Li, Zihao Wu, Yanjun Lv, Hanqi Jiang, Weihang You, Zhengliang Liu, Dajiang Zhu, Xiang Li, Quanzheng Li, Tianming Liu, Lin Zhao2026-03-10💻 cs

Asymmetric Distillation and Information Retention in Capacity-Constrained Cross-Modal Transfer

Este artigo demonstra que a destilação de conhecimento assimétrica de um Vision Transformer para CNNs de capacidade limitada no CIFAR-10 induz um colapso dimensional severo que reduz a imunidade ao ruído do modelo, revelando um trade-off crítico onde restrições de capacidade extremas atuam como filtros de baixa frequência mais robustos do que modelos ligeiramente maiores que sofrem de fragilidade geométrica.

Kabir Thayani2026-03-10💻 cs

Multi-label Instance-level Generalised Visual Grounding in Agriculture

Este artigo apresenta o gRef-CW, o primeiro conjunto de dados para Grounding Visual Generalizado na agricultura que inclui expressões negativas, e propõe o framework modular Weed-VG para superar as limitações dos modelos atuais na localização de instâncias de culturas e ervas daninhas em condições de campo.

Mohammadreza Haghighat, Alzayat Saleh, Mostafa Rahimi Azghadi2026-03-10💻 cs

SIQA: Toward Reliable Scientific Image Quality Assessment

Este artigo apresenta o SIQA, um novo framework e benchmark para avaliação de qualidade de imagens científicas que, ao diferenciar entre validação de conhecimento e percepção visual, revela que os modelos de linguagem multimodal atuais conseguem alinhar-se bem com as avaliações de especialistas, mas ainda possuem compreensão científica substancialmente inferior.

Wenzhe Li, Liang Chen, Junying Wang, Yijing Guo, Ye Shen, Farong Wen, Chunyi Li, Zicheng Zhang, Guangtao Zhai2026-03-10💻 cs

On the Generalization Capacities of MLLMs for Spatial Intelligence

O artigo propõe um framework de MLLM consciente da câmera que, ao integrar parâmetros intrínsecos, aplicar aumento de dados sintéticos e destilar prios geométricos, supera as abordagens baseadas apenas em RGB para alcançar uma generalização robusta em tarefas de inteligência espacial entre diferentes câmeras.

Gongjie Zhang, Wenhao Li, Quanhao Qian, Jiuniu Wang, Deli Zhao, Shijian Lu, Ran Xu2026-03-10🤖 cs.LG

Uncertainty-Aware Solar Flare Regression

Este estudo demonstra que a aplicação de regressão quantílica conformalizada a modelos de aprendizado profundo para previsão de erupções solares melhora significativamente a confiabilidade das previsões ao gerar intervalos de confiança com maior cobertura e comprimentos mais favoráveis.

Jinsu Hong, Chetraj Pandey, Berkay Aydin2026-03-10🔭 astro-ph

UWPD: A General Paradigm for Invisible Watermark Detection Agnostic to Embedding Algorithms

O artigo propõe o paradigma Universal Watermark Presence Detection (UWPD) e o modelo FSNet, que utilizam o conjunto de dados UniFreq-100K para detectar a presença de marcas d'água invisíveis em imagens de forma agnóstica aos algoritmos de incorporação, superando as limitações dos métodos existentes que dependem de conhecimento prévio.

Xiang Ao, Yiling Du, Zidan Wang, Mengru Chen2026-03-10💻 cs

HERO: Hierarchical Embedding-Refinement for Open-Vocabulary Temporal Sentence Grounding in Videos

O artigo apresenta o HERO, um novo quadro unificado para a tarefa de Ancoragem Temporal de Frases em Vídeos com Vocabulário Aberto (OV-TSGV), que introduz benchmarks dedicados e supera os métodos existentes ao alinhar efetivamente vídeo e linguagem através de embeddings hierárquicos e refinamento cruzado.

Tingting Han, Xinsong Tao, Yufei Yin, Min Tan, Sicheng Zhao, Zhou Yu2026-03-10💻 cs

Vessel-Aware Deep Learning for OCTA-Based Detection of AMD

Este artigo apresenta um novo quadro de aprendizado profundo com atenção multiplicativa externa que integra mapas de biomarcadores vasculares, como tortuosidade e dropout, derivados de OCTA, para melhorar a detecção interpretável e clinicamente relevante da degeneração macular relacionada à idade (DMRI).

Margalit G. Mitzner, Moinak Bhattacharya, Zhilin Zou, Chao Chen, Prateek Prasanna2026-03-10💻 cs

Heterogeneous Decentralized Diffusion Models

Este artigo apresenta um framework eficiente para modelos de difusão descentralizados heterogêneos que permite o treinamento de especialistas com objetivos distintos (DDPM e Flow Matching) sem sincronização, reduzindo drasticamente os requisitos computacionais e de dados em comparação com abordagens anteriores enquanto mantém ou melhora a qualidade e a diversidade das imagens geradas.

Zhiying Jiang, Raihan Seraj, Marcos Villagra, Bidhan Roy2026-03-10🤖 cs.LG

ButterflyViT: 354 $\times$ Expert Compression for Edge Vision Transformers

O artigo apresenta o ButterflyViT, um método inovador que supera as limitações de memória linear dos Mixture of Experts (MoE) em Vision Transformers para dispositivos de borda, alcançando uma redução de 354 vezes no uso de memória ao representar especialistas como reorientações geométricas de um substrato compartilhado, mantendo a precisão em tarefas de classificação de imagens.

Aryan Karmore2026-03-10💻 cs

XMACNet: An Explainable Lightweight Attention based CNN with Multi Modal Fusion for Chili Disease Classification

O artigo apresenta o XMACNet, uma rede neural convolucional leve e explicável que combina imagens RGB e índices de vegetação por meio de atenção automática e fusão multimodal para classificar doenças em pimenteiros com alta precisão, superando modelos existentes e permitindo implantação em dispositivos de borda.

Tapon Kumer Ray, Rajkumar Y, Shalini R, Srigayathri K, Jayashree S, Lokeswari P2026-03-10💻 cs

EarthBridge: A Solution for 4th Multi-modal Aerial View Image Challenge Translation Track

Este artigo apresenta o EarthBridge, um framework de tradução de imagens de alta fidelidade que combina modelos de ponte de difusão implícita e aprendizado contrastivo não emparelhado para converter eficazmente imagens aéreas entre os sensores SAR, EO e IR, alcançando a segunda posição no desafio MAVIC-T.

Zhenyuan Chen, Guanyuan Shen, Feng Zhang2026-03-10💻 cs

HiDE: Hierarchical Dictionary-Based Entropy Modeling for Learned Image Compression

O artigo apresenta o HiDE, um modelo de compressão de imagens aprendido que utiliza uma estrutura hierárquica de dicionários para explorar priores externos globais e locais, combinada com um estimador de parâmetros adaptativo, alcançando economias significativas de taxa de bits em comparação com o padrão VTM-12.1.

Haoxuan Xiong, Yuanyuan Xu, Kun Zhu, Yiming Wang, Baoliu Ye2026-03-10💻 cs

A Hybrid Machine Learning Model for Cerebral Palsy Detection

Este artigo apresenta um modelo híbrido de aprendizado de máquina que combina três CNNs (VGG19, Efficient-Net e ResNet50) com um classificador Bi-LSTM para detectar Cerebral Palsy em imagens de ressonância magnética de recém-nascidos, alcançando uma precisão de 98,83% superior a modelos pré-existentes.

Karan Kumar Singh, Nikita Gajbhiye, Gouri Sankar Mishra2026-03-10💻 cs

Step-Level Visual Grounding Faithfulness Predicts Out-of-Distribution Generalization in Long-Horizon Vision-Language Models

O artigo revela que a qualidade da ancoragem temporal (Step Grounding Rate) em modelos visão-linguagem de longo horizonte é um preditor robusto e independente de sua generalização para dados fora da distribuição, superando a precisão final e o tamanho do modelo como indicadores de confiabilidade.

Md Ashikur Rahman, Md Arifur Rahman, Niamul Hassan Samin, Abdullah Ibne Hanif Arean, Juena Ahmed Noshin2026-03-10💻 cs

MotionBits: Video Segmentation through Motion-Level Analysis of Rigid Bodies

O artigo apresenta o MotionBits, um novo conceito e método de segmentação baseado em equivalência cinemática espacial que identifica os menores elementos manipuláveis do mundo real, superando as abordagens atuais de segmentação semântica e oferecendo um benchmark (MoRiBo) e resultados superiores para tarefas de raciocínio e manipulação robótica.

Howard H. Qian, Kejia Ren, Yu Xiang, Vicente Ordonez, Kaiyu Hang2026-03-10💻 cs

Active View Selection with Perturbed Gaussian Ensemble for Tomographic Reconstruction

Este artigo apresenta o "Perturbed Gaussian Ensemble", um framework de seleção de vistas ativas que utiliza modelagem de incerteza e perturbação estocástica em campos de densidade de Gaussianas 3D para otimizar a reconstrução tomográfica com vistas esparsas, superando métodos existentes ao eliminar ambiguidades geométricas e artefatos físicos específicos da imagem de raios X.

Yulun Wu, Ruyi Zha, Wei Cao, Yingying Li, Yuanhao Cai, Yaoyao Liu2026-03-10💻 cs

← Anterior Próximo →

cs.CV